MAXS: Meta-adaptive Exploration verbessert LLM-Agenten bei Tool-Integration
In der neuesten Veröffentlichung auf arXiv (2601.09259v1) stellen die Autoren das MAXS-System vor, das die Leistungsfähigkeit von Large Language Model (LLM)-Agenten durch eine meta-adaptive Exploration deutlich steigert. Dabei wird die bisherige Schwäche von Agenten – die lokale, kurzsichtige Generierung ohne Lookahead – sowie die Instabilität von Entscheidungswegen, bei denen kleine Fehler zu divergenten Pfaden führen, gezielt adressiert.
MAXS nutzt eine Lookahead-Strategie, die mehrere Schritte vorwärts geht und dabei den Nutzen von Tool-Ausführungen abschätzt. Durch die Kombination von Schritt‑Konsistenz‑Varianz und Trendneigungen zwischen aufeinanderfolgenden Schritten wählt das System stabile, konsistente und wertvolle Reaktionsschritte aus. Zusätzlich sorgt ein Trajektorien‑Konvergenzmechanismus dafür, dass weitere Rollouts abgebrochen werden, sobald die Pfadkonsistenz erreicht ist, wodurch die Rechenkosten reduziert und gleichzeitig die globale Effektivität erhalten bleibt.
Die Autoren haben MAXS an drei Basismodellen – MiMo‑VL‑7B, Qwen2.5‑VL‑7B und Qwen2.5‑VL‑32B – sowie an fünf unterschiedlichen Datensätzen getestet. Die Ergebnisse zeigen, dass MAXS bestehende Methoden sowohl in der Leistung als auch in der Inferenzeffizienz übertrifft. Eine detaillierte Analyse bestätigt die Wirksamkeit der Lookahead-Strategie und der gezielten Tool‑Nutzung.