Sprachmodelle verfehlen interaktive Erkundung – Studie zeigt Unterexploration
Eine neue arXiv‑Studie aus dem Januar 2026 zeigt, dass selbst die fortschrittlichsten Sprachmodelle Schwierigkeiten haben, interaktive Umgebungen mit begrenztem Interaktionsbudget zu erkunden. Die Autoren haben drei parametrisierbare Aufgaben entwickelt, deren Erkundungsschwierigkeit einstellbar ist und sowohl kontinuierliche als auch diskrete Umgebungen abdeckt.
Die Ergebnisse sind eindeutig: Die Modelle zeigen systematisch Unterexploration und liefern suboptimale Lösungen. In vielen Fällen schneiden sie deutlich schlechter ab als ein einfaches Explore‑Exploit‑Heuristik‑Baseline, und die Leistung verbessert sich mit steigendem Budget nur schwach.
Um die Situation zu verbessern, wurden zwei leichte Interventionen getestet. Erstens wurde das feste Budget in parallele Ausführungen aufgeteilt – ein Ansatz, der theoretisch keinen Gewinn verspricht, aber in der Praxis die Leistung überraschend steigert. Zweitens wurde die Interaktionsgeschichte periodisch zusammengefasst, wodurch wichtige Entdeckungen erhalten bleiben und die Erkundung weiter optimiert wird.
Die Studie unterstreicht, dass aktuelle Sprachmodelle noch nicht über robuste Erkundungsstrategien verfügen und dass gezielte Maßnahmen wie Budget‑Parallelisierung und Historien‑Zusammenfassung entscheidend sein können, um ihre Leistung in interaktiven Aufgaben zu verbessern.