TurtleSoup-Bench: LLMs im kreativen Denken getestet

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird die Fähigkeit großer Sprachmodelle (LLMs) zum „imaginativen Denken“ untersucht – das heißt, wie sie in knappen Informationsumgebungen eigenständig Hypothesen aufbauen, prüfen und anpassen. Traditionelle Tests konzentrieren sich meist auf statische Aufgaben oder soziale Deduktion und greifen daher die dynamische, explorative Natur dieses Denkprozesses nicht ab.

Um diese Lücke zu schließen, wurde das klassische „Turtle Soup“-Spiel als Basis für ein umfassendes Forschungsframework gewählt. Das Ergebnis ist TurtleSoup-Bench, ein interaktives Benchmark mit 800 Rätseln in zwei Sprachen, die aus dem Internet sowie von Experten zusammengestellt wurden. Zusätzlich wurde der Mosaic-Agent entwickelt, ein spezieller Agent, der die Leistung der LLMs in diesem Setting bewertet.

Für die Bewertung wurde ein mehrdimensionales Protokoll eingeführt, das logische Konsistenz, Detailvollständigkeit und Ergebnisabgleich misst. Die Experimente mit führenden LLMs zeigen deutliche Leistungsgrenzen, häufig auftretende Fehlermuster und einen signifikanten Leistungsunterschied zu menschlichen Spielern. Diese Erkenntnisse liefern neue Einblicke in die kreative Denkfähigkeit von Sprachmodellen und legen die Grundlage für zukünftige Forschungen zu explorativem Agentenverhalten.

Ähnliche Artikel