TowerMind: Neues Tower-Defense-Umfeld für LLM-Agenten

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Mit dem neuen TowerMind-Umfeld eröffnet sich ein vielversprechender Testbereich für große Sprachmodelle (LLMs) als Agenten. Durch die Kombination von langfristiger Planung und taktischer Anpassung in Echtzeit-Strategiespielen können LLMs ihre Fähigkeiten in komplexen Szenarien unter Beweis stellen.

Im Gegensatz zu bisherigen RTS-basierten Testplattformen, die oft hohe Rechenkosten verursachen oder keine textbasierten Beobachtungen zulassen, bietet TowerMind eine ressourcenschonende Lösung. Das Umfeld nutzt das Tower-Defense-Genre und liefert multimodale Beobachtungen – Pixel, Text und strukturierte Spielzustände – sodass LLMs in einer realistischen, aber leichtgewichtigen Umgebung agieren können.

Ein besonderes Merkmal ist die Möglichkeit, Modellhalluzinationen gezielt zu prüfen. TowerMind ist zudem hochgradig anpassbar, sodass Entwickler eigene Szenarien und Schwierigkeitsgrade einbauen können.

Für die Bewertung wurden fünf Benchmark-Level entwickelt, die verschiedene multimodale Eingabemodi abdecken. Die Ergebnisse zeigen deutlich, dass aktuelle LLMs noch weit hinter menschlichen Experten zurückbleiben – sowohl in Bezug auf strategische Fähigkeiten als auch auf die Vermeidung von Halluzinationen.

Die Experimente verdeutlichen zudem typische Schwächen von LLM-Agenten: unzureichende Validierung von Planungen, fehlende Mehrdeutigkeit in Entscheidungen und ineffiziente Aktionsauswahl. TowerMind liefert damit ein wertvolles Werkzeug, um diese Herausforderungen zu identifizieren und gezielt zu adressieren.

Ähnliche Artikel