Neues Benchmark für LLM-Agenten: Blocksworld mit Model Context Protocol
Die Industrieautomation verlangt zunehmend nach flexiblen Steuerungsstrategien, die sich an wechselnde Aufgaben und Umgebungen anpassen können. Agenten, die auf Large Language Models (LLMs) basieren, bieten hierfür vielversprechende Möglichkeiten, doch bislang fehlt ein einheitliches Benchmarking-Framework, um verschiedene Ansätze systematisch zu vergleichen.
In der neuen Studie wird ein Benchmark vorgestellt, der eine ausführbare Simulationsumgebung für das klassische Blocksworld-Problem bereitstellt. Die Umgebung umfasst fünf unterschiedliche Komplexitätskategorien, die es ermöglichen, die Leistungsfähigkeit von LLM-Agenten unter variierenden Bedingungen zu testen.
Ein zentrales Element des Benchmarks ist das Model Context Protocol (MCP), ein standardisiertes Tool-Interface. Durch die Integration von MCP können unterschiedliche Agentenarchitekturen ohne implementierungsspezifische Anpassungen an das Benchmark-System angeschlossen und bewertet werden.
Zur Demonstration der Praxistauglichkeit wurde ein einzelner Agent implementiert, der die Benchmark erfolgreich nutzt. Die Ergebnisse liefern quantitative Messgrößen, die als Grundlage für den Vergleich verschiedener LLM-basierter Planungs- und Ausführungsansätze dienen können.