MCP-Universe: Benchmark für LLMs mit realen Modellkontext-Servern
Der neue Benchmark MCP‑Universe setzt neue Maßstäbe für die Bewertung großer Sprachmodelle (LLMs). Er nutzt das Model Context Protocol (MCP), ein aufkommender Standard, der LLMs ermöglicht, mit externen Datenquellen und Werkzeugen zu interagieren. Während bisherige Tests oft zu simpel waren, berücksichtigt MCP‑Universe echte Anwendungsszenarien, die langanhaltendes Denken und den Umgang mit umfangreichen, unbekannten Tool‑Sammlungen erfordern.