TinyLLM: Kleine Sprachmodelle meistern Agentenaufgaben auf Edge-Geräten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie von arXiv (2511.22138v1) wird gezeigt, dass kleine Sprachmodelle (SLMs) in der Lage sind, komplexe agentische Aufgaben wie Funktions- und API-Aufrufe zuverlässig auszuführen – und das direkt auf Edge-Geräten ohne Cloud‑Abhängigkeit. Die Autoren nutzen das Berkeley Function Calling Leaderboard (BFCL), um die Leistung von Modellen wie TinyAgent, TinyLlama, Qwen und xLAM in verschiedenen Szenarien zu vergleichen.

Die Untersuchung umfasst mehrere Optimierungsansätze: klassisches supervised fine‑tuning (SFT), parameter‑effizientes Fine‑Tuning (PEFT), reinforcement‑learning‑basierte Methoden, Direct Preference Optimization (DPO) sowie hybride Kombinationen. Besonders hervorzuheben ist ein DPO‑Pipeline, die aus AgentBank‑Daten (z. B. ALFRED) erstellt wurde. Dabei werden SFT‑Datensätze in „gewählt‑abgelehnt“-Paare umgewandelt, wobei TinyLlama‑Antworten als abgelehnte Beispiele dienen und anschließend manuell validiert werden.

Die Ergebnisse verdeutlichen deutliche Unterschiede zwischen Modellgrößen: Mittelgroße Modelle mit 1–3 Milliarden Parametern übertreffen kompakte Modelle unter 1 Milliarde Parametern deutlich. Mit hybriden Optimierungsstrategien erreichen die Mittelmodelle eine Gesamtgenauigkeit von bis zu 65,74 % und eine Mehr‑Runde‑Genauigkeit von 55,62 %. Diese Zahlen unterstreichen, dass hybride Ansätze entscheidend sind, um kleine Sprachmodelle für effiziente, datenschutzfreundliche und latenzarme Agenten auf Edge‑Hardware zu optimieren.

Die Studie liefert damit einen klaren Fahrplan für die Entwicklung von autonomen Agenten, die ohne Cloud‑Abhängigkeit arbeiten können – ein wichtiger Schritt für die praktische Umsetzung von KI in ressourcenbeschränkten Umgebungen.

Ähnliche Artikel