BudgetMem: Effiziente Langkontextverarbeitung mit selektiver Gedächtnissteuerung

Ein neues Modell namens BudgetMem, vorgestellt auf arXiv (2511.04919v1), löst ein zentrales Problem moderner Sprachmodelle: die hohen Kosten für Speicher und Rechenleistung bei der Verarbeitung langer Texte. Während aktuelle Ansätze Kontextfenster von 100 000 bis 1 Million Tokens ermöglichen, bleiben sie für ressourcenbeschränkte Systeme zu teuer.

BudgetMem nutzt eine intelligente Gedächtnisstrategie, die lernt, welche Informationen wirklich gespeichert werden müssen. Durch die Kombination von selektiven Speicherregeln und Merkmalen wie Entitätsdichte, TF‑IDF, Diskursmarkern und Positionsbias entscheidet das System, welche Daten unter strengen Budgetbeschränkungen abgelegt werden. Im Gegensatz zu herkömmlichen Retrieval‑Augmented‑Generation‑Systemen, die alle Textabschnitte speichern, setzt BudgetMem lernbasierte Gate‑Mechanismen ein und greift zusätzlich auf BM25‑Sparse‑Retrieval zurück, um relevante Informationen effizient abzurufen.

In umfangreichen Tests mit 700 Frage‑Antwort‑Paaren auf kurzen (237 Tokens) und langen (5 000–10 000 Tokens) Dokumenten, unter Einsatz von Llama‑3.2‑3B‑Instruct, zeigte BudgetMem beeindruckende Ergebnisse: Bei langen Texten sank der F1‑Score nur um 1,0 % im Vergleich zum Baseline‑RAG, während gleichzeitig 72,4 % Speicherplatz eingespart wurden. Die Analyse von Budget‑Sensitivität, Basis‑Vergleichen und Dokumentlängen bestätigt, dass die Vorteile von BudgetMem mit zunehmender Textlänge wachsen.

Diese Entwicklung bietet einen praktischen Weg, leistungsfähige Langkontext‑Systeme auch auf moderaten Hardwareplattformen einzusetzen, und eröffnet neue Möglichkeiten für Anwendungen, die umfangreiche Dokumente, mehrfache Dialogsitzungen oder Bücher analysieren müssen.

Ähnliche Artikel