Apple & Edinburgh stellen CLaRa vor: RAG mit 16‑128× semantischer Kompression
Apple und die University of Edinburgh haben ein neues Framework namens CLaRa (Continuous Latent Reasoning) vorgestellt, das Retrieval‑Augmented Generation (RAG) effizienter und genauer macht.
Traditionelle RAG‑Systeme kämpfen damit, dass jede Anfrage hunderte bis tausende Tokens in das begrenzte Kontextfenster packen muss, während Retriever und Generator noch als getrennte, nicht vernetzte Komponenten arbeiten. CLaRa löst dieses Problem, indem es die Dokumente semantisch komprimiert und gleichzeitig die latente Repräsentation beibehält.
Durch die kontinuierliche latente Logik können die Modelle die wichtigsten Informationen aus langen Texten extrahieren und in einem stark reduzierten Token‑Set speichern. Das Ergebnis ist eine Kompression von 16‑ bis 128‑fach im Vergleich zu herkömmlichen Ansätzen, ohne dass die Genauigkeit der Antworten leidet.
Die Veröffentlichung umfasst drei Varianten: CLaRa‑7B‑Base, CLaRa‑7B‑Instruct und CLaRa‑7B‑E2E, die jeweils unterschiedliche Einsatzszenarien abdecken – von Basis‑Modellen bis hin zu vollständig end‑to‑end trainierten Systemen.
Mit CLaRa können Entwickler RAG‑Anwendungen bauen, die schneller reagieren, weniger Rechenressourcen verbrauchen und gleichzeitig die Qualität der generierten Inhalte hochhalten. Die Technologie eröffnet neue Möglichkeiten für skalierbare KI‑Lösungen in Bereichen wie Kundenservice, Wissensmanagement und Content‑Erstellung.