LLMs verbessern: Mehr Kontext-Informationen steigern Personalisierung ohne Daten
Die jüngsten Fortschritte bei der Nachschulung großer Sprachmodelle (LLMs) beruhen bislang stark auf menschlich gelabelten Daten oder externen Prüfern. Da diese Daten bereits intensiv genutzt wurden und neue hochwertige…
- Die jüngsten Fortschritte bei der Nachschulung großer Sprachmodelle (LLMs) beruhen bislang stark auf menschlich gelabelten Daten oder externen Prüfern.
- Da diese Daten bereits intensiv genutzt wurden und neue hochwertige Datensätze teuer zu beschaffen sind, wird deutlich, dass echte Intelligenz weit über leicht verifizie…
- Daraus folgt die Notwendigkeit von Selbstverbesserungs‑Frameworks, die es Modellen ermöglichen, ohne externe Aufsicht zu lernen.
Die jüngsten Fortschritte bei der Nachschulung großer Sprachmodelle (LLMs) beruhen bislang stark auf menschlich gelabelten Daten oder externen Prüfern. Da diese Daten bereits intensiv genutzt wurden und neue hochwertige Datensätze teuer zu beschaffen sind, wird deutlich, dass echte Intelligenz weit über leicht verifizierbare Aufgaben hinausgeht. Daraus folgt die Notwendigkeit von Selbstverbesserungs‑Frameworks, die es Modellen ermöglichen, ohne externe Aufsicht zu lernen.
In dieser Arbeit wird Mutual Information Preference Optimization (MIPO) vorgestellt – ein kontrastives Datenaugmentierungsverfahren, das Präferenzpaare erzeugt. Für ein gegebenes Prompt wird eine positive Antwort generiert, die auf dem korrekten Kontext basiert, während eine negative Antwort aus einem zufälligen, nicht zusammenhängenden Prompt stammt. Anschließend wird Direct Preference Optimization (DPO) eingesetzt, um aus diesen Paaren zu lernen und die punktweise bedingte gegenseitige Information (MI) zwischen Prompt und Antwort zu maximieren.
Experimentelle Ergebnisse mit Llama‑ und Qwen‑Instruct‑Modellen zeigen, dass MIPO die Personalisierung um 3 % bis 40 % verbessert, wenn es darauf abzielt, die MI zwischen Nutzer‑Kontext und Antwort zu erhöhen. Überraschenderweise führt die gleiche Methode auch zu einer Leistungssteigerung von 1 % bis 18 % bei Mathematik‑ und Multiple‑Choice‑Aufgaben – und das ohne zusätzliche Daten oder menschliche Aufsicht.
Diese Befunde legen nahe, dass die Maximierung von gegenseitiger Information ein vielversprechender Ansatz für die selbstständige Weiterentwicklung von LLMs darstellt und die Abhängigkeit von externen Datenquellen erheblich reduzieren kann.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.