DASD-4B-Thinking: Open-Source-Modell setzt neue Maßstäbe in Langkette-Logik

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In einem neuen Bericht präsentiert die Open-Source-Community DASD-4B-Thinking, ein leichtgewichtiges, aber hochleistungsfähiges Modell, das bei anspruchsvollen Tests in Mathematik, wissenschaftlichem Denken und Codegenerierung die Konkurrenz übertrifft – sogar größere Modelle bleiben zurück. Das Modell nutzt eine völlig offene Architektur und demonstriert damit, dass Größe nicht zwangsläufig die Leistung bestimmt.

Der Autor kritisiert die bisher vorherrschende Praxis der „Sequence‑Level‑Distillation“, bei der Modelle lediglich auf von Lehrern generierten Antworten mittels SFT (Supervised Fine‑Tuning) trainiert werden. Obwohl diese Methode effizient ist, fehlt ihr die Möglichkeit, die volle Wahrscheinlichkeitsverteilung des Lehrers zu erfassen. Dadurch entstehen drei zentrale Schwachstellen: eine unzureichende Repräsentation der Lehrer‑Verteilung, ein Missverhältnis zwischen Lehrer‑Output und Lernkapazität des Schülers sowie ein Exposure‑Bias, der durch teacher‑forced Training entsteht.

Um diese Probleme zu beheben, schlägt die Arbeit eine neue Distillationsstrategie vor, die die Verteilung des Lehrers explizit mit der Lernfähigkeit des Schülers abgleicht. Durch die Einführung einer „Distribution‑Aligned Sequence Distillation“ wird die Interaktion zwischen Lehrer und Schüler während des Trainings stärker betont, wodurch das Modell die Generalisierung des Lehrers besser übernimmt und gleichzeitig die Autoregressive Inferenz konsistenter gestaltet.

Die Ergebnisse zeigen, dass DASD-4B-Thinking nicht nur die Leistung von Open‑Source‑Modellen auf dem aktuellen Stand der Technik festsetzt, sondern auch einen neuen Ansatz für die Distillation von Sprachmodellen etabliert, der sowohl effizient als auch robust gegenüber den klassischen Limitationen ist.

Ähnliche Artikel