Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Distillation”
Forschung

<h1>Harmonische Datensatz‑Distillation revolutioniert Zeitreihenprognosen</h1> <p>Die Vorhersage von Zeitreihen steht heute vor enormen Rechen- und Speicheraufwand, weil reale Datensätze immer größer werden. Dataset‑Distillation (DD) bietet eine Lösung, indem sie einen kompakten Datensatz erzeugt, der das Training genauso gut wie das Original ermöglicht. Traditionelle DD‑Ansätze sind jedoch für Zeitreihen nicht optimiert, leiden unter architektonischem Overfitting und skaliert schlecht.</p> <p>Um diese Prob

arXiv – cs.LG
Forschung

<h1>Multi-Agent-Training verbessert Produktforschung im E‑Commerce</h1> <p>Large Language Model (LLM)-basierte Agenten zeigen großes Potenzial für die konversationelle Einkaufsunterstützung, doch bisherige Systeme fehlen oft die nötige Tiefe und Kontextbreite, um komplexe Produktrecherchen durchzuführen. Gleichzeitig liefert das Deep‑Research-Paradigma zwar umfangreiche Informationen für die Websuche, stößt aber bei der Übertragung auf den E‑Commerce-Bereich auf erhebliche Lücken.</p> <p>Mit dem neuen Ansat

arXiv – cs.AI
Forschung

Distillation: Wie wichtig ist sie für chinesische LLMs? Anthropic hat kürzlich einen Beitrag veröffentlicht, in dem die Anfälligkeit von distillierten Modellen für sogenannte „Distillation Attacks“ beleuchtet wird. In diesem Kontext haben Fachleute aus China ihre Sichtweise dargelegt: Distillation bleibt ein zentraler Prozess, um große Sprachmodelle in kompaktere, ressourcenschonende Varianten zu überführen, die für den Einsatz in mobilen und eingebetteten Systemen geeignet sind. Die Experten betonen, d

Interconnects – Nathan Lambert
Forschung

<h1>CoT-Distillation: Curriculum Learning mit strukturiertem Maskieren & GRPO</h1> <p>Die Übertragung von Chain‑of‑Thought‑(CoT)‑Logik aus großen Sprachmodellen in kompakte Nachschreibermodelle stellt ein zentrales Problem dar: die ausführlichen Begründungen der Lehrermodelle sind für kleinere Modelle oft zu umfangreich, um sie exakt zu replizieren. Traditionelle Ansätze reduzieren die Logik auf einen einzigen Schritt, wodurch die wertvolle Interpretierbarkeit verloren geht.</p> <p>In der neuen Studie wird

arXiv – cs.AI
Forschung

<p>Forscher haben eine neue Technik entwickelt, um Sprachmodelle vor unerlaubter Distillation zu schützen.</p> <p>Knowledge Distillation ist ein weit verbreitetes Verfahren, bei dem große Sprachmodelle ihr Wissen an kleinere, effizientere Modelle übergeben. Doch wenn diese Technik ohne Genehmigung eingesetzt wird, profitiert man unrechtmäßig von den enormen Entwicklungsaufwendungen und Kosten, die in die Schaffung hochentwickelter Modelle geflossen sind.</p> <p>Die neue Methode nutzt „Trace‑Rewriting“, um d

arXiv – cs.AI