GRASP: Neue PEFT-Methode reduziert Parameter um zehnfach und steigert Robustheit
In der Welt der großen vortrainierten Sprachmodelle gewinnt das Parameter‑Effiziente Fine‑Tuning (PEFT) immer mehr an Bedeutung. Statt das komplette Modell zu verändern, passen PEFT‑Ansätze nur einen kleinen Teil der Ge…
- In der Welt der großen vortrainierten Sprachmodelle gewinnt das Parameter‑Effiziente Fine‑Tuning (PEFT) immer mehr an Bedeutung.
- Statt das komplette Modell zu verändern, passen PEFT‑Ansätze nur einen kleinen Teil der Gewichte an und ermöglichen so skalierbare Anpassungen.
- Mit dem neuen Framework GRASP (GRouped Activation Shared Parameterization) wird dieses Prinzip noch weiter optimiert.
In der Welt der großen vortrainierten Sprachmodelle gewinnt das Parameter‑Effiziente Fine‑Tuning (PEFT) immer mehr an Bedeutung. Statt das komplette Modell zu verändern, passen PEFT‑Ansätze nur einen kleinen Teil der Gewichte an und ermöglichen so skalierbare Anpassungen. Mit dem neuen Framework GRASP (GRouped Activation Shared Parameterization) wird dieses Prinzip noch weiter optimiert.
GRASP teilt die D‑dimensionalen Token‑Repräsentationen ausgewählter Schichten in K << D Gruppen auf und lernt für jede Gruppe einen gemeinsamen Skalierungs‑ und Verschiebungsvektor. Durch diese gruppierte Modulation sinkt die Anzahl der trainierbaren Parameter drastisch, während das Modell weiterhin fähig bleibt, task‑spezifische Merkmale zu erlernen. Das Ergebnis ist ein schlankes, aber leistungsfähiges Fine‑Tuning‑Modell.
Um die Robustheit gegenüber Hardware‑Variabilität zu erhöhen, erweitert GRASP um die probabilistische Variante StochGRASP. Hier werden Gaußsche Verteilungen als Störungen zu den vortrainierten Gewichten gelernt, anstatt deterministische Werte zu verwenden. In Kombination mit einem noise‑aware Loss wird die Modellierung von Hardware‑Unschärfen ermöglicht, was die Leistung bei nicht‑idealen Inferenzbedingungen deutlich verbessert.
In umfangreichen Tests auf den GLUE‑Benchmarks (RoBERTa‑base & RoBERTa‑large) sowie bei der End‑to‑End‑NLG‑Aufgabe mit GPT‑2 Medium übertrifft GRASP etablierte PEFT‑Methoden wie LoRA und BitFit. Dabei reduziert es die Anzahl der trainierbaren Parameter um ein ganzes Ordnungsmal. Unter verschiedenen Rausch‑Levels zeigt StochGRASP konsequent bessere Ergebnisse als deterministische Varianten und beweist damit seine Eignung für energieeffiziente, rauschempfindliche Edge‑Hardware.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.