Neuer Ansatz: KI lernt, optimale visuelle Demonstrationen auszuwählen
Multimodale große Sprachmodelle (MLLMs) nutzen In‑Context‑Learning (ICL), um visuelle Aufgaben zu lösen. Dabei spielt die Qualität der Demonstrationen eine entscheidende Rolle. Der bisher vorherrschende Ansatz, k‑Neares…
- Multimodale große Sprachmodelle (MLLMs) nutzen In‑Context‑Learning (ICL), um visuelle Aufgaben zu lösen.
- Dabei spielt die Qualität der Demonstrationen eine entscheidende Rolle.
- Der bisher vorherrschende Ansatz, k‑Nearest‑Neighbor (kNN) basierte Auswahl, ist zwar einfach, führt aber bei komplexen Fakten‑Regression‑Aufgaben zu redundanten Beispie…
Multimodale große Sprachmodelle (MLLMs) nutzen In‑Context‑Learning (ICL), um visuelle Aufgaben zu lösen. Dabei spielt die Qualität der Demonstrationen eine entscheidende Rolle. Der bisher vorherrschende Ansatz, k‑Nearest‑Neighbor (kNN) basierte Auswahl, ist zwar einfach, führt aber bei komplexen Fakten‑Regression‑Aufgaben zu redundanten Beispielen, die den gesamten Ausgabebereich nicht abdecken.
Um dieses Problem zu lösen, wurde Learning to Select Demonstrations (LSD) entwickelt. LSD formuliert die Auswahl als sequentielle Entscheidungsaufgabe und trainiert einen Reinforcement‑Learning‑Agenten, optimale Demonstrationssets zu konstruieren. Der Agent basiert auf einem Dueling‑DQN‑Modell kombiniert mit einem query‑zentrierten Transformer‑Decoder, wodurch er eine Policy erlernt, die die Leistung der MLLMs maximiert.
In Tests an fünf visuellen Regression‑Benchmarks zeigte LSD eine signifikante Verbesserung gegenüber kNN bei objektiven, faktenbasierten Aufgaben. Für subjektive Präferenz‑Aufgaben bleibt kNN jedoch weiterhin die beste Wahl. LSD erreicht diese Differenz, indem es visuelle Relevanz mit Vielfalt ausbalanciert und so die Grenzen der Regression klarer definiert.
Der Ansatz verdeutlicht, wann ein lernbasiertes Auswahlverfahren für visuelles ICL zwingend erforderlich ist, und eröffnet neue Möglichkeiten, die Leistungsfähigkeit multimodaler Sprachmodelle gezielt zu steigern.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.