Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung
Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt. Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Ge…
- Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt.
- Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Frage…
- Für die erste Aufgabe – die Beantwortung von Fragen anhand eines bildbasierten Mock‑Knowledge‑Graphs – setzt das Team auf ein vision‑basiertes Large‑Language‑Model.
Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt. Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Fragen in mehrstufigen Dialogen zu beantworten.
Für die erste Aufgabe – die Beantwortung von Fragen anhand eines bildbasierten Mock‑Knowledge‑Graphs – setzt das Team auf ein vision‑basiertes Large‑Language‑Model. Durch ein gezieltes Supervised‑Fine‑Tuning mit Wissen, das aus GPT‑4.1 extrahiert wurde, und die Anwendung von Curriculum‑Learning‑Strategien, die das Reinforcement‑Learning steuern, konnte die Antwortgenauigkeit deutlich gesteigert und Halluzinationen reduziert werden.
Bei den Aufgaben zwei und drei ergänzt das System zusätzlich Web‑Such‑APIs, um externe Informationen einzubinden. Dadurch wird die Fähigkeit verbessert, komplexe Anfragen zu verarbeiten und den Kontext mehrerer Gesprächswechsel zu verstehen und zu aggregieren.
Das Ergebnis: Das Team belegte den ersten Platz bei Aufgabe 1 mit einem beeindruckenden Vorsprung von 52,38 % und sicherte sich den dritten Platz bei Aufgabe 3. Diese Platzierungen unterstreichen die Wirksamkeit der Kombination aus Curriculum‑Learning und Reinforcement‑Learning im Trainingsprozess und markieren einen wichtigen Fortschritt für multimodale KI‑Anwendungen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.