Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung
Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt. Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Fragen in mehrstufigen Dialogen zu beantworten.
Für die erste Aufgabe – die Beantwortung von Fragen anhand eines bildbasierten Mock‑Knowledge‑Graphs – setzt das Team auf ein vision‑basiertes Large‑Language‑Model. Durch ein gezieltes Supervised‑Fine‑Tuning mit Wissen, das aus GPT‑4.1 extrahiert wurde, und die Anwendung von Curriculum‑Learning‑Strategien, die das Reinforcement‑Learning steuern, konnte die Antwortgenauigkeit deutlich gesteigert und Halluzinationen reduziert werden.
Bei den Aufgaben zwei und drei ergänzt das System zusätzlich Web‑Such‑APIs, um externe Informationen einzubinden. Dadurch wird die Fähigkeit verbessert, komplexe Anfragen zu verarbeiten und den Kontext mehrerer Gesprächswechsel zu verstehen und zu aggregieren.
Das Ergebnis: Das Team belegte den ersten Platz bei Aufgabe 1 mit einem beeindruckenden Vorsprung von 52,38 % und sicherte sich den dritten Platz bei Aufgabe 3. Diese Platzierungen unterstreichen die Wirksamkeit der Kombination aus Curriculum‑Learning und Reinforcement‑Learning im Trainingsprozess und markieren einen wichtigen Fortschritt für multimodale KI‑Anwendungen.