Forschung arXiv – cs.AI

Curriculum Learning steigert KI-Genauigkeit bei multimodaler Fragebeantwortung

15.08.2025 05:00 • ≈1 Min. Lesezeit • Originalquelle

#Retrieval-Augmented-Generation #Vision-basiertes LLM #Supervised Fine‑Tuning #Curriculum Learning #Web‑Such‑APIs #Mock Knowledge Graph #Halluzinationen reduzieren

Kernaussagen

Das nimmst du aus dem Beitrag mit

Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt.
Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Frage…
Für die erste Aufgabe – die Beantwortung von Fragen anhand eines bildbasierten Mock‑Knowledge‑Graphs – setzt das Team auf ein vision‑basiertes Large‑Language‑Model.

Das Team „Dianping‑Trust‑Safety“ hat mit seinem Beitrag zum META CRAG‑MM‑Wettbewerb einen Meilenstein in der multimodalen Frage‑und‑Antwort‑KI gesetzt. Der Wettbewerb fordert die Entwicklung eines Retrieval‑Augmented‑Generation‑Systems, das Bilder, strukturierte Daten und Web‑Suchergebnisse kombiniert, um komplexe Fragen in mehrstufigen Dialogen zu beantworten.

Für die erste Aufgabe – die Beantwortung von Fragen anhand eines bildbasierten Mock‑Knowledge‑Graphs – setzt das Team auf ein vision‑basiertes Large‑Language‑Model. Durch ein gezieltes Supervised‑Fine‑Tuning mit Wissen, das aus GPT‑4.1 extrahiert wurde, und die Anwendung von Curriculum‑Learning‑Strategien, die das Reinforcement‑Learning steuern, konnte die Antwortgenauigkeit deutlich gesteigert und Halluzinationen reduziert werden.

Bei den Aufgaben zwei und drei ergänzt das System zusätzlich Web‑Such‑APIs, um externe Informationen einzubinden. Dadurch wird die Fähigkeit verbessert, komplexe Anfragen zu verarbeiten und den Kontext mehrerer Gesprächswechsel zu verstehen und zu aggregieren.

Das Ergebnis: Das Team belegte den ersten Platz bei Aufgabe 1 mit einem beeindruckenden Vorsprung von 52,38 % und sicherte sich den dritten Platz bei Aufgabe 3. Diese Platzierungen unterstreichen die Wirksamkeit der Kombination aus Curriculum‑Learning und Reinforcement‑Learning im Trainingsprozess und markieren einen wichtigen Fortschritt für multimodale KI‑Anwendungen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Retrieval-Augmented-Generation

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Vision-basiertes LLM

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Supervised Fine‑Tuning

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Retrieval-Augmented-Generation systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Retrieval-Augmented-Generation

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Retrieval-Augmented-Generation

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

0 Signale in 7 Tagen • 18 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

LLM

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

3 gemeinsame Signale

Nachbar-Hub

Sprachmodelle

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

3 gemeinsame Signale

Nachbar-Hub

GraphRAG

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen

arXiv – cs.AI

Open-Source-Modelle für Cybersicherheit: Foundation‑Sec‑8B‑Reasoning setzt Maßstäbe

30.01.2026 05:00

arXiv – cs.AI

Neuer Belohnungsagent Argos verbessert Reinforcement Learning bei KI-Agenten

04.12.2025 05:00

VentureBeat – AI

OpenMMReasoner: Mehr multimodale KI‑Logik mit kleineren, smarteren Datensätzen

02.12.2025 12:30

arXiv – cs.AI

OctoMed: Neue Datenrezeptur liefert führende multimodale medizinische KI

01.12.2025 05:00

arXiv – cs.LG

TinyLLM: Kleine Sprachmodelle meistern Agentenaufgaben auf Edge-Geräten

01.12.2025 05:00

arXiv – cs.AI

OpenMMReasoner: Transparentes multimodales Rezept, 11,6 % besser als Qwen2.5

21.11.2025 05:00

Warum das wichtig ist

Relevant fuer Leserinnen und Leser, die KI nicht nur verfolgen, sondern einordnen wollen: Der Beitrag zeigt, was sich bei Retrieval-Augmented-Generation, Vision-basiertes LLM konkret verschiebt und welche Folgen das fuer Nutzung, Produkte oder Entscheidungen haben kann. Ausgangspunkt ist die Quelle arXiv – cs.AI.

Quellenklarheit

Quelle: arXiv – cs.AI
Original: Zum Ursprungsbeitrag
Website: arXiv – cs.AI

Themenradar

Themen folgen

Retrieval-Augmented-Generation

Vision-basiertes LLM

Supervised Fine‑Tuning

Curriculum Learning

Morning Briefing

Diese Themen im Briefing verfolgen

Wenn dich genau diese Themen wieder interessieren werden, mach daraus einen festen Morgen-Slot statt einzelner Zufallsklicks.

Briefing mit Fokus konfigurieren →

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen