MM-OPERA: Benchmarking Open-ended Association Reasoning for Large Vision-Language Models
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
LLM als Richter: Neue Methode prüft Zuverlässigkeit mit Item Response Theory
arXiv – cs.AI
•
PRA: KI-Agent simuliert individuelle Datenschutzbedenken wie ein Mensch
arXiv – cs.AI
•
Project Synapse: Hierarchisches Multi-Agenten-Framework löst Lieferengpässe autonom
arXiv – cs.LG
•
AdvJudge‑Zero: Kontroll‑Token kippen LLM‑Judges
Towards Data Science
•
LLM als Richter: Wie KI-Modelle bewertet werden
arXiv – cs.LG
•
Personalisierter Router: Graphbasierte LLM-Auswahl nach Nutzerpräferenzen