Neue Richtlinien für die Bewertung von General‑Purpose‑AI
Ein neues arXiv‑Veröffentlichung präsentiert eine erste Zusammenstellung von Evaluationspraktiken für General‑Purpose‑AI (GPAI). Ziel ist es, die interne und externe Validität sowie die Reproduzierbarkeit von Modellen zu stärken.
Die Vorschläge umfassen Studien zur menschlichen Aufwertung, Benchmark‑Evaluierungen und übergreifende Empfehlungen, die für verschiedene Evaluationsarten gelten. Sie sind in vier Phasen des Evaluationszyklus strukturiert: Design, Implementierung, Ausführung und Dokumentation.
Die Autoren greifen bewährte Methoden aus Bereichen wie maschinelles Lernen, Statistik, Psychologie, Wirtschaft und Biologie auf, um die Qualität der GPAI‑Bewertung zu erhöhen.
Die Zielgruppe umfasst Anbieter von GPAI‑Modellen mit systemischem Risiko, die im EU‑AI‑Act spezifische Anforderungen erfüllen müssen, unabhängige Prüfer, politische Entscheidungsträger und akademische Forscher, die GPAI‑Evaluierungen entwickeln oder durchführen.