Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “API”
Forschung

Neue interaktive Benchmarks: So testen wir KI wirklich<br/><p>Standard-Benchmarks werden zunehmend unzuverlässig, weil sie gesättigt, subjektiv und schlecht generalisierbar sind. Aus diesem Grund stellen die Autoren des arXiv‑Papiers (2603.04737v1) ein neues Evaluationsparadigma vor: Interaktive Benchmarks. Dabei wird die Fähigkeit eines Modells gemessen, aktiv Informationen zu beschaffen und damit seine Intelligenz zu demonstrieren.</p><p>Das Konzept umfasst zwei Hauptbereiche. In „Interactive Proofs“ arbe

arXiv – cs.AI
Forschung

<p>Mehrere Biases in Reward-Modellen: Mechanistische Shaping-Technik reduziert Vorurteile</p> <p>In einer aktuellen Studie, veröffentlicht auf arXiv, wird gezeigt, dass Reward Models (RMs), die zur Online‑Anpassung von Sprachmodellen an menschliche Präferenzen eingesetzt werden, weiterhin erhebliche Verzerrungen aufweisen. Trotz fortschrittlicher Ansätze bleiben Probleme wie längsbezogene Verzerrungen, sycophantisches Verhalten und übermäßiges Selbstvertrauen bestehen.</p> <p>Die Untersuchung analysierte fü

arXiv – cs.AI
Forschung

<p>Neues Modell: Selbstkorrigierende diskrete Diffusion steigert parallele Decodierung</p> <p>Ein kürzlich auf arXiv veröffentlichtes Papier (2603.02230v1) präsentiert einen innovativen Ansatz zur Verbesserung der parallelen Sampling‑Leistung in diskreten Diffusionsmodellen. Durch die Einführung von Selbstkorrektur kann das Modell die Qualität der generierten Texte beibehalten, während die Effizienz der Parallelverarbeitung deutlich erhöht wird.</p> <p>Frühere Versuche, Selbstkorrektur erst während der Infe

arXiv – cs.LG
Forschung

TraderBench: Wie robust sind KI-Agenten in feindlichen Kapitalmärkten?<br/><p>Die Bewertung von KI-Agenten im Finanzbereich steht vor zwei zentralen Problemen: Statische Benchmarks erfordern teure Expertenannotation und vernachlässigen gleichzeitig die dynamische Entscheidungsfindung, die im echten Handel entscheidend ist. Gleichzeitig führen LLM-basierte Richter zu unkontrollierter Varianz bei domänenspezifischen Aufgaben.</p><p>Mit TraderBench wird diese Lücke geschlossen. Das neue Benchmark-Framework kom

arXiv – cs.AI