Suche nach Test-Time Scaling

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Ein neues Verfahren namens Duel‑Evolve nutzt die eigenen Präferenzen eines großen Sprachmodells, um seine Ausgaben zu optimieren, ohne auf…

arXiv – cs.LG 26.02.2026 05:00

Forschung

Neues Benchmark: Testzeit‑Skalierung von generellen LLM‑Agenten untersucht

Wissenschaftler haben ein neues Benchmark namens General AgentBench vorgestellt, das die Leistungsfähigkeit von großen Sprachmodell‑Agenten…

arXiv – cs.AI 24.02.2026 05:00

Forschung

Neues Benchmark für mehrdeutige Emotionserkennung in Sprachmodellen

Emotionserkennung aus menschlicher Sprache ist ein entscheidender Baustein für sozial bewusste KI. Während die meisten bisherigen Ansätze E…

arXiv – cs.AI 05.02.2026 05:00

Forschung

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

In der Codegenerierung wird die Qualität von Ergebnissen häufig durch Best‑of‑N‑Auswahl verbessert: Mehrere Kandidaten werden vom Basismode…

arXiv – cs.LG 02.02.2026 05:00

Forschung

Video-Generierung als Schlüssel zur visuellen Logik: Zero-Shot-Genauigkeit

Ein neues arXiv‑Veröffentlichung (2601.21037v1) zeigt, dass Video‑Generierungsmodelle die Grenzen der visuellen Logik sprengen können. Währ…

arXiv – cs.LG 30.01.2026 05:00

Forschung

GAIA: Daten‑Flywheel für GUI‑Agenten – iterative Kritik verbessert Testzeit

Große Vision‑Language‑Modelle haben die Fähigkeiten von GUI‑Agenten beim Verstehen von Textanweisungen, der Analyse von Bildschirminhalten…

arXiv – cs.AI 27.01.2026 05:00

Forschung

Neue Methode steigert Genauigkeit großer Sprachmodelle ohne Trainingsaufwand

Forscher haben eine neue Technik namens Min‑Seek vorgestellt, die die Genauigkeit großer Sprachmodelle bei komplexen Rechenaufgaben deutlic…

arXiv – cs.AI 16.01.2026 05:00

Forschung

STEP: Schrittweise Bewertung von Traces senkt LLM‑Latenz um bis zu 70 %

Große Sprachmodelle (LLMs) können ihre Denkfähigkeiten durch Test‑Time‑Scaling verbessern, indem sie mehrere Rechenpfade erzeugen. Doch die…

arXiv – cs.LG 15.01.2026 05:00

Forschung

<h1>Test‑Time‑Scaling: Mehr oder weniger Nutzen für Vision‑Language‑Modelle?</h1> <p>Test‑Time‑Scaling (TTS) hat sich als wirkungsvolles Verfahren etabliert, um die Rechenleistung von Large Language Models (LLMs) während der Inferenz zu erhöhen und dadurch die Problemlösungsfähigkeit zu verbessern. In der multimodalen Forschung, insbesondere bei Vision‑Language‑Modellen (VLMs), ist die Anwendung von TTS jedoch noch nicht vollständig erforscht.</p> <p>In einer systematischen Untersuchung wurden sowohl Open‑S

arXiv – cs.LG 15.12.2025 05:00

Forschung

RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit

Eine neue Technik namens RoBoN (Routed Online Best‑of‑n) ermöglicht es, mehrere große Sprachmodelle (LLMs) gleichzeitig zu nutzen, um die G…

arXiv – cs.LG 08.12.2025 05:00

Forschung

Neue 3D-Testzeit-Skalierung verbessert KI-Logik bei komplexen Aufgaben

In einer aktuellen Veröffentlichung auf arXiv wird ein neues Konzept vorgestellt, das die Leistungsfähigkeit von KI-Modellen beim logischen…

arXiv – cs.LG 21.11.2025 05:00

Forschung

<p>LLMs im Testzeit-Scaling: Ein Überblick über Subproblem‑Strukturen</p> <p>In der neuesten Studie von arXiv:2511.14772v1 wird ein umfassender Überblick über Techniken zur Verbesserung der Vorhersagegenauigkeit vortrainierter Large Language Models (LLMs) gegeben, indem bei der Inferenz zusätzliche Rechenressourcen eingesetzt werden. Der Fokus liegt dabei auf der Art und Weise, wie ein Problem in Teilaufgaben zerlegt wird und wie diese Teilaufgaben topologisch organisiert sind – sei es sequenziell, parallel

arXiv – cs.AI 20.11.2025 05:00

Forschung

Iterative Reward‑Guided Refinement: Testzeit‑Skalierung für diskrete Diffusion In der Welt der diskreten Diffusionsmodelle bleibt die Skalierung während der Testphase bislang weitgehend unerforscht, obwohl sie ein vielversprechender alternativer Ansatz darstellt. Forscher haben deshalb Iterative Reward‑Guided Refinement (IterRef) entwickelt, ein neues Verfahren, das gezielt die Qualität von generierten Texten und Bildern verbessern soll. IterRef nutzt ein belohnungsorientiertes Verfahren, bei dem währen

arXiv – cs.LG 11.11.2025 05:00

Praxis

Google präsentiert TUMIX: Mehragenten-Testzeit mit Tool-Mischung

Google Cloud AI Research hat gemeinsam mit Forschern aus MIT, Harvard und Google DeepMind ein neues Testzeit-Framework namens TUMIX (Tool‑U…

MarkTechPost 04.10.2025 23:47

Finde Modelle, Firmen und Themen

Duel‑Evolve: Optimierung von LLM‑Ausgaben ohne externe Belohnungen

Neues Benchmark: Testzeit‑Skalierung von generellen LLM‑Agenten untersucht

Neues Benchmark für mehrdeutige Emotionserkennung in Sprachmodellen

DAJ: Neuer LLM‑Judge verbessert Codegenerierung bei Testzeit‑Skalierung

Video-Generierung als Schlüssel zur visuellen Logik: Zero-Shot-Genauigkeit

GAIA: Daten‑Flywheel für GUI‑Agenten – iterative Kritik verbessert Testzeit

Neue Methode steigert Genauigkeit großer Sprachmodelle ohne Trainingsaufwand

STEP: Schrittweise Bewertung von Traces senkt LLM‑Latenz um bis zu 70 %

RoBoN: Mehrere LLMs im Testzeit-Skalieren – Neue Methode steigert Genauigkeit

Neue 3D-Testzeit-Skalierung verbessert KI-Logik bei komplexen Aufgaben

Google präsentiert TUMIX: Mehragenten-Testzeit mit Tool-Mischung

🍪 Cookie-Einstellungen

STEP: Schrittweise Bewertung von Traces senkt LLM‑Latenz um bis zu 70 %