TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen In einer neuen Studie wird gezeigt, dass Sprachmodelle mit einer extrem kleinen Anzahl von trainierbaren Parametern lernen können, komplexe Rechenaufgaben zu lösen. Das Verfahren TinyLoRA reduziert die Größe von Low‑Rank‑Adapters auf lediglich einen Parameter, wodurch die üblichen Beschränkungen von LoRA, die nicht unter die Modelldimension fallen, umgangen werden. arXiv – cs.LG 05.02.2026 05:00
TabularMath: Benchmark prüft, ob Tabellenmodelle Computation extrapolieren können In der Welt der tabellarischen Daten konzentrieren sich die meisten Benchmarks bislang auf die Fähigkeit von Modellen, Werte innerhalb eines Datenraums zu interpolieren. Doch viele wertvolle Anwendungsbereiche – etwa Finanzmodelle oder physikalische Simulationen – beruhen auf deterministischen Berechnungen, bei denen Genauigkeit und Extrapolation entscheidend sind. arXiv – cs.LG 04.02.2026 05:00
PCL-Reasoner-V1.5: Fortschritt im mathematischen Denken mit Offline RL Die neueste Version des PCL-Reasoner, ein 32‑Billionen‑Parameter‑LLM, setzt neue Maßstäbe im mathematischen Problemlösen. Basierend auf dem Qwen2.5‑32B‑Modell wird es zunächst durch gezieltes Supervised Fine‑Tuning (SFT) geschärft und anschließend mit Reinforcement Learning (RL) weiterentwickelt. arXiv – cs.LG 22.01.2026 05:00
Hermes: LLMs kombinieren informelle und formale Mathematik, höhere Genauigkeit In der Welt der großen Sprachmodelle (LLMs) hat informelle Mathematik lange Zeit die Flexibilität und Effizienz bei der Argumentationsbildung ermöglicht. Doch ohne formale Kontrolle bleiben logische Lücken und subtile Fehler oft unentdeckt. Hermes, ein neuer Tool‑Assisted Agent, verbindet die beiden Ansätze: Er führt informelle Überlegungen durch und prüft gleichzeitig jeden Schritt in Lean, einem etablierten Theorem‑Prover. arXiv – cs.AI 25.11.2025 05:00
Kleines Modell, Logik: VibeThinker-1.5B beweist, dass Größe nicht alles ist Mit dem 1,5‑Billionen‑Parameter‑Modell VibeThinker-1.5B stellt das Forschungsteam eine klare Gegenposition zur weit verbreiteten Annahme auf, dass nur große Modelle wirklich komplexe Denkaufgaben bewältigen können. Durch die Anwendung des Spectrum‑to‑Signal‑Principles (SSP) wird die Leistungsfähigkeit eines kompakt aufgebauten Modells auf ein neues Niveau gehoben. arXiv – cs.AI 11.11.2025 05:00
Meta AI präsentiert DeepConf: 99,9 % AIME 2025 mit Open-Source-Modellen Große Sprachmodelle haben die Art und Weise, wie KI über Probleme nachdenkt, grundlegend verändert. Besonders die Techniken des parallelen Denkens und der Selbstkonsistenz gelten als Meilensteine, die die Genauigkeit von LLMs deutlich steigern. MarkTechPost 27.08.2025 17:40
Open-Weight-LLMs zeigen stark unterschiedliche Leistungen je Anbieter Artificial Analysis hat kürzlich einen neuen Benchmark veröffentlicht, der die Leistung des OpenAI‑Modells gpt-oss-120b auf verschiedenen Hosting‑Anbietern untersucht. Die Ergebnisse überraschten mit deutlichen Leistungsunterschieden, insbesondere bei der Auswertung der 2025 AIME (American Invitational Mathematics Examination) mit 32 Durchläufen pro Modell und einer hohen Rechenintensität. Simon Willison – Blog 15.08.2025 17:29
Neues Belohnungssystem reduziert Überdenken bei großen Rechenmodellen In den letzten Jahren haben große Rechenmodelle für komplexe Denkaufgaben dank Verstärkungslernen mit überprüfbaren Belohnungen enorme Fortschritte erzielt. Ein häufig auftretendes Problem ist jedoch das „Überdenken“: Die Modelle verbrauchen bei einfachen Aufgaben zu viel Rechenzeit, was die Effizienz mindert. Traditionelle Ansätze zur Effizienzsteigerung setzen meist auf eine genaue Einschätzung der Aufgabe, um Token-Budgets festzulegen oder Denkmodi auszuwählen – ein Ansatz, der wenig Flexibilität und Zuverlässigkeit bietet. arXiv – cs.AI 15.08.2025 05:00