Forschung arXiv – cs.AI

Vibe Coding an LLM-powered Theorem Prover

Isabellm ist ein brandneuer, von großen Sprachmodellen unterstützter Theorem-Prover für Isabelle/HOL, der komplette Beweise automatisch erzeugt. Das System nutzt lokale LLMs über Ollama sowie APIs wie Gemini CLI und ist…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Isabellm ist ein brandneuer, von großen Sprachmodellen unterstützter Theorem-Prover für Isabelle/HOL, der komplette Beweise automatisch erzeugt.
  • Das System nutzt lokale LLMs über Ollama sowie APIs wie Gemini CLI und ist so optimiert, dass es auf handelsüblichen Computern läuft.
  • Die Funktionsweise kombiniert einen schrittweisen Beweiser, der mithilfe von LLMs Proof-Befehle vorschlägt und diese in einem begrenzten Suchraum von Isabelle validiert…

Isabellm ist ein brandneuer, von großen Sprachmodellen unterstützter Theorem-Prover für Isabelle/HOL, der komplette Beweise automatisch erzeugt. Das System nutzt lokale LLMs über Ollama sowie APIs wie Gemini CLI und ist so optimiert, dass es auf handelsüblichen Computern läuft.

Die Funktionsweise kombiniert einen schrittweisen Beweiser, der mithilfe von LLMs Proof-Befehle vorschlägt und diese in einem begrenzten Suchraum von Isabelle validiert, mit einem höheren Planer, der strukturierte Isar-Gliederungen erstellt und fehlende Teile ergänzt. Zu den Kernkomponenten gehören Beam‑Search für Taktiken, ML‑ und RL‑basierte Taktik‑Ranglisten, Premise‑Auswahl mit kleinen Transformer‑Modellen, micro‑RAG für Isar‑Beweise aus der AFP-Bibliothek sowie ein counter‑example‑gesteuertes Reparaturverfahren.

In Experimenten konnte Isabellm Lemmas beweisen, die die Standard‑Automatisierung von Isabelle, etwa Sledgehammer, übertrifft. Gleichzeitig zeigen die Tests, dass selbst hochmoderne LLMs wie GPT‑5.2 Extended Thinking und Gemini 3 Pro Schwierigkeiten haben, die komplexen Fill‑and‑Repair‑Mechanismen zuverlässig umzusetzen – ein Hinweis auf grundlegende Grenzen in der Code‑Generierung und dem logischen Denken von LLMs.

Der komplette Code ist frei verfügbar unter https://github.com/zhehou/llm-isabelle und wurde mit GPT‑4.1 bis GPT‑5.2, Gemini 3 Pro und Claude 4.5 entwickelt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Isabellm
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Isabelle/HOL
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen