Neues Verfahren steigert logisches Denken von Sprachmodellen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Moderne Sprachmodelle nutzen häufig aufwändige interaktive Rahmenwerke, um logische Aufgaben zu lösen. Diese Ansätze erfordern oft zusätzliche Prompts oder externe Hilfsmittel wie symbolische Solver, was den Aufwand erhöht und die Skalierbarkeit einschränkt.

Die vorgestellte Methode ist dagegen vollständig nicht-interaktiv und end-to-end. Durch die Einbindung von strukturellen Informationen in ein Few‑Shot‑Prompt werden gezielt bestimmte Aufmerksamkeitsköpfe aktiviert, die Muster aufweisen, die mit logischen Operatoren übereinstimmen.

Auf Basis dieser Erkenntnis wird der Attention‑Aware Intervention (AAI)-Ansatz entwickelt. Während der Inferenz werden die Aufmerksamkeitswerte ausgewählter Köpfe neu gewichtet, sodass das Modell gezielt auf vorhandenes Vorwissen zurückgreift. Dieser Prozess steuert die Logik des Modells effizient, ohne zusätzliche Rechenkosten.

Umfangreiche Experimente zeigen, dass AAI die Leistung bei einer Vielzahl von Logik‑Benchmarks und Modellarchitekturen deutlich verbessert, während der zusätzliche Aufwand vernachlässigbar bleibt. Der zugehörige Code ist unter https://github.com/phuongnm94/aai_for_logical_reasoning verfügbar.

Ähnliche Artikel