Neue Methode steigert Genauigkeit großer Sprachmodelle ohne Trainingsaufwand
Forscher haben eine neue Technik namens Min‑Seek vorgestellt, die die Genauigkeit großer Sprachmodelle bei komplexen Rechenaufgaben deutlich erhöht – und das ohne zusätzlichen Trainingsaufwand. Die Methode nutzt „sequential test‑time scaling“, bei dem Modelle dazu gebracht werden, länger zu denken. Bisher zeigte sich jedoch, dass ein zu langes Denken die Leistung verschlechtert und die Modelle instabil werden.
Min‑Seek löst dieses Problem, indem es die Genauigkeit über ein breites Spektrum an induzierten Gedanken stabilisiert und die Notwendigkeit von Feinabstimmungen der Denkzeit eliminiert. Die Technik ist zudem äußerst effizient: Während des Denkens werden lediglich die Schlüssel‑Wert‑Paare (KV‑Pairs) eines zusätzlichen induzierten Gedankens im KV‑Cache gespeichert.
Durch einen speziell angepassten KV‑Cache, der Schlüssel ohne Positions‑Embeddings speichert und sie vor jedem neuen Gedankengenerator zusammenhängend kodiert, kann das Modell weit über die maximale Kontextlänge hinaus weiterdenken. Unter milden Bedingungen erreicht Min‑Seek eine lineare Rechenkomplexität, was die Methode besonders attraktiv für die Praxis macht.