BehaveSim: Neue Methode zur Messung algorithmischer Ähnlichkeit mit LLMs
Die Entwicklung von Algorithmen durch Large Language Models (LLMs) hat die Art und Weise, wie wir Software schreiben, revolutioniert. Im Gegensatz zu herkömmlichen, von Experten gesteuerten Verfahren entstehen bei LLM‑basiertem automatisiertem Algorithmendesign (LLM‑AAD) Code, der die zugrunde liegende Logik eines Algorithmus oft nur indirekt widerspiegelt. Deshalb ist es entscheidend, echte algorithmische Innovation von bloßen syntaktischen Variationen zu unterscheiden.
Herkömmliche Code‑Ähnlichkeitsmetriken konzentrieren sich auf Oberflächensyntax oder Ausgabe‑Äquivalenz und verfehlen dabei die eigentliche algorithmische Logik. Die neue Methode BehaveSim löst dieses Problem, indem sie das Verhalten eines Algorithmus während seiner Ausführung betrachtet. Dabei werden sogenannte Problem‑Solving Trajectories (PSTrajs) – Sequenzen von Zwischenergebnissen – erfasst und mit dynamischer Zeit‑Warping‑Analyse (DTW) verglichen.
Durch die Ausrichtung der PSTrajs kann BehaveSim Algorithmen mit unterschiedlichen Logiken erkennen, selbst wenn sie syntaktisch oder ausgabetreu ähnlich erscheinen. In praktischen Tests hat die Integration von BehaveSim in bestehende LLM‑AAD‑Frameworks wie FunSearch und EoH die Leistungsfähigkeit bei drei Aufgaben deutlich gesteigert, indem sie die Verhaltensvielfalt förderte.
Darüber hinaus ermöglicht BehaveSim die Cluster‑Analyse von generierten Algorithmen nach ihrem Verhalten. Diese strukturierte Sicht auf Problem‑Lösungsstrategien ist ein wertvolles Werkzeug für die Analyse und Weiterentwicklung von Algorithmen in der wachsenden LLM‑Forschung.