LLM-gesteuerte Architektursuche liefert neue Bildunterschriftenmodelle
Neuer Forschungsbericht aus dem arXiv-Repository präsentiert NN-Caption, eine Pipeline, die große Sprachmodelle (LLMs) nutzt, um automatisch Bildunterschriftenmodelle zu entwerfen. Durch die Kombination von CNN‑Encodern aus den Klassifikationsbackbones von LEMUR mit Sequenz‑Dekodern wie LSTM, GRU oder Transformer erzeugt die Pipeline lauffähige Modelle, die strikt einem vorgegebenen Net‑API‑Vertrag folgen.
Der Hauptgenerator der Studie ist DeepSeek‑R1‑0528‑Qwen3‑8B, das anhand eines vorgegebenen Prompt‑Templates und konkreter Beispiele neue Architekturen erstellt. Auf dem MS‑COCO‑Datensatz wurden die generierten Modelle mit dem BLEU‑4‑Score bewertet. Insgesamt wurden Dutzende von Caption‑Modellen erzeugt, von denen mehr als die Hälfte erfolgreich trainiert wurden und sinnvolle Bildunterschriften lieferten.
Ein interessanter Aspekt der Untersuchung ist die Analyse der Prompt‑Größe: Beim Vergleich von 5 versus 10 Eingabe‑Modul‑Snippets zeigte sich ein leichtes Rückgang des Erfolgsanteils bei der größeren Menge. Zusätzlich wurden Trainingsdynamiken – Caption‑Genauigkeit über die Epochen hinweg – sowie der höchste erreichte BLEU‑4‑Score dokumentiert.
Die Ergebnisse unterstreichen das Potenzial von LLM‑gesteuerter NAS: Das Sprachmodell schlägt nicht nur Architekturen vor, sondern liefert auch Hyperparameter‑Vorschläge und Trainingsempfehlungen. Herausforderungen wie Code‑Halluzinationen oder API‑Compliance‑Probleme wurden durch gezielte Prompt‑Regeln und iterative Code‑Korrekturen adressiert.
Die vorgestellte Pipeline verbindet promptbasierte Code‑Generierung mit automatischer Evaluation und erweitert das offene LEMUR‑Dataset um zahlreiche neue Caption‑Modelle. Damit bietet sie eine solide Basis für reproduzierbare Benchmarks und weiterführende AutoML‑Forschung.