ForenAgent: KI-Tool nutzt Python zur flexiblen Bildfälschungserkennung
In der Welt der Bildfälschungserkennung (IFD) haben bisher zwei Ansätze dominierte: die Analyse von low‑level‑Artefakten, die keine semantische Tiefe besitzen, und die Nutzung multimodaler Large Language Models (MLLMs), die auf hochrangiges semantisches Wissen zurückgreifen. Beide Methoden ergänzen sich zwar, doch ihre unterschiedlichen Paradigmen erschweren eine nahtlose Integration.
Mit dem neuen Framework ForenAgent wird dieses Problem angegangen. Das System kombiniert die Stärken von MLLMs mit Python‑basierten Low‑Level‑Tools, die der KI selbst generiert, ausführt und iterativ verfeinert. Auf diese Weise entsteht ein flexibler, nachvollziehbarer Analyseprozess, der sowohl die feinen Bilddetails als auch das semantische Verständnis berücksichtigt.
ForenAgent folgt einem zweistufigen Trainingsablauf: zunächst ein Cold‑Start, um die Grundfähigkeiten der Tool‑Interaktion zu etablieren, gefolgt von Reinforcement Fine‑Tuning, das die Anpassungsfähigkeit der KI an komplexe Aufgaben weiter verbessert. Der Ansatz ist von menschlichem Denken inspiriert und umfasst einen dynamischen Reasoning‑Loop mit globaler Wahrnehmung, lokaler Fokussierung, iterativem Abfragen und ganzheitlicher Bewertung.
Zur systematischen Schulung und Bewertung wurde das heterogene Datenset FABench entwickelt. Es enthält rund 100.000 Bilder sowie etwa 200.000 Frage‑Antwort‑Paare, die Agenteninteraktionen dokumentieren. Die Experimente zeigen, dass ForenAgent ein emergentes Tool‑Usage‑Können entwickelt und reflektierende Entscheidungen trifft, selbst bei anspruchsvollen IFD‑Aufgaben.
Die Ergebnisse deuten darauf hin, dass ForenAgent einen vielversprechenden Weg für eine generelle Bildfälschungserkennung ebnet, indem es die Vorteile von Low‑Level‑Tools und hochsemantischen Modellen in einem einzigen, interaktiven System vereint.