Neue Studie deckt Schwächen von LLMs bei Halluzinationen auf
Eine kürzlich veröffentlichte Arbeit auf arXiv präsentiert ein neues Prüfverfahren, das die Faktenkonsistenz großer Sprachmodelle (LLMs) unter Einsatz von gezielten „adversarial nudges“ systematisch testet. Das Verfahren besteht aus drei klar definierten Schritten: Zunächst werden dem Modell Anweisungen gegeben, sowohl wahre als auch falsche Aussagen zu einem festgelegten Themenbereich zu generieren. Anschließend prüft das Modell diese Aussagen erneut, um zu bestätigen, ob sie als wahr oder falsch gelten. Im letzten Schritt wird die Widerstandsfähigkeit des Modells gegen die selbst erzeugten Falschinformationen bewertet.