CLINB: Klimabenchmark für Sprachmodelle enthüllt Wissens- und Evidenzlücken
Ein neues Benchmark namens CLINB wurde vorgestellt, um die Leistungsfähigkeit von Large Language Models (LLMs) im Bereich Klimawissenschaften zu prüfen. Das Tool bewertet Modelle anhand von offenen, multimodalen Fragen, die reale Nutzer stellen, und verlangt dabei klare Nachweise für die Qualität des Wissens.