CLINB: Klimabenchmark für Sprachmodelle enthüllt Wissens- und Evidenzlücken
Ein neues Benchmark namens CLINB wurde vorgestellt, um die Leistungsfähigkeit von Large Language Models (LLMs) im Bereich Klimawissenschaften zu prüfen. Das Tool bewertet Modelle anhand von offenen, multimodalen Fragen…