Interview: Das knifflige Benchmarking großer Sprachmodelle

Große Sprachmodelle können viel, weil sie mit viel Weltwissen trainiert wurden. René Peinl (Hochschule Hof) versucht herauszufinden, was sie wirklich können.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen
Chatgpt,Chat,With,Ai,Or,Artificial,Intelligence.,Young,Businessman,Chatting

(Bild: CHUAN CHUAN/Shutterstock.com)

Lesezeit: 8 Min.
Inhaltsverzeichnis
Mehr zum Thema Künstliche Intelligenz (KI)

c’t: Große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und Bard schneiden in Benchmarks meist sehr gut ab, mitunter sogar besser als der Mensch. Unter realistischen Bedingungen, etwa im Dialog mit Nutzern, erfüllen sie die Erwartungen häufig nicht. Was ist denn das zentrale Problem beim Benchmarken von Sprachmodellen?

René Peinl: Im Wesentlichen ist es die automatisierte Bewertung, die ihre Grenzen hat. Sie stützt sich meist auf vorgegebene Antworten, die mit aus heutiger Sicht überholten Metriken ausgewertet werden. Diese Metriken setzen auf eine Eins-zu-Eins-Überdeckung der Antwort mit der Ground Truth: also mit dem, was ein Mensch vorher als korrekte Antwort festgelegt hat.

Es gibt zwar auch fortgeschrittenere Maße, zum Beispiel den BERTScore (Bidirectional Encoder Representations from Transformers, Anm. d. Redaktion), der selbst wiederum KI einsetzt, um die semantische Ähnlichkeit der Antwort mit der erwarteten Antwort zu ermitteln. Aber zum einen ist dieses Verfahren immer noch nicht flächendeckend im Einsatz und zum anderen funktioniert es nicht unter allen Umständen zuverlässig, etwa wenn die Antwort deutlich länger ist als die erwartete Antwort.

Das war die Leseprobe unseres heise-Plus-Artikels "Interview: Das knifflige Benchmarking großer Sprachmodelle". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.