Interview: Das knifflige Benchmarking großer Sprachmodelle

Große Sprachmodelle können viel, weil sie mit viel Weltwissen trainiert wurden. René Peinl (Hochschule Hof) versucht herauszufinden, was sie wirklich können.

Artikel verschenken

1

(Bild: CHUAN CHUAN/Shutterstock.com)

08.09.2023, 06:00 Uhr

Lesezeit: 8 Min.

c't Magazin

Von

Andrea Trinkwalder

c’t: Große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und Bard schneiden in Benchmarks meist sehr gut ab, mitunter sogar besser als der Mensch. Unter realistischen Bedingungen, etwa im Dialog mit Nutzern, erfüllen sie die Erwartungen häufig nicht. Was ist denn das zentrale Problem beim Benchmarken von Sprachmodellen?

René Peinl: Im Wesentlichen ist es die automatisierte Bewertung, die ihre Grenzen hat. Sie stützt sich meist auf vorgegebene Antworten, die mit aus heutiger Sicht überholten Metriken ausgewertet werden. Diese Metriken setzen auf eine Eins-zu-Eins-Überdeckung der Antwort mit der Ground Truth: also mit dem, was ein Mensch vorher als korrekte Antwort festgelegt hat.

Es gibt zwar auch fortgeschrittenere Maße, zum Beispiel den BERTScore (Bidirectional Encoder Representations from Transformers, Anm. d. Redaktion), der selbst wiederum KI einsetzt, um die semantische Ähnlichkeit der Antwort mit der erwarteten Antwort zu ermitteln. Aber zum einen ist dieses Verfahren immer noch nicht flächendeckend im Einsatz und zum anderen funktioniert es nicht unter allen Umständen zuverlässig, etwa wenn die Antwort deutlich länger ist als die erwartete Antwort.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mit der Apple Watch im Schlaflabor: So gut zeichnet sie Schlaf auf

Wie sich die Apple Watch nachts gegenüber anderen Schlaf-Trackern schlägt und wie im Vergleich zur Analyse durch ein Schlaflabor.

Vier E-Reader mit Farbdisplay im Test: Entspannt im Freien lesen

E-Book-Reader werden bunt: Wir testen Tolino Shine Color, Pocketbook Era Color, Pocketbook Inkpad Color 3 und Boox Note Air3 C.

E-Books leihen

DeutschlandCard, Miles & More, Payback: Welches Bonusprogramm sich lohnt

Bonusprogramme belohnen Ihren Einkauf mit Punkte und Meilen. Ob sich das Sammeln lohnt, hängt auch von den jeweiligen Partnern und den Abkürzungen im System ab.

Banknoten neben den Feldern eines Gasherds

Das deutsche Gasnetz: Was daraus werden soll und was Verbraucher wissen müssen

Erdgas steht vor dem Aus und das Gasnetz vor dem Umbau: In welche Richtung es sich entwickeln kann und was das für die Gaskunden bedeutet.

Ein Backsteingebäude vor dem Menschen in Anzügen gehen, der Hintergrund ist hellblau. Es handelt sich um die Darstellung einer Behörde

Informatiker im Öffentlichen Dienst: Aufgaben, Gehälter und Verbeamtung

Behörden müssen Dienste digitalisieren. Dafür suchen sie nach IT-Fachkräften. Wir zeigen, für wen sich die Karriere eignet – und wie viel Geld man verdient.

Smartphone: Mittelklasse-Foldable Nubia Flip 5G im Test

Das Nubia Flip 5G ist das erste Mittelklasse-Foldable auf dem Markt. Günstiger war zum Start bisher kein Faltphone. Wir haben es getestet.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mit der Apple Watch im Schlaflabor: So gut zeichnet sie Schlaf auf

Wie sich die Apple Watch nachts gegenüber anderen Schlaf-Trackern schlägt und wie im Vergleich zur Analyse durch ein Schlaflabor.

Vier E-Reader mit Farbdisplay im Test: Entspannt im Freien lesen

E-Book-Reader werden bunt: Wir testen Tolino Shine Color, Pocketbook Era Color, Pocketbook Inkpad Color 3 und Boox Note Air3 C.

E-Books leihen

DeutschlandCard, Miles & More, Payback: Welches Bonusprogramm sich lohnt

Bonusprogramme belohnen Ihren Einkauf mit Punkte und Meilen. Ob sich das Sammeln lohnt, hängt auch von den jeweiligen Partnern und den Abkürzungen im System ab.

Das deutsche Gasnetz: Was daraus werden soll und was Verbraucher wissen müssen

Erdgas steht vor dem Aus und das Gasnetz vor dem Umbau: In welche Richtung es sich entwickeln kann und was das für die Gaskunden bedeutet.

Informatiker im Öffentlichen Dienst: Aufgaben, Gehälter und Verbeamtung

Behörden müssen Dienste digitalisieren. Dafür suchen sie nach IT-Fachkräften. Wir zeigen, für wen sich die Karriere eignet – und wie viel Geld man verdient.

Smartphone: Mittelklasse-Foldable Nubia Flip 5G im Test

Das Nubia Flip 5G ist das erste Mittelklasse-Foldable auf dem Markt. Günstiger war zum Start bisher kein Faltphone. Wir haben es getestet.

nach oben

Alle Angebote

Newsletter heise-Bot

${intro} ${title}

${intro} ${title}

Interview: Das knifflige Benchmarking großer Sprachmodelle

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mit der Apple Watch im Schlaflabor: So gut zeichnet sie Schlaf auf

Vier E-Reader mit Farbdisplay im Test: Entspannt im Freien lesen

DeutschlandCard, Miles & More, Payback: Welches Bonusprogramm sich lohnt

Das deutsche Gasnetz: Was daraus werden soll und was Verbraucher wissen müssen

Informatiker im Öffentlichen Dienst: Aufgaben, Gehälter und Verbeamtung

Smartphone: Mittelklasse-Foldable Nubia Flip 5G im Test

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Mit der Apple Watch im Schlaflabor: So gut zeichnet sie Schlaf auf

Vier E-Reader mit Farbdisplay im Test: Entspannt im Freien lesen

DeutschlandCard, Miles & More, Payback: Welches Bonusprogramm sich lohnt

Das deutsche Gasnetz: Was daraus werden soll und was Verbraucher wissen müssen

Informatiker im Öffentlichen Dienst: Aufgaben, Gehälter und Verbeamtung

Smartphone: Mittelklasse-Foldable Nubia Flip 5G im Test

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.