LLM-Performance hängt von Sprache ab

Die gesprochene Sprache, in der mit einer Trainingsdaten vermutet. Beispielsweise führt das Nutzen von Deutsch (im Vergleich zu Englisch) zu Abweichungen von bis zu 25%^[1].

Was genau die Implikationen für Korrektheit & Qualität des Outputs sind, scheint noch unklar zu sein.

Verweise

Quellen

Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages

Ursprünglicher Capture

Agent-Performance Deutsch vs. Englisch

Gemessen wird hier das interne Embedding eines englischen Satzes im Vergleich zu seiner übersetzen Repräsentation. ↩︎

Anmerkungen oder Fragen? Schick mir eine Mail.