Wir haben die führenden KI-Chatbots getestet, darunter den kostenpflichtigen und kostenlosen ChatGPT, und Personen, die acht andere Sprachen als Englisch fließend beherrschen, gebeten, ihre Ergebnisse im Vergleich zu Google Translate zu bewerten.
Mit Google Translate ist die Übersetzung beliebiger Sätze in über 100 Sprachen ein Kinderspiel. Wer das Programm jedoch regelmäßig nutzt, weiß, dass es noch Raum für Verbesserungen gibt.
Theoretisch sollten große Sprachmodelle (LLMs) wie ChatGPT die nächste Ära der Sprachübersetzung einläuten. Sie nutzen riesige Mengen textbasierter Trainingsdaten sowie Echtzeit-Feedback von Millionen von Benutzern auf der ganzen Welt und lernen schnell, eine breite Palette von Sprachen mit zusammenhängenden, menschenähnlichen Sätzen zu „sprechen“.
Aber wir haben den Refrain „ChatGPT wird alles ersetzen“ schon einmal gehört und dabei festgestellt, dass er oft ungenau ist – das Worst-Case-Szenario für Übersetzungen. Also haben wir es auf die Probe gestellt und fließende Sprecher von acht nicht-englischen Sprachen gebeten, die Übersetzungsergebnisse mehrerer KI-Dienste in einem Blindtest zu bewerten.
Zuerst haben wir ChatGPT (die kostenlose Version) mit Google Translate sowie den konkurrierenden Chatbots Microsoft Copilot und Google Gemini verglichen . Dann haben wir uns ChatGPT genauer angesehen und die kostenlose und die kostenpflichtige Version sowie die angepassten KI-Agenten im neuen GPTStore von OpenAI verglichen .
Bedenken Sie, dass dies keineswegs eine umfassende Studie ist. „Bitte bedenken Sie, dass kleine Blindtests nicht ausreichen; es sind strengere Tests erforderlich, um diese Tools richtig zu bewerten und mit statistischer Signifikanz zu vergleichen“, sagt Federico Pascual, ein Veteran der KI-Branche. Dennoch sind die Ergebnisse überraschend konsistent und bieten einen faszinierenden Einblick in die Funktionsweise von KI-Modellen.
Test 1: ChatGPT vs. Google vs. Microsoft
Dieser erste Test fand bereits im Juni 2023 statt und machte PCMag zu einem der ersten Anbieter, die diese angeblich allwissenden, neuen Chatbots zur Sprachübersetzung testeten.
Wir haben zweisprachige Sprecher von sieben Sprachen gebeten , die Übersetzungen von zwei Absätzen mit Google Translate, ChatGPT, Gemini (damals bekannt als Bard ) und Copilot (damals Microsoft Bing Chat ) blind zu bewerten. Nachdem sie die Übung abgeschlossen hatten, haben wir gezeigt, welcher Dienst die jeweilige Übersetzung erstellt hat.
- Getestete Sprachen: Polnisch, Französisch, Koreanisch, Spanisch, Arabisch, Tagalog, Amharisch
- Übersetzungsdienste: Google Translate, Google Bard, ChatGPT, Microsoft Bing
- Testabsatz 1: „Hallo! Sprechen Sie Englisch? Ich brauche Hilfe bei der Wegbeschreibung. Ich versuche, ein vegetarisches Restaurant zu finden, weil meine Schwester kein Fleisch isst. Was empfehlen Sie? Wir möchten auch in der Nähe von hier bleiben und nicht mehr als 50 $ ausgeben. Wenn sie Cocktails haben, wäre das ein Bonus. Wir hatten einen langen Reisetag und müssen etwas Dampf ablassen! Sie sind herzlich eingeladen, sich uns anzuschließen. Prost!“
- Testabsatz 2 – „Wie kaufe ich Tickets für die Bootsparty? Müssen wir im Voraus bezahlen oder können wir sie bei unserer Ankunft am Dock kaufen? Ich muss auf dem Oberdeck sein, weil mir manchmal schlecht wird, wenn ich zu nah am Wasser bin. Außerdem möchte ich so weit wie möglich von den jungen Hooligans entfernt sein, die während der Fahrt ständig Champagner knallen lassen wollen. Das ist gefährlich und nicht mein Ding!“
Ergebnis 1: KI-Chatbots schlagen Google Translate
Die Ergebnisse waren überraschend einheitlich. Von den 12 Beispielen, die wir unseren Teilnehmern schickten, zogen sie alle die KI-Chatbots – ChatGPT, Google Bard oder Microsoft Bing – Google Translate vor. ChatGPT war ihnen allen überlegen und übersetzte in den Beispielen Umgangssprache wie „Dampf ablassen“ gekonnt, während Google Translate eher wörtliche Übersetzungen lieferte, die in allen Kulturen nicht ankamen.
Die folgende Tabelle enthält die Rangfolge unserer Teilnehmer für jeden Dienst. Diejenigen, die beide Absatzbeispiele erhalten haben, sind mit (1) und (2) gekennzeichnet. Die anderen haben nur den ersten erhalten. Einige Sprachen haben keinen vierten Rang, weil Google Bard die Übersetzungsaufgabe abgelehnt und die Verwendung von Google Translate empfohlen hat. Dies ist wahrscheinlich ein Versuch von Google, seine eigenen Produkte nicht zu kannibalisieren.
„Meiner Meinung nach kommt [ChatGPT] einem normalen Gespräch am nächsten“, sagt Ana Romero, die die spanischen Übersetzungen bewertet hat. „Der Grad der Formalität zwischen den beiden Hauptfragen ist konsistent (informell) und es wird die richtige Übersetzung von ‚Dampf ablassen‘ verwendet.“
Romero schätzte auch, dass die Übersetzung von ChatGPT die Möglichkeit bietet, bestimmte Wörter mit männlicher oder weiblicher Endung zu beenden, anstatt eines für Sie auszuwählen. So stand dort beispielsweise: eres bienvenido/a a unirte a nosotros – „Sie sind herzlich eingeladen, sich uns anzuschließen“ –, was je nach Geschlecht des Eingeladenen des Sprechers variieren würde.
Eine immer wiederkehrende Falle für Google Translate waren seine wörtlichen Interpretationen. So behielt Google Translate beispielsweise im Französischen das Wort „Hooligans“ im Englischen bei, während die Chatbots den kulturell angemessenen Slang „voyous “ zu verwenden wussten .
„Die Geheimzutat von Chatbots wie ChatGPT ist RLHF, also bestärkendes Lernen mit menschlichem Feedback“, sagt Nazneen Rajani, Forschungsleiterin bei Hugging Face , dem Hersteller des KI-basierten Hugging Chat. „[Sie] sammeln menschliche Präferenzen für Modellantworten in Bezug auf Dimensionen wie Wahrhaftigkeit, Harmlosigkeit, Hilfsbereitschaft usw. Die menschlichen Präferenzen helfen dabei, diejenigen auszuwählen, die kulturell angemessener sind, insbesondere für Nicht-Muttersprachler.“
Allerdings war keiner der KI-Chatbots ein Eins-zu-eins-Ersatz für einen fließend sprechenden Menschen. Alle Chatbots litten immer noch unter einer manchmal ungeschickten und ungenauen Wortwahl; es gab nur weniger Beispiele dafür. So übersetzte Microsoft Bing beispielsweise aus dem Polnischen „Sie sind herzlich eingeladen, sich uns [im Restaurant] anzuschließen“ in „Zapraszamy Cię do nas“, was eigentlich eine Einladung ist, „zu mir nach Hause zu kommen“, sagt Barbara Pavone, Senior Managerin für Content Distribution bei PCMag.
Google Translate gewinnt bei Nischensprachen
Google Translate hat ChatGPT bei den weniger verbreiteten Sprachen, die wir getestet haben, übertroffen: Tagalog (Philippinen) und Amharisch (Äthiopien). Diese Sprachen haben die geschätzt kleinste Anzahl an Sprechern weltweit: Laut WorldData.info gibt es weltweit 33 Millionen Sprecher, die Tagalog als ihre Muttersprache bezeichnen, und Amharisch 25 Millionen . (Spanisch hat 450 Millionen Sprecher und Koreanisch 80 Millionen.)
Colin Salao, der die Tagalog-Übersetzungen bewertete, stellte fest, dass ChatGPT Wörter verwendete, die „super formell“ und für öffentliche Ankündigungen reserviert seien. Er fand, dass Bing „die wörtlichste Übersetzung“ sei, und bewertete es im Vergleich zu ChatGPT und Google Translate niedriger.
„[KI-Modelle] ließen sich nicht gut für Sprachen mit geringen Ressourcen oder für die nicht genügend menschliche Präferenzen erfasst wurden, verallgemeinern“, sagt Rajani. Für Amharisch und Tagalog vermuten wir, dass den Chatbots nicht genügend Daten zur Verfügung standen, um eine differenzierte Antwort zu geben, die zum Kontext des Absatzes passte. Stattdessen schienen sie wörtlicher zu sein als Google Translate, das Gegenteil von dem, was wir für die anderen Sprachen sahen.
Microsoft Bing hatte mit Amharisch noch größere Probleme. Es ließ einen Teil jedes Absatzes auf Englisch. Dies war das einzige Mal, dass einer der Dienste keinen Übersetzungsversuch unternahm, auch nicht für andere schriftbasierte Sprachen wie Koreanisch und Arabisch:
- Absatz 1 – Hallo! Was ist Ihr Lieblingslied? Ist es möglich, dass Ihr iPhone 6S einen Monat alt wird? Haben Sie schon einmal im Wert von 50 USD Cocktails gegessen? Für 2-3 Stunden. Wir hatten einen langen Reisetag und müssen Dampf ablassen! Sie sind herzlich eingeladen, sich uns anzuschließen. Prost!
- Absatz 2 – Was ist der Unterschied zwischen einem Mann und einer Frau? Was ist Ihr Dock und wie funktioniert es? Haben Sie das Upper Deck betreten und Champagner geraucht und die jungen Hooligans haben sich verlobt? Das ist gefährlich und nicht mein Spaß!
Test 2: Lohnt sich ChatGPT Plus für Übersetzungen?
Da KI-Chatbots Google Translate bei Übersetzungen im Allgemeinen überlegen sind, stellt sich eine neue Frage: Welche Version von ChatGPT ist die beste?
OpenAI bietet einen kostenlosen Plan, der auf einem Modell namens GPT-3.5 läuft, sowie einen kostenpflichtigen Plus-Plan für 20 US-Dollar pro Monat. Mit einem Plus-Konto können Sie das fortgeschrittenere Modell von ChatGPT, GPT-4, verwenden und auf ein neues Angebot namens GPTs zugreifen. Diese maßgeschneiderten KIs werden für bestimmte Aufgaben trainiert , beispielsweise das Übersetzen einer Sprache (oder sogar die Rolle eines romantischen Partners) .
Im Februar 2024 – acht Monate nach dem ersten Test – führten unsere zuverlässigen Übersetzer einen weiteren Blindtest durch, bei dem diesmal die verschiedenen Versionen von ChatGPT miteinander verglichen wurden. Wir haben auch die Ergebnisse von Google Translate einfließen lassen, um zu sehen, ob es angesichts der Geschwindigkeit, mit der sich diese Technologien weiterentwickeln, immer noch niedriger eingestuft wird.
- Sprachen: Polnisch, Französisch, Koreanisch, Deutsch, Arabisch, Tagalog (Hinweis: Deutsch wurde in der ersten Runde nicht getestet und aufgrund von Verfügbarkeitsproblemen haben wir Spanisch und Amharisch nicht in diesen zweiten Test aufgenommen.)
- Übersetzungsdienste: Google Translate, kostenloses ChatGPT (GPT-3.5), kostenpflichtiges ChatGPT (GPT-4), kostenpflichtiges ChatGPT (GPTStore ist als Übersetzer für jede spezifische Sprache ausgebildet)
- Testabsatz: Aus Harry Potter – „Harry hatte das Gefühl, er hätte sich kaum in Rons Zimmer zum Schlafen hingelegt, als er von Mrs. Weasley wachgerüttelt wurde. „Zeit zu gehen, Harry, Liebling“, flüsterte sie und ging weg, um Ron zu wecken. Harry tastete nach seiner Brille, setzte sie auf und setzte sich auf. Draußen war es noch dunkel. Ron murmelte undeutlich, als seine Mutter ihn weckte. Am Fußende von Harrys Matratze sah er zwei große, zerzauste Gestalten aus den Decken hervortreten. „Schon Zeit?“, sagte Fred benommen.“
ChatGPT bot für jede von uns getestete Sprache ein GPT an. Die Chat-Oberfläche sieht fast identisch aus wie die Hauptseite von ChatGPT, mit Ausnahme einiger Eingabeaufforderungen zum Einstieg, wie z. B. „Ins Deutsche übersetzen“ oder „PDF ins Italienische konvertieren“. Dies deutet auf fortgeschrittenere Sprachfunktionen hin.
Ergebnis 2: Bezahlter ChatGPT gewinnt, aber Google Translate überrascht uns
Fast immer lieferte ChatGPT Plus die beste Übersetzung. Unsere Tester stuften entweder GPT-4, das fortgeschrittenere Modell, das nur mit einem Plus-Konto zugänglich ist, oder ein sprachspezifisches GPT für fünf von sechs Sprachen als Nummer eins ein. Obwohl dies aufgrund der geringen Stichprobengröße noch keine endgültige Antwort ist, scheint die Konsistenz der Ergebnisse darauf hinzudeuten, dass fortgeschrittenere, gut trainierte Modelle einen Unterschied machen.
„[Das GPT für Tagalog] ist für mich dieses Mal bei weitem das Beste“, sagt Salao. „Die Grammatik war größtenteils korrekt und der Hauptgedanke jedes Satzes wurde richtig übersetzt. Es gab ein paar Teile, die man als Fehler bezeichnen könnte – wie die Verwendung von ‚gusot‘ als Übersetzung für ‚tangles‘ und ‚disheveled‘, aber das sind nur geringfügige Fehler.“
Allerdings schnitt Google Translate überraschend gut ab – besser als beim ersten Test vor acht Monaten. In Deutsch belegte es den ersten Platz, in Tagalog und Arabisch den zweiten Platz lord of the rings.
„Wenn ich das mit dem Blödsinn vergleiche, den Google Translate früher immer von sich gegeben hat, ist das ein Unterschied wie Tag und Nacht“, sagt unsere Deutschtesterin Sandra. „Ich bin super beeindruckt.“
Auch die kostenlose Version von ChatGPT, GPT-3.5, schnitt überraschend schlecht ab. Für Deutsch erreichte sie den höchsten Rang und landete auf Platz zwei, für alle anderen landete sie entweder auf Platz drei oder auf dem letzten Platz. Es ist unklar, ob OpenAI die Funktionen der kostenlosen Version absichtlich einschränkt, um Benutzer dazu zu bringen, für ein Plus-Konto zu bezahlen, aber alles in allem schnitten die kostenlose Version von ChatGPT und Google Translate in diesem letzten Test ungefähr gleich gut ab.
Erfahren Sie in unserem Erklärvideo mehr über die Technologie hinter ChatGPT und anderen LLMs