ElevenLabs , die virale KI-gestützte Plattform zur Erstellung synthetischer Stimmen, hat eine neue Finanzierungsrunde abgeschlossen.
Heute gab das Startup den Abschluss einer Serie-A-Finanzierungsrunde im Wert von 19 Millionen US-Dollar bekannt, die von den Unternehmern Nat Friedman und Daniel Gross gemeinsam mit Andreessen Horowitz geleitet wurde. Zu den weiteren Teilnehmern gehörten Schwergewichte wie Creator Ventures, SV Angel, Instagram-Mitbegründer Mike Krieger, Oculus-Mitbegründer Brendan Iribe, Deepmind- und Inflection AI-Mitbegründer Mustafa Suleyman und O’Reilly Media-Gründer Tim O’Reilly.
Eine mit der Angelegenheit vertraute Quelle sagte gegenüber TechCrunch, dass die Tranche den Wert von ElevenLabs nach der Finanzierung auf 99 Millionen US-Dollar beziffern werde – eine respektable Zahl, insbesondere wenn man bedenkt, dass das Startup erst vor etwas mehr als einem Jahr gegründet wurde.
„Diese Investition wird verwendet, um ElevenLabs hochmodernes Forschungszentrum für Sprach-KI weiter auszubauen und eine Reihe zusätzlicher Produkte auf den Markt zu bringen, die bestimmte Marktsegmente wie Verlagswesen, Gaming, Unterhaltung und Konversationsanwendungen unterstützen“, sagte Mitbegründer und CEO Mati Staniszewski per E-Mail gegenüber TechCrunch.
ElevenLabs, das in den letzten Monaten aus guten wie aus abscheulichen Gründen Schlagzeilen machte , wurde von Staniszewski, der zuvor bei Palantir arbeitete, und seinem Jugendfreund Piotr Dabkowski, einem ehemaligen Google-Mitarbeiter, gegründet. Inspiriert von der mittelmäßigen Synchronisation amerikanischer Filme, die sie als Kinder in ihrem Heimatland Polen sahen, machten sich die beiden daran, eine Plattform zu entwerfen, die es besser machen könnte – natürlich mithilfe künstlicher Intelligenz.
ElevenLabs kann Text mithilfe synthetischer Stimmen, geklonter Stimmen oder völlig neuartiger „künstlicher“ Stimmen in Sprache umwandeln, die die Klänge von Menschen unterschiedlichen Geschlechts, Alters und ethnischer Herkunft nachahmen. Die KI-Text-to-Speech-Modelle des Unternehmens sind sprachunabhängig, sodass Unternehmenskunden sie optimieren und ihre eigenen, proprietären Sprachmodelle darauf aufbauen können.
Gleichzeitig mit der Finanzierungsrunde der Serie A führt ElevenLabs (das derzeit 15 Mitarbeiter beschäftigt) Projects ein, einen Workflow zum Bearbeiten und Erstellen von langen gesprochenen Inhalten. Mit Projects können Benutzer Dialogsegmente und sogar Hörbücher erstellen, ohne die Plattform verlassen zu müssen.
„Business-to-Business-Partner können unsere Technologie in Bereichen wie der skalierbaren und mehrsprachigen Erstellung von Hörbüchern, der Vertonung von Charakteren in Videospielen, der Vertonung digitaler Artikel, der Unterstützung von Sehbehinderten beim Zugriff auf schriftliche Online-Inhalte und der Bereitstellung von KI-Radio einsetzen“, sagte Staniszewski.
ElevenLabs, das Ende Januar als Beta-Version auf den Markt kam, gewann ziemlich schnell an Fahrt – dank der extrem hohen Qualität der generierten Stimmen, der schnellen Generierungszeiten und des großzügigen kostenlosen Kontingents. Aber wie bereits erwähnt, war die Werbung nicht immer positiv – insbesondere, als böswillige Akteure begannen, die Plattform für ihre eigenen Zwecke auszunutzen.
Das berüchtigte Message Board 4chan, das für seine konspirativen Inhalte bekannt ist, nutzte das Tool von ElevenLabs, um hasserfüllte Nachrichten zu verbreiten, in denen Prominente wie die Schauspielerin Emma Watson imitiert wurden. An anderer Stelle gelang es James Vincent von The Verge, ElevenLabs zu nutzen, um die Stimmen von Zielpersonen in Sekundenschnelle zu klonen – und Audiosamples zu erstellen , die alles von Gewaltandrohungen bis hin zu Äußerungen von Rassismus und Transphobie enthielten.
Als Reaktion darauf kündigte ElevenLabs die Einführung einer Reihe neuer Sicherheitsvorkehrungen an. Dazu gehören etwa die Beschränkung des Stimmenklonens auf kostenpflichtige Konten, die Sperrung von Benutzern, die wiederholt gegen die Servicebedingungen verstoßen, und die Bereitstellung eines neuen KI-Erkennungstools.
Das Erkennungstool wird heute eingeführt. Es heißt AI Speech Classifier und ist als API für „ausgewählte“ Partner verfügbar. Es soll erkennen, ob eine hochgeladene Audioprobe KI-generierte Inhalte von ElevenLabs enthält.
„Die Gewährleistung einer sicheren Nutzung generativer KI-Plattformen ist eine zentrale Herausforderung für den gesamten KI-generierten Sektor, einschließlich Text-, Bild- und Sprachplattformen“, sagte Staniszewski. „Wir müssen sicherstellen, dass die Menschen über die Natur der generativen Medienlandschaft aufgeklärt sind und wissen, dass es solche Inhalte gibt – im Interesse der Transparenz sind wir entschlossen, Tools zu entwickeln, die den Menschen helfen, KI-generierte Inhalte zu erkennen.“
Ein freiwilliges Erkennungstool – vorausgesetzt, es funktioniert überhaupt wie angekündigt – wird schlechtes Verhalten nicht unbedingt verhindern. Aber es gibt noch ein weiteres Problem, das ElevenLabs nicht angesprochen hat: die existenzielle Bedrohung, die seine Technologie für Synchronsprecher darstellt.
Motherboard schreibt darüber, dass Synchronsprecher immer häufiger aufgefordert werden, die Rechte an ihren Stimmen abzutreten, damit Kunden mithilfe von KI synthetische Versionen erstellen können, die sie irgendwann ersetzen könnten – manchmal ohne zusätzliche Vergütung. Unterdessen deuten interne E-Mails, die der New York Times vorliegen , darauf hin, dass Activision Blizzard, einer der größten Spielehersteller der Welt, an Tools für KI-gestütztes „Stimmklonen“ arbeitet.
Es scheint, dass ElevenLabs dies als natürliche Entwicklung der Dinge betrachtet und seine Zusammenarbeit mit Verlagen wie Storytel und Medienplattformen wie TheSoul Publishing und MNTN für Hörbücher, Videospiele und Radioinhalte anpreist. (Storytel und TheSoul Publishing sind strategische Investoren.) Das Unternehmen behauptet, dass es über eine Million registrierte Benutzer aus den Bereichen Kreativität, Unterhaltung und Verlagswesen hat, die Audioinhalte für zehn Jahre erstellt haben.
ElevenLabs plant, seine KI-Modelle schließlich auch auf die Synchronisation von Stimmen auszuweiten. Damit tritt das Unternehmen in die Fußstapfen von Start-ups wie Papercup und Deepdub und will eine „Grundlage für die Übertragung von Emotionen und Intonation von einer Sprache in eine andere“ schaffen, wie das Unternehmen es nennt.
Mehr lesen: Apple Event 2024: iPhone 16, Apple Intelligence und alle anderen erwarteten „Glowtime“-Enthüllungen
„Dadurch kann jedes Video auf ansprechende, effektive und skalierbare Weise in jede beliebige Sprache synchronisiert werden, wobei die Stimme des Originalsprechers erhalten bleibt“, schreibt ElevenLabs in einer Pressemitteilung. „[Wir] führen bereits eine Reihe von Tests mit Industriepartnern durch, um KI-Synchronisation in großem Maßstab zu ermöglichen.“
Mit 21 Millionen Dollar auf der Bank (von denen 2 Millionen aus einer Pre-Seed-Runde im Januar stammen) ist ElevenLabs – egal, welche Konsequenzen das haben mag – voll darauf konzentriert, seine Konkurrenten im aufstrebenden Bereich der generativen Sprachtechnologie zu schlagen. Zu ihnen gehören etablierte Unternehmen wie Amazon, Google und Microsoft sowie Startups wie Murf , Tavus , Resemble AI , Respeecher , PlayHT und Lovo .