Google Translatotron: End-to-End-Übersetzer nutzt Stimme des Sprechers

Google Translate ist bereits ein ziemlich mächtiges (wenn auch nicht immer das akkurateste) Werkzeug, wenn man etwas von einer Sprache in eine andere übersetzen möchte. Die App hat auch einen Direktübersetzer, der euch Unterhaltungen mit eurem fremdsprachigen Gegenüber ermöglicht. Ihr sprecht etwas in Deutsch ein und bekommt beispielsweise eine französische Sprachausgabe für euren Unterhaltungspartner als Ergebnis, jedoch spricht da eine x-beliebige Frauen oder Männerstimme.

Google möchte das Erlebnis verbessern und stellt auf seinem KI-Blog nun Translatotron vor. Ein End-To-End-Sprachmodell, welches eure Stimme und das gesprochene Wort analysiert, den Text übersetzt und die Übersetzung mit eurer Stimme und Sprachgeschwindigkeit wieder ausgibt. Google nutzt dafür ein sogenanntes Sequence-to-Sequence Netzwerk-Modell, das die Stimme in ein Spektogramm überträgt und daraus ein neues Spektogramm mit dem übersetzten Text erstellt. Wer an technischen Detail interessiert ist, schaut sich am besten den Blog-Post oder das dazugehörige Paper an. Stimmenbeispiele findet ihr auf einer separaten Seite.

Natürlich hört sich das immer noch etwas roboterhaft an, aber die ersten Ergebnisse sind meiner Meinung nach schon ziemlich ansehnlich.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich im SAP-Geschäft tätig und treibt gerne Menschen an. Behauptet von sich den Spagat zwischen Familie, Arbeit und dem Interesse für Gadgets und Co. zu meistern. Hat ein Faible für Technik im Allgemeinen. Auch zu finden bei Twitter, Instagram, XING und Linkedin, oder via Mail

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

17 Kommentare

  1. Sagt mal, bin ich wirklich der einzige dem Googles Marktposition und KI wirklich langsam Angst macht?

    • Nein. Das ist ein typisch deutsches Verhalten und bezüglich Google seit locker 15 Jahren üblich. Besonders intensiv ist die Angst bei denen, die weniger technisch versiert sind und sich die „KI“ somit wie Hexenwerk anfühlt.

      • Eher ist es so, dass viele technisch unglaublich unbedarft sind, aber sich selber attestieren, total versiert und voll im Thema zu sein und meinen, dass man eine vorhandene Technik nur für den vorgesehenen Zweck verwendet-denn es kann nicht sein, was nicht sein darf und man hat doch das Verboten-Emoji gepostet.

        Deutschland hat im Bereich KI nichts vorzuweisen, absolut nichts. Es gibt hierzulande wenn überhaupt Infos aus dritter Hand.

        Diese Technik ist problematisch in vielerlei Hinsicht. Man kann absehbar jede Form von Medien derart gut fälschen, dass das eine Gefahr für den Weltfrieden werden wird.

        Wie sollen Politik und Justiz noch funktionieren, wenn alle Beweise oder Informationen eine totale Fälschung sein können? Wie das Zivilleben? Selbst das Telefonat mit der Oma ist dann möglicherweise ein Fake.

        Bei Google arbeiten überwiegend Autisten und sozial inkompetente Nerds mit Inselbegabung. Die haben keine Ahnung von Menschen und können nicht um die Ecke denken. Wie Grundschüler mit den Codes für die Atombombe.

        Aber im technisch versierten Deutschland will man immer noch das Tablet in der Grundschule. Obwohl alle Länder, die uns technisch um 20-30 Jahre voraus sind, dass längst wieder verboten haben und selbst die technikverliebten Amis da keinen Bock drauf haben.

      • FriedeFreudeEierkuchen says:

        @pascal:
        „Typisch deutsches Verhalten“: In welcher Blase lebst du? Die Macht der Internetkonzerne und ihre Monopole sind rund um die Welt Thema – das ist kein deutsches Empfinden.
        In erster Linie ist die Konzentration von Daten bei gleichzeitigem Monopol auf dem jeweiligen Sektor das Problem von Google, Facebook oder Amazon. Das merkst du auch schnell, wenn du geschäftlich mit den Giganten zu tun hast. Hast du vermutlich noch nie, sonst würdest du anders sprechen.

        Zur Angst vor KI: davor muss man noch eine viele Jahre keine Angst haben. Alles was wir auf absehbare Zeit haben werden, sind Expertensysteme. Das hat mit KI so viel zu tun, wie ein Dreirad mit einem LKW. Aber auch Expertensysteme werfen sehr viele Fragen auf, weil oft die Sorgfalt oder das Wissen für eine saubere Umsetzung fehlt (Stichwort: algorithmischer Bias). Und je mehr wichtige Entscheidungen (Jobsuche, Kreditvergabe, juristische Entscheidungen) von Expertensystemen getätigt werden, desto kritischer für dein Leben wird die unkontrollierbare Software im Hintergrund.

        Wer sich eingehender mit Google & Co beschäftigt und regelmäßig den aktuellen Stand in Bezug auf KI und Expertensysteme verfolgt, wird sich wohl nicht so unkritisch äußern wie du.

      • Schon mal dran gedacht, dass viele gut gemeinte Erfindungen und Errungenschaften auch Missbrauchspotential haben? Das fängt schon bei so simplen Dingen wie Küchenmessern an.

        Wer kann denn zu 100% garantieren, dass nicht irgendwann mal ein Mensch bei Google böse Absichten hat und die umsetzt? Muss ja nicht mal die KI – von einer echten KI sind auch alle noch ein Stück entfernt – selbst sein, die sich dann in Skynet verwandelt.
        Rein logisch betrachtet muss jede KI auf irgend einem Algorithmus beruhen, welche wiederum auf Nullen und Einsen beruhen. Da ist kein Platz für Gefühle, die durchaus Taten über die simple Logik hinaus beeinflussen können. Wir Menschen können das Unterscheiden.

        • Jein, denn genau der Problematik scheinen sie sich auch bewusst zu sein. Eine KI so zu trainieren dass sie, im Gegensatz zu Menschen, später dennoch nicht in Schubladen denkt war ein großes Thema auf der letzten Google IO.

      • Eine ziemlich dumme Antwort von Pascal). Und streng genommen auch rassistisch, weil einer Gruppenzugehörigkeit ein negatives Merkmal zugeordnet wird. Einfacher Test: Tausche Gruppe gegen irgendeine andere, häufig verfolgte Gruppe aus und das vermeintliche Merkmal passend dazu. Und schon erkennst Du die Diskriminierung.

      • Schön formuliert 🙂

    • Ich bin dem gegenüber vollkommen aufgeschlossen und freue mich darauf, was in Zukunft noch alles möglich sein wird.

    • Nein.

      Und diese Antwort auf deine Frage hättest Du mit Hilfe von Google leicht selber recherchieren können:

      https://news.google.com/search?q=google+wettbewerb+marktmacht

      „Droht Google & Co. neues Ungemach aus Brüssel?“
      „Indien startet offiziell Kartellverfahren gegen Google“
      „Heil fordert: Macht von Google und Co beschränken“
      „Arbeitsminister will Macht der Digitalkonzerne beschränken“

      Informierst du dich evtl. zu einseitig, so dass dieser Eindruck entstanden ist?

  2. Also von der Idee und vom Nutzen her finde ich es spannend. Allerdings frage ich mich auch wie lange es noch dauert, bis ich mittels APP mit der Stimme eines anderen sprechen kann. Das ist ja nur noch ein Katzenspung.

    • Da ist wirklich nur noch „mittels App“ eine Frage der Zeit. Es gibt bereits (mindestens) ein Unternehmen, das mit KI-Kopien von Stimmen wirbt. Da gibt es so ein nettes Video von Obama, da haben die ihre Stimmen-Imitator-KI mit DeepFake kombiniert, damit auch das Bild passt.
      Man braucht eben etwas Material ob das Modell zu trainieren und im Moment auch noch einiges an Rechenleistung für das Training, aber wenn das Modell dann für die jeweilige Zielstimme angepasst ist, reicht eigentlich auch die Leistung eines Smartphones… also wirklich nicht mehr weit bis zur App.

    • Das hatte Adobe schon vor 1-2 Jahren (?) gezeigt. Für den Massenmarkt haben sie es soweit ich weiß nicht veröffentlicht, aber die Demo war sehr beeindruckend.

  3. Translatotron kommt dem Babelfish schon sehr nahe.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.