Innovationsweltreise Chinas Weg zur Nummer eins für künstliche Intelligenz

Swisscom

12.10.2018

Via Mikrofon sprechen Ärzte Diagnosen in das System. Die Umwandlung in Schrift erfolgt unmittelbar in der Patientenakte und erscheint sofort auf dem Monitor.
Via Mikrofon sprechen Ärzte Diagnosen in das System. Die Umwandlung in Schrift erfolgt unmittelbar in der Patientenakte und erscheint sofort auf dem Monitor.
Unisound

Spracherkennung in Kombination mit KI verändert unseren Umgang mit Maschinen. Anteil an dieser Entwicklung hat beispielsweise Huang Wei, CEO und einer der vier Gründer von Unisound. Das chinesische Unternehmen zählt zu den führenden Entwicklern von Spracherkennungssystemen in den Bereichen Smart Home, Automobil und Medizin.

Beim Thema künstliche Intelligenz geht der Blick zunehmend nach Osten. China ist fest entschlossen, die Führung in diesem Sektor zu übernehmen. Mitte 2017 hat die chinesische Regierung dazu einen Plan veröffentlicht – den «Next Generation Artificial Intelligence Development Plan». Demnach soll im Jahr 2020 die heimische Wertschöpfung bei rund 23 Milliarden Dollar liegen und im Jahr 2030 rund 150 Milliarden Dollar generieren. Um diese ambitionierten Ziele zu erreichen, entwickeln zahlreiche Unternehmen im Reich der Mitte in rasantem Tempo technologische Lösungen, die unter anderem unsere Kommunikation mit intelligenten Maschinen vereinfachen sollen.

Eines der führenden KI-Unternehmen in China ist Unisound. 2013 in Peking gegründet, entwickelt das nichtstaatliche Start-up Hardware wie Prozessoren und Sensoren, die zusammen mit einer cloud-basierten Plattform Sprachinteraktionen zwischen Mensch und Maschine ermöglichen. Beispielsweise rund 70 Prozent aller Sprachsysteme, die nach dem Kauf ins Auto eingebaut werden, stammen von Unisound. In über 100 Grosskrankenhäusern in China geben Ärzte ihre Berichte und Befunde nicht mehr über die Tastatur ein, sondern über ein cloud-basiertes medizinisches Spracherkennungssystem.

Chinesische Pioniere

Unisound-CEO Huang Wei und seine drei Partner setzten bereits auf die Verknüpfung von Cloud und Spracherkennung, als Cloud Computing, Cloud Storage, Artificial Intelligence, Machine Learning und Data Mining in China noch kaum eine Rolle spielten. Schon während des Studiums befasste sich Huang mit Bilderkennung, seine Doktorarbeit schrieb er über Spracherkennung und damit sollte sich auch sein Start-up beschäftigen. «Unser chinesischer Unternehmensname Yun Zhi Sheng bedeutet so viel wie ‹die Wolke kennt die Stimme›», erklärt Huang.

Huang Wei, Gründer und CEO von Unisound
Huang Wei, Gründer und CEO von Unisound
Unisound

«Es war von Anfang an unser Ziel, Rechenleistung und Smart Services in der Cloud zu nutzen, um die menschliche Stimme zu erkennen und zu verarbeiten. Unser Unternehmensname entspricht somit auch unserer Mission und Vision.» Huang und seine Mitstreiter waren sich damals schon sicher, dass in Zukunft Daten in der Cloud gespeichert würden. Und sie wussten um die elementare Bedeutung der Sprache in der Kommunikation. Für Huang ist sie die natürlichste Art, um Gedanken mitzuteilen. Unisound hat daher begonnen, den Maschinen die Sprache als Interaktionsform beizubringen.

Smart ja – aber nur Homes, nicht Phones

Und sie sind zunächst einmal auf Unverständnis gestossen. Dass Unisound keine Lösungen für Smartphones entwickelte, hat viele irritiert. Aber für Huang sind Smartphones nicht der wichtigste Markt für Spracherkennung: «Smartphones hält man in der Hand, man bedient sie über Touchscreens, Spracherkennung spielt hier nicht die Hauptrolle.»

Vielversprechender erschienen Huang und seinen Kollegen Lösungen für Medizin und Smart Homes. Heute ist Unisound Marktführer im medizinischen Umfeld und kooperiert mit Smart-Home-Giganten wie Haier oder Midea, die ihre Kühlschränke oder Klimaanlagen mit Unisound smarter machen. Allerdings sind die Kosten für die smarten Sprachchips noch so hoch, dass beispielsweise nur High-end-Klimaanlagen ab rund 2000 Franken damit ausgestattet werden. «Wenn es uns gelingt, die Kosten auf ein Viertel zu reduzieren, wird auch hier die Spracherkennung in den Massenmarkt kommen», ist Huang überzeugt.

Das Interesse daran besteht: Wie die «Global Consumer Insights Survey 2018» von PwC zeigt, sind Chinesen besonders offen gegenüber Geräten mit künstlicher Intelligenz. 21 Prozent der Befragten besitzen bereits ein Gerät mit künstlicher Intelligenz, 52 Prozent planen, eines zu kaufen. Dass China damit im internationalen Vergleich an der Spitze liegt, hat mehrere Gründe. Zum einen interessieren sich chinesische Verbraucher besonders für Sprachinteraktionen, zum anderen haben sie weniger Bedenken, wenn es um Privatsphäre und Datensicherheit geht. Damit unterscheiden sie sich deutlich von den Schweizern, die sehr auf Datensicherheit bedacht sind.

Der digitale Dolmetscher

Wie weit entwickelt Anwendungen für Spracherkennung bereits sind, konnte man im Juli 2018 bei der «TechCrunch» in Hangzhou erleben, einer internationalen Konferenz zum Thema Innovation. Paneldiskussionen wurden von Simultandolmetschern vom Chinesischen ins Englische übersetzt. So weit, so traditionell. Parallel kam aber auch eine Übersetzungs-Software des Suchmaschinen-Anbieters Sogou zum Einsatz. Die Übersetzung wurde in Echtzeit auf einer Leinwand angezeigt. Und damit konnten die Teilnehmer vergleichen: Wer war besser, Mensch oder Maschine?

Das Ergebnis: «Die Übersetzung der Maschine war vollständiger, der Mensch hingegen unterschlug manche Inhalte. Allerdings war die menschliche Übersetzung auch genauer und machte durchweg Sinn», so Stefan Justl von der auf China spezialisierten Kommunikationsagentur Storymaker, der sich vor Ort ein Bild machte. Der Vergleich hat jedoch gezeigt, wie gut die Spracherkennungs-Software bereits funktioniert.

Das Herzstück: Eine Sequenz von Chips, genannt YuYan (Mauersegler; im Sturzflug einer der schnellsten Vögel).
Das Herzstück: Eine Sequenz von Chips, genannt YuYan (Mauersegler; im Sturzflug einer der schnellsten Vögel).
Unisound

Rein technisch sieht Unisound-CEO Huang keine Probleme, maschinelle Übersetzungen auf das Niveau von erfahrenen Dolmetschern zu bringen. «Es ist lediglich eine Frage der Investition. Viele Begriffe, Termini und Abkürzungen müssen dem System hinzugefügt werden, damit es sehr gut funktioniert.»

Die Vorteile sieht Huang klar auf Seiten der Maschine: Kein Mensch kann so viele Sprachen übersetzen wie eine intelligente Maschine. Es ist nur eine Frage der Zeit, bis wir mit einer kleinen Übersetzungsmaschine in die Ferien fliegen und auf Chinesisch, Koreanisch oder Kroatisch nach dem Weg fragen oder Essen bestellen. In Japan wird ein solches Gerät bereits beworben. Der sogenannte Pocketalk kommt im Oktober auf den Markt. 50 Sprachen soll die Maschine beherrschen, Schweizerdeutsch ist nicht dabei.

Spracherkennung mit Schweizer Dialekten

Spracherkennungssysteme haben hohe Entwicklungskosten und werden vornehmlich für die meistgesprochenen Sprachen konzipiert. Damit ein System lernen kann, braucht es zum gesprochenen Wort entsprechend ein schriftliches Transkript. Im Chinesischen und Englischen sind solche Daten zur Genüge vorhanden. Im Schweizerdeutschen, gesprochen von nur 4,9 Millionen Menschen, hingegen nicht. Auch gibt es im Schweizerdeutsch keine einheitliche Schreibweise und Betonung.

Swisscom arbeitet daher mit einem sogenannten «Crowdsourcing»-Ansatz an der Spracherkennung von verschiedenen Dialekten, bei dem Freiwillige Textpassagen in verschiedenen Dialekten sprechen, um damit das System zu speisen. Dies bietet dann die Basis, um die Dialekte von einer mathematisch-linguistischen Perspektive her zu analysieren und um herauszufinden, wie man am besten mit ihrer Besonderheit umgeht. Das Ziel ist die Entwicklung eines Systems, das sämtliche Dialekte versteht. Die Swisscom UHD TV-Box versteht übrigens auch Walliserdeutsch.

Sprachbefehle ganz einfach: So sprechen Sie mit Swisscom TV

Zurück zur Startseite