Gesprochene Sprache als Benutzerinterface für Geräte und Softwareanwendungen hat in den letzten fünf Jahren enorm an Bedeutung gewonnen. Laut den Marktforschern bei Comscore werden in diesem Jahr bereits 50% aller Suchanfragen per Spracheingabe erfolgen. Verantwortlich sind dafür zum einen natürlich die allgegenwärtigen Sprachassistenten Siri, Google Assistant und Alexa auf unseren Smartphones und in den smarten Lautsprechern in den Wohnungen.

Zum anderen bringt die Suche per Spracheingabe auch eine ganz neue Qualität in die Benutzerinteraktion mit einer Suchmaschine. In den letzten 15 Jahren haben wir gelernt, uns bei Suchmaschinen in wenigen Worten kurz und bündig auszudrücken. Die Suche per Sprache hat hingegen eine andere emotionale Qualität. Die namentliche Ansprache mit ‚Alexa‘ oder ‚Hey Google‘ erzeugt eine direkte Beziehung zur Maschine. Die anschließende Suchanfrage erfolgt dann meist in einem kompletten Satz.

„Wie heißt die Hauptstadt von Usbekistan?“ Diese Unmittelbarkeit erzeugt eine Intimität, die eine getippte Nur-Text-Sucheingabe ‚Hauptstadt Usbekistan‘ niemals bieten kann.

Dahinter steht eine Kombination aus Spracherkennung und Sprachverarbeitung, die diese Nähe erst möglich macht. Ihre Entwicklung wird sich im kommenden Jahrzehnt noch einmal deutlich beschleunigen. Doch warum erfolgt gerade jetzt der enorme Push in Richtung Voice? Die Technologie existiert bereits seit mehreren Jahrzehnten und hat auch auf dem hiesigen Markt mehrere ‚Hypezyklen‘ durchlaufen. Die ‚Voice Germany‘-Veranstaltungen von 1994 bis 1997 in Frankfurt und die ‚Voice‘ von 2006 bis 2009 in Bonn stehen beispielhaft für diese Wellen. Woher kommt der plötzliche Boom und die Wiederentdeckung der Stimme als Eingabemedium?

Spracherkennung – Eine Technologie mit Historie

Technologie zur Spracherkennung gibt es nun schon seit fast 70 Jahren. Das System Audry der Bell Labs war 1952 einer der ersten kommerziellen Versuche, Spracheingabe für Computersysteme zu ermöglichen. Diese Versuche schon in den frühen Tagen des Computereinsatzes verwundern nicht. Wir sind instinktiv fasziniert von der Möglichkeit, mit einer Maschine in natürlicher Sprache zu kommunizieren. Die Science-Fiction-Filme und -Serien, in denen dies ein wichtiger Teil der Geschichte ist, sind Legion.

Trotzdem wurden in den letzten 65 Jahren nur vergleichsweise geringe Fortschritte gemacht. Im Mittelpunkt stand das sichere Erkennen von Ziffern und einem Set einfacher Kommandos. Diese grammatikbasierten Spracherkennungssysteme ermöglichen strukturierte Dialoge für transaktionsgetriebene Anwendungen, wie Buchungs- und Abfragesysteme. Sie kommen heute in vielen IVR-Lösungen zum Einsatz. Ihr Vokabular ist allerdings recht eingeschränkt, um eine sichere Erkennung unterschiedlicher Sprecher zu ermöglichen.

Diese Einschränkungen deuten bereits auf die zentrale Herausforderung bei der Spracherkennung hin. Jeder Mensch hat eine andere Stimme und die gesprochene Sprache kann sehr inkonsistent sein. Im Gegensatz zu Text, der einen viel höheren Standardisierungsgrad aufweist, variiert das gesprochene Wort stark in Abhängigkeit von regionalen Dialekten, Geschwindigkeit, Betonung, gesellschaftlicher Herkunft und Geschlecht. Diese Varianz stellte über lange Zeit eine enorme Herausforderung bei der Weiterentwicklung von Spracherkennungssystemen dar. Sie führte zu der Fokussierung auf fest umrissene, enge Anwendungsszenarien mit definiertem Wortschatz, vor allem in Bereichen mit einer hohen Zahl wiederkehrender Vorgänge bei Banken, Versorgern und Fluggesellschaften.

Voice als Strategie

Trotz dieser Einschänkungen und der häufig negativen Haltung zu ‚Sprachcomputern‘ hat die Faszination, einen Dialog mit der Maschine zu führen, nicht nachgelassen. In den letzten fünf Jahren kam die Forschung und Entwicklung in diesem Bereich dann einen entscheidenden Schritt nach vorn. Die großen US-Internetplattformen haben sich mit ihrem kreativen Potential und ihren enormen Entwicklungsressourcen dem Thema angenommen. Dies hat mehrere Gründe:

1. Sprache eröffnet neue Einsatzmöglichkeiten für Ihre allgegenwärtigen Dienste und Plattformangebote. Als die natürlichste aller Interaktionsformen senkt sie die Zugangshürden und hat damit das Potenzial, den Kreis der Nutzer deutlich auszubauen. Dies vor allem in den Ländern, in denen der Umgang mit Computersystemen und Software noch keine so hohe Verbreitung hat.

2. Kleinere, mobile Geräte mit ihrer Vielzahl von Einsatzsituationen machen die Texteingabe oft nicht möglich. Sprache wird damit zur einzig sinnvollen Alternative, um beispielsweise im Auto nach einem Ziel zu fragen oder eine Textnachricht einzugeben. Sprache ist hier das Interface der Wahl.

3. Mit den ‚sprachaktivierten Heimlautsprechern‘ wie Amazon Echo oder Apple Homepod wurde eine neue Gerätekategorie eingeführt, die auf Bequemlichkeit setzt. Neben der Erweiterung der Plattformnutzung in neuen Anwendungsfällen (Musik) ist dies im Wesentlichen eine Trojaner-Strategie. Sie werden deshalb auch oft zu Preisen angeboten, die für ihre Anbieter nicht kostendeckend sind. Der Umgang mit den Lautsprechern schafft die Basis für die Interaktion mit bildschirmlosen Geräten, die unter dem Begriff ‚Internet der Dinge‘ zusammengefasst werden können.

4. Das ‚Internet der Dinge‘ wird eine vollständig bildschirmfreie Beziehung mit den meisten unserer Geräte bringen. Man schreibt dort keine Anfrage an einen Thermostaten, sondern man spricht sie und erhält im Gegenzug eine gesprochene Auskunft über das Raumklima. Diese Art der Bedienung wird zum Regelfall für die intelligenten, vernetzten Geräte, mit denen wir in Zukunft überall interagieren werden.

Machine Learning macht den Unterschied

Die Einführung von Apples Sprachassistent Siri, zu Anfang basierend auf einer Kooperation mit Nuance, war der Auftakt für diese Entwicklung. Durch eine neue Positionierung als ‚Sprachassistent‘ wurde das Thema Spracherkennung durch die Technologien ‚Sprachverstehen‘ und ‚Dialog mit Zugriff auf Kontextwissen‘ erweitert. Als Ergebnis langjähriger Forschung brachte dieser digitale Assistent mit KI einen Hauch von Menschlichkeit in die bis dahin sterile Welt der Spracherkennung mit ihren hölzernen Kommandos. Das geschickte Marketing von Apple tat ein übriges, die Öffentlichkeit auf die kommende Welle der Sprachdialoganwendungen vorzubereiten.

Nach Siri brachte Microsoft Cortana und Amazon Alexa auf den Markt, und der aktuelle Kampf um die Vormachtstellung auf dem Markt der Spracherkennungsplattformen begann.

Dabei geht es sowohl darum, das vorrangig eingesetzte System in einem Haushalt zu sein, als auch mehr als eines dieser Heimgeräte zu platzieren. Je prominenter sie in der häuslichen Umgebung sind, desto mehr werden sie in den Tagesablauf integriert und benutzt. Diese Wirkung ergibt sich auch aus der Tatsache, dass die Technologie nun für die Erledigung alltäglicher Aufgaben wirklich nützlich ist. Die Spracherkennung hat inzwischen für die meisten Menschen ein akzeptables Maß an Genauigkeit und Zuverlässigkeit erreicht. Alle wichtigen Plattformen melden eine Fehlerrate bei der Worterkennung, die oft als Messkriterium genutzte ‚Word Error Rate‘, von unter 5%.

Dieser beeindruckende Fortschritt in der aktuellen Technologieentwicklung wird vor allem durch den Einsatz von Machine Learning vorangetrieben. Die KI entwickelt ein Modell, welches auf Millionen von Sprachdialogen aufsetzt, die Absichten (Intents)  in den Äußerungen ermittelt und den Kontext berücksichtigt. Sie kann dann im konkreten Dialogeinsatz auf früheren Anfragen aufsetzen (Dialoghistorie), kann mehrere Schritte berücksichtigen (State) und verfolgt in der Regel ein transaktionsgetriebenes Ziel (Goal Driven). Es soll etwas mit der Eingabe erfolgen. Trotzdem erscheint es häufig so, als wäre dies in ein Gespräch zur Unterhaltung verpackt.

What‘s Next

Wir sind noch weit davon entfernt, das wahre Potenzial der Spracherkennungstechnologie zu erkennen, geschweige denn auszuschöpfen. Dies gilt sowohl für die Weiterentwicklung der Technologie selbst als auch für ihre Integration in unser Leben. Die derzeitigen Sprachassistenten können Sprache sehr gut interpretieren, sind jedoch nicht die Konversationsschnittstellen, die die Technologieanbieter in ihrer Werbung darstellen. Darüber hinaus bleibt die leistungsfähige Spracherkennung auf eine kleine Anzahl von Anbietern beschränkt. Dies nicht zuletzt wegen des enormen Datenvolumens, welches zum Training der Systeme notwendig ist. Durch einen veränderten regulatorischen Rahmen könnten hier weitere Anbieter auf den Markt kommen. Die Geschwindigkeit des Fortschritts in der Spracherkennung ist im Vergleich zu den zurückliegenden Jahrzehnten jedoch wirklich phänomenal.

Als solches können wir in die nahe Zukunft schauen und uns eine stark veränderte Art der Interaktion mit der Welt um uns herum vorstellen. Das Konzept vom ‚Ambient Computing‘ als ein uns umgebender sprachgesteuerter Informationslayer scheint durchaus zu passen. Wer sich schon einmal intensiv mit einer Augmented-Reality-Anwendung beschäftigt hat, kann erahnen, was da auf uns zukommt.


Christin Öhler

Olav V. Strawe ist Gründer und Herausgeber der Zeitschrift TeleTalk, der führenden Publikation rund um Contact Center und Kundenkommunikation und Herausgeber des Handbuch Call Center Management. Er befasst sich seit über 25 Jahren mit den Themen Telekommunikation, Sprachverarbeitung und Kundenservice. Als Gründer der 4TechnologyGroup, einem Zusammenschluss von Technologie-Unternehmen aus dem Kommunikations- und AI- Bereich, arbeitet er zudem aktiv an der Umsetzung innovativer Kommunikations- und Softwarelösungen für Carrier- und Contact-Center-Betreiber. Sein Studium der BWL und Wirtschaftsinformatik absolvierte er in Köln und an der Pennsylvania State University. Er lebt und arbeitet in Berlin und San Francisco.

Kennen Sie schon den aixvox-Newsletter?

Lassen Sie sich einmal im Monat kostenlos über die aktuellsten Workshops, Messen, Seminare und Webinare informieren!

Sie haben erfolgreich den aixvox-Newsletter abonniert!