Sprachtechnologien

wavebreakmedia – shutterstock.com

Der moderne Einsatz von Sprachtechnologien

Die digitale Sprachtechnik ist heute überall zu finden: Ob beim Diktieren am PC, beim Telefonieren über Skype oder im Handy in Form einer Sprachsteuerung wie Siri von Apple. Navigationssysteme leiten mit einer netten Stimme den richtigen Weg, in nicht allzu langer Zeit werden auch Aufzüge Sprachgesteuert funktionieren. Die Entwickler dieses Technik machen sich vor allem um die Unterstützung und Entlastung des Menschen Gedanken: Wir sollen in unserer Arbeit durch die maschinelle Unterstützung entlastet werden, zudem sollen uns neuartige Technologien  zeitraubende Aufgaben abnehmen.

Besonders der Bereich Spracherkennung und Sprachausgabe hat große Fortschritte in der Entwicklung gemacht, so dass vieles, was früher nur in den Vorstellungen oder Filmen existierte, Realität wird.

Sprachtechnologien und Einsatzmöglichkeiten

Sprachtechnologien sind besonders im Bereich der Entwicklung von Hilfsmitteln beliebt. Sprachäußerungen können erkannt, Informationen weitergegeben und Übersetzungen „maschinell“ gemacht werden. Dabei sind Innovationen im Bereich Sprachtechnologie ein Mittel, mit dessen Hilfe Menschen, die nicht ein und dieselbe Sprache sprechen, miteinander kommunizieren können ohne direkt auf Grenzen zu stoßen.

Bei der Entwicklung von Sprachtechnologie wird immer mehr auf künstliche Intelligenz hingearbeitet: Entwickler dieser Technik befassen sich dementsprechend mit der Entwicklung von Anwendungen, die maschinell menschliche Sprache verarbeiten. Dabei sind zwei grundlegende Richtungen zu unterscheiden: Die Spracherkennung (Sprache zu Text) und die Sprachsynthese (Text zu Sprache). Zusätzlich zu den grundlegenden Richtungen nimmt auch die Bedeutung der Sprachbiometrie zu.

Das System der Spracherkennung (Sprache zu Text) als Teil der Sprachtechnologien

Prinzipiell verstecken sich hinter dem Begriff der „Spracherkennung“ Programme, die mit Hilfe eines Mikrofons und einer Soundkarte menschliche Sprache analysieren und verarbeiten. E-Mails können durch Systeme der Spracherkennung beispielsweise schneller und einfacher erstellt und verschickt werden. Dabei sprechen Sie mit dem Computer oder einem anderen Gerät mit Spracherkennung und steuern dieses allein über ihre Stimme. Die Sprache wird hierbei in Text überführt, so können Dokumente oder E-Mails einfach per Sprache erstellt und Gedanken schneller erfasst werden.

Heute ist die Spracherkennung mehr als nur eine Diktiersoftware, sie hat sich zu einer kompletten Spracherkennungslösung entwickelt, auf die von verschiedenen Endgräten wie dem PC, Smartphone, Tablet oder Notebook darauf zugegriffen werden kann. Dafür wurden Versionen speziell für Betriebssysteme wie iOS oder Android konzipiert. So kann die Spracherkennung überall verwendet werden; je nach Anwendung können die Diktate in der Cloud abgespeichert und eventuell direkt per Mail verschickt werden.

Im Unternehmensalltag ist die Spracherkennung besonders vorteilhaft für Berufe, in denen ein hoher Dokumentationsaufwand besteht. Dadurch, dass das Eintippen von Texten entfällt, ist der Zeitaufwand, der beim Erstellen von Dokumenten entsteht, geringer, da der zu erfassende Text lediglich gesprochen werden muss. Dabei gibt es Systeme, die sprecherabhängig oder sprecherunabhängig arbeiten: Bei der sprecherabhängigen Variante muss das Programm die Stimme des Nutzers erst kennenlernen und individuell auf sie „trainiert“ werden.

Spracherkennung im Alltag

Den meisten ist die Spracherkennung schon aus dem Alltag bekannt; wer hat nicht schon einmal die Assistenten wie Siri, Google Now oder Cortana im mobilen Betriebssystem ausprobiert – wenn auch nur zum Spaß. Diese Helferlein sind, nützlich um das Handy zu steuern, Kontakte anzurufen, Termine einzutragen, Nachrichten zu verschicken, das Internet zu durchsuchen oder auch Verkehrsverbindungen auszugeben. Hauptsächlich wird die Spracherkennung zur Steuerung verwendet, sodass man sich eben nur über Sprachanweisungen über eine Webseite bewegen oder Programmen Aufträge erteilen kann.

Holen Sie sich jetzt eine kostenlose Erstberatung zu Sprachtechnologien

Innerhalb unseres Fragebogens und eines persönlichen Gesprächs erhalten Sie:

 einen einfachen und strukturierten Weg, um Sprachtechnologien zu verstehen und in Ihrem Unternehmen anzuwenden.

 eine einzigartige Kommunikationsberatung, um Ihr Business erfolgreich auszubauen.

 praxisnahes Know-how von Experten mit über 10 Jahren Beratungstätigkeit.

Wie funktioniert so eine Spracherkennung eigentlich?

Wie der Name schon sagt, wird bei der Spracherkennung die gesprochene Sprache erkannt und in einen geschriebenen Text überführt. Die Sprachdaten werden auf einem Server verarbeitet und je nach System in Programmbefehle umgewandelt.

Es gibt zwei Modelle, die bei dem Prozess zu beachten sind: Das Sprachmodell und das Akustikmodell. Das Sprachmodell legt sowohl das Vokabular der Wörter fest, die erkannt werden sollen, als auch die Grammatik, die definiert, welche Wortkombinationen korrekt sind. Das Akustikmodell dagegen bringt die Aussprache in ein Format, das von der Maschine lesbar ist.

Im Prozess läuft das Ganze so ab:

Das akustische Modell hört dem Sprecher zu und zeichnet die Tonspur auf. Daraufhin vergleicht es die Laute mit den Klangmustern, die dem System vorliegen. Die Einzelteile werden daraufhin zu sinnvollen Einheiten zusammengefasst. Danach wird eine erste Hypothese aufgestellt, was der Sprecher mit seinen Worten gemeint haben könnte. Da in der deutschen Sprache nicht immer alle Wörter eindeutig sind, muss das Sprachmodell hierbei nicht nur dieselben Wörter kennen wie das Akustikmodell, sondern zusätzlich den Kontext der Aussage.

Dieser doch sehr komplexe Prozess läuft in einer erstaunlichen Geschwindigkeit ab. Das liegt vor allem daran, dass der Computer die Sprache inzwischen fast genauso schnell verarbeiten kann, wie sie gesprochen wird. Je nach technischer Voraussetzung kann die Erkennungsgenauigkeit bei bis zu 100% liegen. Durch diese fortgeschrittene Technik können solche Systeme Arbeitsabläufe vereinfachen, was auf Dauer auch eine 

Die Sprachsynthese (Text zu Sprache)

Die Sprachsynthese ist häufiger bekannt unter der englischen Bezeichnung „Text-to-Speech“ (TTS). Bei diesem System wird in einer Synthese geschriebener Text in gesprochene Sprache umgewandelt. Dabei wird die menschliche Stimme meist künstlich erzeugt. Während das früher noch so blechern wie von einem Roboter klang, ist die Technik heute so weit fortgeschritten, dass die Stimmen immer menschenähnlicher werden.

Wozu wird Text-to-Speech verwendet?

Zum einen birgt die Sprachsynthese die Möglichkeit der Barrierefreiheit von Computern: So können Sehbehinderte durch die Nutzung eines solchen Systems den Computer und das Internet ganz einfach nutzen. Sie haben die Möglichkeit, sich Webseiten oder aber auch E-Mails, Wetterberichte oder sonstige Texte vorlesen zu lassen. Genau das ist die ursprüngliche Anwendung, für die solche Systeme gedacht waren – Sehbehinderten sollte die Nutzung von Computern vereinfacht werden.

Durch den Fortschritt der Technik sind diese Systeme inzwischen zu weitaus mehr fähig. Bei der vermehrten Nutzung von portablen Geräten und der sich verbreitenden Mentalität, von jedem Ort aus zu arbeiten zu wollen, wird die Sprachsynthese auch dabei nützlich. So lässt man sich mal eben im Auto die eingehende E-Mail oder andere Texte vorlesen, der Blick auf das Display wird überflüssig.

Auch der Einsatz im Bereich des E-Learning ist beliebt: Vor allem beim Lernen von Fremdsprachen kann die Funktion der Erzeugung von Sprache sehr nützlich sein. So lässt man einfach das System einen Text in der zu lernenden Sprache vorlesen und kann so den Klang und die Aussprache besser verinnerlichen.

Wie funktioniert die Sprachsynthese?

Die Sprachsynthese setzt die Analyse menschlicher Sprache voraus und besteht in der Konsequenz aus mehreren Schritten. Sobald das System die Texteingabe erhält, wird dieser analysiert und in eine phonetische (=klangliche) Beschreibung transformiert. Anschließend werden die Silben nach Länge und Tonhöhe gemessen, die sprachliche Artikulation generiert und aus den vorliegenden Informationen ein Sprachsignal erstellt. Dabei wird auf eine Datenbank zurückgegriffen, in der charakteristische Sprachsegmente hinterlegt sind.

Für die Erzeugung von Sprache kommen Softwaremodule (sogenannte „Sprachsyntehe-Engines“) zum Einsatz, die von verschiedenen Herstellern angeboten werden. Die Softwaremodule bieten meist mehrere weibliche und männliche Stimmen an, die oftmals menschliche Namen wie Anna oder Stefan haben. Um diese Engines zu verwenden braucht es entsprechende Softwarepakete. Dabei greifen die meisten Softwarepakete auf die gleichen Engines zurück und unterscheiden sich somit in der Benutzerfreundlichkeit, im Interface und im Layout, nicht aber in der Sprachqualität, da diese von den Engines abhängt. Bei einem der führenden Hersteller (Linguatec) wird die Sprachsynthese auf Basis der Sprachaufnahmen von ausgebildeten Sprechern gemacht. So klingen aus Ihrem Navi nicht künstlich generierte Stimmen, sondern echte menschliche Stimmen aus Sprachaufnahmen.

Das Tonmaterial wird während des Prozesses der Synthese in kleine Einheiten, sogenannte Units, zerlegt. Diese Units können aus Lauten wie A und E (Phoeme), aber auch Ei oder Au (Diphtonge) oder aus ganzen Silben bestehen. Je nach Text werden die Units durch spezielle Algorithmen zu einem gesprochenen Text zusammengefügt. Dafür muss das Programm wissen, wie ein Satz aufgebaut ist und wo das Subjekt steht; nur so können die Sätze grammatisch korrekt ausgegeben werden.

Holen Sie sich jetzt eine kostenlose Erstberatung zu Sprachtechnologien

Innerhalb unseres Fragebogens und eines persönlichen Gesprächs erhalten Sie:

 einen einfachen und strukturierten Weg, um Sprachtechnologien zu verstehen und in Ihrem Unternehmen anzuwenden.

 eine einzigartige Kommunikationsberatung, um Ihr Business erfolgreich auszubauen.

 praxisnahes Know-how von Experten mit über 10 Jahren Beratungstätigkeit.

Die Qualität einer Sprachsynthese

Wie gut eine Sprachsynthese arbeitet wird an der Natürlichkeit sowie der Verständlichkeit der generierten Sprache festgemacht. Andere Faktoren, die bei der Beurteilung der Qualität beachtet werden sollten, sind die Stimmlage, die Aussprache, die Umwandlung von Abkürzungen sowie Satzzeichen oder Zahlen. Diese beeinflussenden Faktoren wiederum sind abhängig vom angewandten Verfahren. Eine natürliche und fehlerfreie Aussprache wird umso wahrscheinlicher, je mehr Wörter für das Programm zur Verfügung stehen.

 

    Die 3. Sprachtechnologie: Die Sprachbiometrie

    Die eigene Stimme als Passwort verwenden? Klingt verrückt, kann sich aber bald schon verbreiten, denn es wird daran gearbeitet, die eigene Stimme im Rahmen der Spracherkennung auch als Passwort einzusetzen.

    Die Sprachbiometrie ist ein relativ neues Verfahren, welches auf der Beschaffenheit der Stimme und Sprechweise basiert. Es wird durch die Aufnahme der Stimme, ein sogenannter Stimmabdruck oder auch „Voiceprint“ erstellt. Dieser eignet sich für die Verifizierung von Personen und ist sicherer als eine PIN, da jede Stimme und Sprechweise einzigartig ist; so wird der Identifikationsbetrug sehr schwierig.

    Aufgrund dessen eignet sich der Einsatz dieser Technik für Branchen, in denen sensible Daten verwaltet werden. Das Anlegen eines Stimmprofils und die anschließende mögliche Identifikation anhand der Stimme ermöglicht die Herausgabe von vertraulichen Informationen auch am Telefon. Auch Faktoren wie eine Erkältung oder die Alterung, die die Stimme beeinflussen, werden von dem System erkannt und berücksichtigt; die Anrufqualität hat keinen Einfluss auf einen erfolgreichen Authentifizierungsprozess.

    Vorteile aus dieser Technologie ergeben sich nicht nur für Unternehmen, sondern auch für den Kunden: Die Authentifizierung wird erleichtert und bequemer, da die Kunden nicht mehr an langen Befragungen teilnehmen müssen oder Nummer vorliegen haben müssen. Zudem können Stimmabdrücke von Betrügern abgespeichert werden, sodass diese bei einem Betrugsversuch sofort erkannt werden.

      Einsatz im Alltag

      Es gibt schon Banken, die die Sprachbiometrie im Kundenservice einsetzen. So konnten Anrufzeiten reduziert und dadurch Kosten eingespart werden. Zudem konnte die Kundenzufriedenheit gesteigert werden, da es ein einfacher und unkomplizierter Prozess für den Kunden ist, wenn er innerhalb weniger Sekunden an der Stimme identifiziert wird. Neben Banken und Mobilfunkanbietern arbeitet auch die internationale Polizei an dem Einsatz solcher Systeme, die Verdächtige anhand ihrer Stimme erkennen sollen, sodass diese anhand von Telefonmitschnitten eindeutig identifiziert werden können.

        Wie funktioniert die Sprachbiometrie?

        Bei der Sprachbiometrie ist der Einsatz eines intelligenten Systems entscheidend: Es wird nicht die Stimme der Person gespeichert, sondern eine extrahierte mathematische Repräsentation aus 150 Merkmalen der Stimme. Bei der Erkennung arbeitet das System mit Wahrscheinlichkeiten. Bei einer erfolgreichen Authentifizierung kommt das System zu dem Schluss, dass es sich zu 99% um den richtigen Nutzer handelt. Je „schwerwiegender“ die beantragte Aktion ist, desto höher wird die Sicherheitsvorkehrung: Das bedeutet, der Nutzer muss zum Beispiel bei einer größeren Transaktion ein weiteres Mal eine Sicherheitsphrase aufsagen, damit das System sichergehen kann, dass es sich um eine autorisierte Person handelt.

          Welche Vorteile ergeben sich letztendlich aus den Sprachtechnologien?

          Durch die Nutzung von Sprachtechnologien entstehen Vorteile für Unternehmen. Durch die automatische Erkennung der Kunden anhand ihrer Stimme können zum Beispiel Kosten eingespart werden; das hängt mit der Verringerung des Aufwandes für die Kundenkommunikation zusammen. So kann das Telefonat eventuell ganz durch das Erkennen und Erzeugen von Sprache durchgeführt werden. Zudem wird die Bedienung von Geräten über Sprache einfacher und nimmt weniger Zeit in Anspruch, die woanders mehr gebraucht werden kann. Dies sind ein paar Beispiele, wo durch die Verwendung von Sprachtechnologien Arbeitsabläufe vereinfacht und effizienter gestaltet werden können. So profitiert am Ende das ganze Unternehmen davon, in die Sprachtechnologien zu investieren.

            Holen Sie sich jetzt eine kostenlose Erstberatung zu Sprachtechnologien

            Innerhalb unseres Fragebogens und eines persönlichen Gesprächs erhalten Sie:

             einen einfachen und strukturierten Weg, um Sprachtechnologien zu verstehen und in Ihrem Unternehmen anzuwenden.

             eine einzigartige Kommunikationsberatung, um Ihr Business erfolgreich auszubauen.

             praxisnahes Know-how von Experten mit über 10 Jahren Beratungstätigkeit.

            Ein Fazit zu den Sprachtechnologien

            Schon heute treffen wir auf künstliche Stimmen an Flughäfen oder Bahnhöfen – und das ohne dass es uns bewusst ist: Durchsagen werden teilweise schon von künstlich generierten Stimmen gesprochen. Die Verbindung von Mensch und Technik wird für uns immer wichtiger: So werden wir durch sie entlastet und müssen uns nicht mehr mit nebensächlichen, zeitraubenden Aufgaben beschäftigen. Die technische Unterstützung wird unumgänglich und durch die Kombination von Spracherkennung, Sprachbiometrie und auch künstlicher Intelligenz von der Science-Fiction-Vorstellung zum Alltag.