05.05.2017

Alexa, Energie! – Der intelligente Sprachassistent im Firmenumfeld

Autofahrer, die beim Fahren telefonieren, nutzen es gezwungener Maßen: Die Sprachsteuerung ihres Autos oder Smartphones.

Autofahrer, die beim Fahren telefonieren, nutzen es gezwungener Maßen: Die Sprachsteuerung ihres Autos oder Smartphones. Laut der Werbung von Apple, Google und Alexa aber auch immer mehr Menschen im häuslichen Umfeld. Insbesondere Amazon mit Alexa und dem Lautsprecher Echo wollen aus den heimischen vier Wänden eine Kommandobrücke der USS Enterprise machen (quietschende Sperrholztüren inklusive – siehe Link  ). Ein neues Interface für die Mensch-Maschine Interaktion wird massenmarktauglich. Willkommen in der Welt der intelligente Sprachassistenten.

Vom Stummfilm zum 3D Erlebnis des Interfaces

Was der Stummfilm im Kino war, war die mechanische IBM Model 3 Tastatur (übrigens gerade bei Golem im Anwendertest). Der 3D Film wäre dann die intelligente Spracheingabe mit Natural Language Processing und Machine Learning im Hintergrund. Mitten drin, ohne physischen Kontakt, dem Smart Home Kommandos, wie Captain Kirk, geben bis der Warpantrieb oder elektrische Rollladen glüht. Während Tastatur, Touchscreen und 3D Touch immer eine physische Interaktion zwischen Mensch und Maschine bedeuten und somit die Hände nicht frei sind, ist mit der Sprachsteuerung eine freihändige Bedienung möglich. Die denkbaren Anwendungsfälle sind vielfältig doch der Weg war ein langer.

Vorhang auf für die Spracherkennung

Spracherkennung gibt es seit den 1950zigern und war zu Beginn auf das Erkennen einer einzigen bekannten Stimme und ca. 10 Wörtern limitiert und noch weit entfernt von heutigen intelligenten Sprachassistenten. In den folgenden Jahrzenten wurden die Systeme, insbesondere in den USA durch IBM und das DARPA, kontinuierlich weiterentwickelt. Das Vokabular war in den 80zigern schon bei 20.000 Wörtern und in den 90zigern Jahre kam die erste kommerzielle Spracherkennungssoftware auf den Markt. Spracherkennung und Sprachsteuerung waren auch in den folgenden Jahren der Hauptaugenmerk. Trotz zunehmenden Vokabulars und stetiger Verbesserung der Spracherkennung waren die Systeme dumm. Fehlende Vernetzung und Mobilität limitierten die Anwendungsfälle drastisch. Erst mit dem Aufkommen des Internets und leistungsfähiger Smartphones begann die Entwicklung hin zu intelligenten Assistenten. Nicht von ungefähr waren Apple und Google mit ihren mobilen Betriebssystemen als erstes auf dem Markt für intelligente Assistenten. Apple mit Siri und Google mit Google Now. Microsoft versucht mit Cortana mitzuhalten, ist aber weniger bekannt. Doch auch bei der zunehmenden Intelligenz beschränken sich die Anwendungsfälle auf doch eher triviale Szenarien. Fragen wie „Wird ist das Wetter heute?“ benötigen zwar mehr als nur die Spracherkennung (Wissen über den Standort per GPS, Natural Language Processing und Machine Learning zum Beispiel) aber sind aus Sicht des Nutzers keine Meisterleistung.

Und überhaupt wie lässt sich damit Geld verdienen?

Alexa betritt die Bühne und übertrifft alle.

Insbesondere Alexa sticht aus den Sprachassistenten heraus. Im Gegensatz zu anderen Assistenten, die primär immer noch die sprachliche Steuerung von Funktionen, wie z.B. Kalendereinträge vornehmen, Suchanfragen zum Wetter stellen, etc. im Vordergrund haben, bietet Alexa die enge Verknüpfung mit Amazons Einkaufsplattform. Was mit Siri oder Google Now noch eher an Spielerei erinnert, bekommt mit Alexa plötzlich eine umfassenden ökonomischen Relevanz. Amazon kann direkt Umsatz mit Alexa generieren und nicht z.B. wie Google mit seinem Angebot nur indirekt über die Verwendung der Daten und das Schalten von Werbung. Wie empfindlich aber Kunden auf auch nur den Anschein eines werbungverbreitenden Sprachassistent haben, zeigte sich an den negativen Reaktionen, als Google Now unaufgefordert einigen Kunden morgens den Hinweis auf einen neuen Disney Film im Kino gegeben hat. Laut Google war dies keine gezielte Werbung für den Film, sondern ein automatisches Ergebnis der Auswertung der Vorlieben der angesprochenen Kunden, die anscheinend gerne Disney Filme schauen würden. Umgekehrt nutzte Burger King in einem Fernsehspot den Umstand aus, dass Google Now recht zuverlässig auf das Aktivierungskommando reagiert und fragte potentiell dauer-aktvierte Google Sprachassistenten in den Wohnungen der Fernsehzuschauer nach der Definition des Whopper, was bei Google eine automatische Anfrage bei Wikipedia zur Folge hatte. Der passende Wikipedia-Eintrag wurde von Burger King werbewirksam angepasst.

Ein Mensch wäre auf den Fernseher nicht reingefallen. Google schon.

Doch Googles Entwickler waren schnell und haben kurzfristig das Sprachmuster des Schauspielers auf die Blacklist gesetzt (Frage an mich selber: Kann der arme Mann nun nie wieder Google Now nutzen?). Alexa fiel übrigens auch einem ungewollten Vorfall zum Opfer. Ein Fernsehmoderator sprach im Fernsehen den Satz aus „Alexa, bestell mir ein Puppenhaus.“ was dazu führte, dass die Geräte ihren Besitzer fragten ob sie mit der Bestellung fortfahren solle. Google und Alexa sind hier immer noch schlechter als ein gut trainierter Hund, der nur auf sein wahres Herrchen hört.

Von der Showbühne in die Welt

Im privaten Umfeld bieten die Sprachassistenten jetzt schon vielseitige Anwendungsmöglichkeiten und einem Fall sogar ökonomischen Nutzen (auf jeden Fall für Amazon), doch wie sieht es im Firmenumfeld aus? Grundsätzlich sind alle Prozesse, bei denen eine freihändige Bedienung notwendig ist, ideal für Sprachsteuerung. Wobei einfache Sprachsteuerung erstmal keine Intelligenz benötigt. Einfache Steuerungsbefehle können theoretisch durch eine Maschine ohne weiteres Wissen über ihr Umfeld (wir erinnern uns an das Wetterbeispiel) umgesetzt werden. Eine intelligente Sprachsteuerung wie auf der USS Enterprise benötigt eine Vernetzung der Maschine, da ansonsten die Gefahr bestünde, dass der Warpantrieb aktiviert bevor Scotty die Antimateriekammer geputzt hat. Die Sprachassistenz wird ein Ökosystem von Diensten eingebunden und kann über Schnittstellen notwendige Daten abrufen und Sprachbefehle mit Hilfe von Machine Learning validieren. Im Fall von Alexa ist es heute schon theoretisch möglich, dass Alexa bei einer Bestellung die Verfügbarkeit des Produktes prüft oder bei Auswahlmöglichkeiten Vorschläge auf Basis von Nutzerpräferenzen gibt. Idealerweise antwortet Alexa dann auch in natürlicher Sprache. Die Bedingung unterschiedlichster Maschinen wird zur Konversation. Die Maschine wird transparent. Anstelle von umständlichen Bedienungsanleitungen treten intuitive Konversationen in den Vordergrund (nicht von heute auf morgen, das Touchdisplay hat auch einige Versuche gebraucht). Der ökonomische Nutzen durch mögliche Prozessoptimierung mit Hilfe von Sprachassistenten ist nicht von der Hand zu weisen.
Die genauen Anwendungsszenarien im Firmenumfeld sind noch nicht ausgelotet (Financial Analyst Assistent, Workflow Assistent, HR Assistent sind mögliche Anwendungen), aber sie sind vorhanden. Insbesondere Sprachassistenten von Amazon, Google und Microsoft, die in einem umfassenden Ökosystem von Cloud- und IoT Anwendungen eingebettet sind, bieten umfassende Möglichkeiten zum professionellen Einsatz. Captain Kirk lässt grüßen.

Ihr Kommentar