Wie funktioniert Alexa? Die Technik hinter Sprachassistenten

Foto: fizkes/Shutterstock
Woher kommen Alexas Antworten?
Das Grundprinzip ist bei jedem Sprachassistenten gleich und beginnt auf jeden Fall immer mit der Aktivierung durch ein Wort oder eine Phrase. Auf einem Android-Smartphone ist das auf Wunsch „Alexa“ und am iPhone immer „Hey Siri“. Danach wird der gesprochene Befehl in Text umgewandelt und anschließend auf Schlüsselwörter wie beispielsweise „Timer“ oder „Erinnerung“ untersucht. Hat der Sprachassistent die Aufgabe per NLP (Natural Language Processing) verstanden, dann wird sie verarbeitet und schließlich nach einer Antwort gesucht. Diese findet das System entweder am Telefon selbst, wie etwa in den Erinnerungen oder im Kalender. Gesucht wird aber auch im Web, in Datenbanken oder mit KI-Modellen.
Zusammengefasst: Befehle wie „Taschenlampe an“ können offline und am Smartphone selbst bearbeitet werden. Stellt man allerdings eine Frage wie „Schlafen Eichhörnchen nachts?“, dann muss der Sprachassistent ins Internet ausweichen.
Siri: Pionierarbeit
Auch wenn sie heute die vielleicht bekannteste ist, war Alexa nicht die erste Sprachassistentin. Den Anfang machte Apple 2011, als das iPhone 4s mit iOS 5 das Sprechen lernte. Siri revolutionierte in der Folge die Bedienung mobiler Geräte, vor allem von Smartphones. Sprachsteuerung gab es natürlich schon früher. Doch erst Siris eloquente und manchmal humorvolle Antworten machten die Technik wirklich massentauglich.
Alexa holt auf
Alexa wurde dann im Jahr 2014 gemeinsam mit den „Echo“-Lautsprechern präsentiert. Anfangs war sie eine smarte Sprachsteuerung für beispielsweise Wetterinfos und Musik. Mit den sogenannten „Skills“ lernte sie aber rasch dazu und wurde in der Folge vielseitiger einsetzbar. 2019 rückten Personalisierungen (zum Beispiel Stimmprofile) und Datenschutz in den Fokus. Der wahre Gamechanger kam allerdings erst ab 2020. Dank künstlicher Intelligenz konnte Alexa nun auch komplexere Anfragen besser verstehen und Kontext erkennen. 2023 folgte der nächste Sprung mit generativer KI (durch Large Language Models). Seither entwickelt sich Alexa immer mehr vom reinen „Assistenten“ hin zu einem echten Gesprächspartner und smarten Alltagsbegleiter.
Deep Learning
Die eigentliche Revolution bei Sprachassistenten passierte allerdings im Hintergrund. Siri und in der Folge auch Alexa wurden ab 2016 immer mehr mit „Deep Learning“ ausgestattet. Das Ziel war eine bessere Spracherkennung (Speech-to-text) und ein tieferes Verständnis (NLP). 2020 wird Deep Learning dann zum generellen Standard. Alexa kann jetzt auch Emotionen erkennen, Zusammenhänge erfassen und komplexere Routinen abwickeln.
Wie funktioniert Alexa: Fazit
Die Entwicklungen laufen heute auf eine Integration von generativer KI hinaus. Der Trend geht weg von simplen Befehlen und hin zu komplexen Unterhaltungen. Auch die Personalisierung macht damit immer größere Schritte. Fazit: Die Integration von LLMs (Large Language Models), wie beispielsweise GPT-4 von OpenAI, wird Alexa immer mehr in einen „menschlichen“ Alltagsbegleiter verwandeln.