Lebensverändernde Technik

Spracherkennung: Warum wir ungern mit Computern sprechen

Die Spracherkennung unserer Geräte wird immer besser. Doch die verbale Kommunikation mit Smartphone oder PC birgt nicht nur technische Stolpersteine.

Für Fragen wie „Brauche ich heute einen Schirm?“ oder Anweisungen wie „Erinnere mich daran, Milch zu kaufen, wenn ich das nächste Mal im Supermarkt bin!“ benötigen wir heute kein menschliches Gegenüber mehr. Seit Apple 2011 sein „Speech Interpretation and Recognition Interface“ – besser bekannt als Siri – im iPhone 4S integriert hat, können auch Smartphones oder Tablets auf solche Äußerungen reagieren. Die Kommunikation mit unseren Computern und Gadgets erhält zunehmend zwischenmenschlichen Charakter, denn diese verstehen uns nicht nur, sondern antworten uns auch zunehmend mit ihrer eigenen Stimme.

Die aktuellen Entwicklungen der großen Technologie- und Internet-Konzernen wie Apple, Google, Microsoft oder Amazon lassen keinen Zweifel daran: Ein wesentlicher Fokus des zukünftigen Computings liegt in der Spracherkennung. Die Assistenten warten mit immer mehr integrierten Funktionen auf und die dahinterliegenden Algorithmen arbeiten immer vernetzter und intelligenter. Konnten bis vor kurzem nur Fragen mit einer Variablen, wie etwa die nach der Einwohnerzahl von Berlin oder dem Namen des französischen Präsidenten, akustisch beantwortet werden, verfügen die Systeme bereits über die Fähigkeit, mehrere Variablen in Kombination zu verarbeiten.

Spracherkennung ist die Zukunft

Wir mögen heute noch bezweifeln, dass unsere virtuellen Assistenten bald schon einen eigenen (menschlichen) Charakter annehmen und wie etwa im oscarprämierten Film „Her“ sogar eigene Gefühle entwickeln. Sicher ist aber, dass sich die sprachliche Interaktion mit Computern stetig verfeinern und in vielen neuen Bereichen zum Einsatz kommen wird. Dafür sprechen auch die Statistiken: Noch vor drei Jahren verwendete laut einer Verbraucheranalyse knapp jeder zehnte Deutsche über 14 Jahren die Sprachsteuerung seines Smartphones, 2015 war es bereits jeder sechste, also gut 15 Prozent.

Darüber hinaus verdeutlichen auch die neuen Produkte und Features, die die großen IT-Unternehmen auf den Markt bringen, dass wir in Zukunft immer mehr über Sprache mit unseren Geräten kommunizieren werden – und das nicht nur mobil. Microsoft etwa bietet schon seit fast zehn Jahren Sprachsteuerungsfunktionen auf seinen Desktop-Rechnern an, mit Windows 10 ist nun auch die lernfähige Spracherkennungs-Software Cortana integriert. Im Frühjahr stellte der Konzern auf der Entwicklerkonferenz Build seine Vision der „Communications as a Platform“ vor, bei der natursprachliche Kommunikation künftig die klassische Bedienoberfläche vollständig ablösen könnte.

Amazon Echo bietet Smart Home-Steuerung per Spracherkennung.
Amazon Echo bietet Smart Home-Steuerung per Spracherkennung. Bild : Amazon – Echo (Montage)

Aber nicht nur bei Endgeräten, sondern auch im Bereich des Home Entertainment und des Smart Home rückt die Sprachsteuerung immer mehr auf den Plan. Amazons System Echo beispielsweise setzt auf einen stationären, zentral platzierten Speaker, der alle vernetzten Geräte im Haus per Sprachbefehl bedienen kann. Wie solche sprachgesteuerten Heimassistenten in natürlichster Weise in unseren Alltag integriert werden, wird anschaulich im dazugehörigen Werbespot demonstriert. Doch in der Realität geschieht die Kommunikation zwischen Mensch und Maschine noch lange nicht so selbstverständlich.

sprechen mit maschine ist peinlich

Hatte es in den Neunzigerjahren eine unglaublich coole Wirkung, wenn David Hasselhoff alias Michael Knight mit seinem Sportwagen K.I.T.T. sprach, wird es den meisten (Erwachsenen) von uns sogar eher peinlich sein, ihren Wagen in der Öffentlichkeit per Sprachbefehl aufzuschließen. Und auch mit Siri, Google und Cortana tun sich längst nicht alle so leicht, wie es die technische Entwicklung suggeriert. In einer Umfrage in den USA gaben 45 Prozent der Erwachsenen an, dass es ihnen unangenehm sei und dass sie sich wie ein Computerfreak („geek“) fühlen würden, wenn sie mit ihrem Smartphone sprächen.

Nicht alle Nutzer sprechen gerne mit ihrem Smartphone.
Nicht alle Nutzer sprechen gerne mit ihrem Smartphone. Bild 3: Google blog (Montage)

Wer sich noch an die Anfangszeit des Anrufbeantworters erinnert, in der viele panisch den Telefonhörer auflegten, wenn am anderen Ende statt der erwarteten Person nur der eindringliche Piepton zu hören war, weiß: reine Gewöhnungssache. Ursache für die bislang eher unbefriedigende Kommunikation mit Siri, Google und Cortana dürfte eher sein, dass viele der Spracherkennungsfunktionen noch nicht so weit ausgereift sind, dass sie auch wirklich einen Zusatznutzen bieten. Wird die Frage zwar verstanden, aber die Antworten dennoch nur als Liste an Suchergebnissen angezeigt, ist das Hands-free-Konzept noch nicht ganz zu Ende gedacht.

Datenschutz als Hemmnis

Ein weiteres großes Hindernis ist für viele auch die Befürchtung, dass ein Gerät mit Spracherkennung ständig mithört, auch wenn diese nicht aktiv verwendet wird. Die Angst, was mit den aufgezeichneten Audioschnipseln geschieht, die zur Bearbeitung an einen – in der Regel US-amerikanischen – Server geschickt werden, ist für zahlreiche potenzielle Nutzer noch immer ein Grund, sich Siri, Google oder Cortana nicht anzuvertrauen. Doch was viele nicht bedenken: Ob Sucheingabe als Text oder Sprachnachricht – beide Informationen werden gespeichert und an einen Server gesendet, wo sie von leistungsfähigen Algorithmen ausgewertet werden.

Gif 1 : Indiegogo – Zoe

Dem Wunsch nach Datenschutz und -sicherheit kommen aber gerade auf dem deutschen Markt immer mehr neue Produkte nach. Zum Beispiel speichert das sprachgesteuerte Smart Home-System Zoe des Start-ups Protonet die privaten Daten nicht in einer fremden Cloud, sondern komplett im eigenen verschlüsselten 2 Gigabyte-Speicher, der im Lieferumfang enthalten ist. Auch funktionieren immer mehr Anwendungen ganz ohne Internetverbindung, wie etwa die neue Offline-Spracherkennung von Google.

google-ok3
Die Spracherkennung von Google funktioniert auch offline. Bild: Google Play – Google Now

Welche Vorteile die Sprachsteuerung im Privatgebrauch bietet, demonstrieren Werbevideos wie etwa zu Amazons Echo sehr anschaulich: Wer beim Kochen mit beiden Händen im Kuchenteig steckt und wissen will, wie viele Eier noch hinein kommen, empfindet den Sprachassistenten sicherlich als großen Segen. Aber auch im beruflichen Umfeld erleichtert die Spracherkennung seit einigen Jahren die Arbeit – beispielsweise in Anwaltskanzleien oder Arztpraxen und Krankenhäusern, wo das händische Aufschreiben und Dokumentieren ansonsten Stunden dauern würde. In anderen Berufsfeldern fällt die Vorstellung noch schwer, dass in Großraumbüros alle Mitarbeiter nur noch per Sprache mit ihrem Computer interagieren würden.

Geräte werden immer lebensechter

In Zukunft werde es ganz normal sein, mit Maschinen zu sprechen, sagt Sherry Turkle, Professorin am Massachusetts Institute of Technology (MIT). Die Soziologin glaubt, dass wir die Geräte dadurch als “noch lebensechter” empfinden werden. „Sich bewusst zu machen, dass sie keine Gefühle haben, dass sie nicht leben, wird immer schwieriger“, findet Turkle. Solche Aussagen lassen skeptische Stimmen natürlich nicht lange auf sich warten. „Wenn wir Maschinen personifizieren und mit ihnen quasi wie mit Menschen agieren, werden unsere zwischenmenschlichen Fähigkeiten verkümmern“, ist der amerikanische Psychiater und Wissenschaftsautor Keith Ablow der Meinung. „Es wird uns dazu verleiten, andere Menschen wie Maschinen zu behandeln. Letztendlich nimmt es uns die Fähigkeit, Verständnis füreinander zu empfinden.“

Wir werden mit Geräten nie wie mit Menschen sprechen.
Wir werden mit Geräten nie wie mit Menschen sprechen.

Rolf Pfeifer, Direktor des Labors für Künstliche Intelligenz an der Universität Zürich, teilt diese Befürchtung nicht: „Wir werden mit Maschinen niemals sprechen wie mit Menschen“, sagt er, denn Sprache sei nur ein Aspekt der Kommunikation. Diese werde aber noch durch weitere Faktoren wie Gesichtsausdruck, Körperhaltung oder Gestik bestimmt, welche die Computer nicht bieten können.

Dimensionen der Kommunikation

Die einen mag diese Aussage beruhigen, für viele andere liegt genau darin das Problem: Gerade weil sich hinter dem Sprachassistenten keine physische Person verbirgt, fällt ihnen die Kommunikation mit diesem so schwer. Sie ist weder Interaktion zwischen zwei Menschen noch Selbstgespräch, sondern etwas dazwischen oder gar eine ganz neue Form der Sprache.

face-recog
Gif: Giphy – Prosthetic knowledge

Computer werden sich morgen vielleicht noch nicht wie Menschen ausdrücken, aber sie werden die Nuancen und Tonarten in unserer Stimme immer besser verstehen. Verschiedene Unternehmen und Forschungsprojekte arbeiten daran, dass Computer immer besser dazu in der Lage sind, unsere Emotionen zu erkennen. Wem es also immer noch unangenehm ist, sein Smartphone nach dem Wetter zu fragen, bekommt von dem Gerät vielleicht bald schon zu hören, dass er sich doch nicht zu schämen braucht – oder sich gefälligst nicht so anstellen soll.

Artikel empfehlen

Zugehörige Themen

Lifestyle Technische Innovation

Als Nächstes lesen

Read Full Story