Tom Hillenbrand’s Netzfundbüro

Audio-Text-Konvergenz (Teil 2)

16 April 2007 — News, Suchmaschinen, Debatte, Mobile Suche, Voice Control

In der “Financial Times Deutschland” von heute stwht eine längere Analyse zum Thema, das mich seit Längerem umtreibt.

Am Ende war das Wort

Von Thomas Hillenbrand, Helene Laube und Arndt Ohler

Ausgefeilte neue Software zur Spracherkennung macht Gesprochenes und Geschriebenes austauschbar. Eine neue Chance für Google & Co. - in Zukunft werden sich selbst Telefonate durchsuchen lassen.

Wenn es um das schnelle Schreiben von Texten geht, tippt Ben Cook normalerweise außer Konkurrenz. Der US-Teenager hat es als schnellster SMS-Texter der Welt ins Guinnessbuch der Rekorde geschafft. Vergangenen Herbst musste Cook jedoch eine schmachvolle Niederlage einstecken: 42 Sekunden brauchte er bei einem Wettbewerb für den Satz “Mit ihren rasiermesserscharfen Zähnen sind die Piranha-Arten Serrasalmus und Pygocentrus die aggressivsten Süßwasserfische der Welt. Tatsächlich greifen sie Menschen aber nur selten an.” Cooks Gegner, eine Spracherkennungssoftware des US-Unternehmens Nuance Communications, transkribierte den Zungenbrecher in nur 16 Sekunden. “So geschlagen zu werden lehrt einen Demut”, sagt Cook.

Seit Jahren verspricht die IT-Industrie perfekt arbeitende Spracherkennungssoftware. Nun scheint der Durchbruch gelungen zu sein: Neue, leistungsfähige Programme können Gespräche nahezu fehlerfrei in Text umwandeln - das gesprochene und das geschriebene Wort werden damit weitgehend austauschbar. Die neue Technologie hat das Potenzial, die Telekommunikation und das Internet auf den Kopf zu stellen.

Diktiersoftware wie Dragon Naturally Speaking (Nuance) ist nur der Anfang. Mehrere Firmen bieten jetzt erste Sprach-Text-Konvergenzprodukte. Der US-Dienst Simulscribe etwa wandelt alle auf der Handy-Mailbox eingehenden Nachrichten automatisch in E-Mails um. Die kann der Nutzer dann zum Beispiel während eines Meetings auf dem Laptop lesen. Alte Nachrichten speichert Simulscribe als Text- und Audiodatei in einem durchsuchbaren Archiv ab.

Das ist erst der Anfang. Bald schon könnten Dienste auf den Markt kommen, die ganze Telefonate automatisch transkribieren, archivieren und indexieren. Ähnlich wie Textdokumente wären dann Telefongespräche, Radiobeiträge oder TV-Shows jederzeit per Google- oder Yahoo-Suche auffindbar.

Ein Beispiel: Das US-Startup Callwave arbeitet an einem Programm namens Vtext, das Spracherkennungs- und Suchtechnologie kombiniert. Ähnlich wie bei Simulscribe werden Mobilbox-Nachrichten verschriftet. Zusätzlich erstellt die Software jedoch ein Kurzprotokoll - mit Name und Anliegen des Anrufers. “Viel beschäftigte Geschäftsleute wollen vor allem wissen, ob sie gleich zurückrufen müssen oder ob es Zeit hat”, sagt Callwave-Chef David Hofstatter.

Inzwischen arbeiten auch die Dickschiffe der Suchindustrie fieberhaft an eigenen Diensten. Google startete vergangene Woche eine komplett computergesteuerte Telefonauskunft. Der Nutzer spricht seine Frage bei Google 411 in den Hörer, Software wandelt sie in eine Sucheingabe um. Auch Googles Konkurrent Yahoo hat das Thema auf dem Radar. “Wir werden ebenfalls Spracherkennung haben”, sagt Jeff Bonforte, zuständiger Manager des US-Internetportals. Es gebe, meint der Yahoo-Stratege, “lediglich zwei Unternehmen, die ausreichend intelligente Suchsysteme besitzen, um dies zu verwirklichen” - Google und Yahoo.

Möglicherweise hat Bonforte die Rechnung ohne Microsoft gemacht. Der Windows-Konzern investiert seit Jahren in Spracherkennung. Vergangenen Monat kaufte der weltgrößte Softwarehersteller für mehr als 800 Mio. $ den kalifornischen Spezialisten Tellme Networks. Der betreibt sprachgesteuerte Hotlines für UPS oder American Airlines.

Tellmes Technologie dürfte demnächst auch in Microsoft-Produkten auftauchen. Besonders vielversprechend scheint der Ansatz, Telekommunikationsdienste in Outlook zu integrieren: Die Bürosoftware könnte Telefonate und Sprachnachrichten ebenso archivieren wie E-Mails.

Während am heimischen PC wohl noch einige Zeit getippt wird, wird sich Spracherkennung bei mobilen Geräten zügig durchsetzen, glaubt Tellmes Co-Gründer Mike McCue. “Sprache ist für mobile Anwendungen das, was die Maus für den PC ist”, sagt er.

Das nächste große Ding: Voice-to-Text

7 April 2007 — News, Google, Debatte, Mobile Suche, Voice Control

Für das Mobiltelefon gibt es einige neue Dienste wie SimulScribe, die Nachrichten auf der Mobilbox automatisch in Text umwandeln. Man kann also beispielsweise seine Voicemails auf dem Blackberry lesen,ohne irgendwo anrufen zu müssen - und es ist auch nicht notwendig, die Nachrichte in irgendeiner festgelegten Reihenfolge abzufragen (David Pogue hat das Ganze ausgiebig getestet).

Natürlich kann man die Nachrichten auch durchsuchen - und die Voicemails sind vermutlich erst der Anfang. Alle Telefongespräche, die man führt, werden inzwischenals Datenpakete durchs IP-Netz gejagt und lassen sich folglich problemlos als Soundfiles archivieren und von einem Server im Hintergrund in Texte umwandeln.

Insofern ist es nur eine Frage der Zeit, bis jeder seine gesamte Gesprächshistorie indexiert auf der Platte hat und diese durchgooglen kann. Ebenfalls wahrscheinlich ist, dass zumindest im Unternehmensbereich mittelfristug eine Querindexierung mit Outlook erfolgt. Anhand der Kontakte und des Kalenders wird man nachschauen können, wer mit wem wann was besprochen hat.

Es klingt etwas gruselig, aber das Telefonarchiv wäre äußerst nützlich. und darum wird es kommen. Ich würde schätzen, spätestens um 2010 herum wird sich das zügig auszubreiten beginnen. So ein Feature wäre meines Erachtens auch etwas, das das lange erwartete Google-Telefon (Googlephone) einzigartig machten könnte (siehe Feature-List)

Update, passend zum Thema: Google startet eine sprachbasierte Suche per Telefon (nur in den USA, über 1800-GOOG-411. Aus der Beschreibung von Google 411:

Using this service, you can:

* search for a local business by name or category.
You can say “Giovanni’s Pizzeria” or just “pizza”.

* get connected to the business, free of charge.

* get the details by SMS if you’re using a mobile phone.
Just say “text message”.