Spracherkennung
Der große Diktator
Flinke Finger
Spracherkennung
Mit Spracherkennungssoftware liegt die »Tippgeschwindigkeit« am PC bei 200 Wörtern pro Minute. Selbst die schnellste Sekretärin hat keine derart flinken Finger. Dennoch zählen Spracherkennungsprogramme unter den PC-Anwendungen zu den Exoten. Das zeigt eine aktuelle Umfrage von PC Professionell.
Zwar interessieren sich 70 Prozent der Befragten für solche Programme. Aber immerhin 23 Prozent sind skeptisch – sie glauben nicht, dass Dragon Naturally Speaking und Co. zuverlässig funktionieren.
Ursachenforschung
Schuld daran sind vor allem die Hersteller selbst. Im hart umkämpften Spracherkennungsmarkt versuchten sich Lernout und Hauspie, IBM, Dragon Systems und Philips 1998/99 mit immer besseren Erkennungsraten, kürzeren Trainingszeiten und neuartigen Speech-Engines gegenseitig auszustechen. Mit den vollmundigen Werbeversprechungen schürten sie bei den Anwendern hohe Erwartungen, die sich im Praxiseinsatz dann nicht erfüllten.
Im Vergleichstest blieben die Erkennungsraten trotz intensiven Trainings unter 90 Prozent. Auch die Sprachbefehle, mit denen man den Desktop mit Alltagssprache hätte bedienen sollen, waren eine Enttäuschung. Mit keinem der getesteten Programme ließen sich Anwendungen »frei Schnauze« steuern.
Große Fortschritte
Spracherkennung
Grund für die Probleme war vor allem die fehlende Rechenpower für die speicher- und CPU-intensiven Algorithmen. Doch mittlerweile hat die Spracherkennung große Fortschritte gemacht. Vor fünf Jahren musste der Anwender mindestens eine halbe Stunde lang vorlesen, um die Programme an sämtliche Nuancen seiner Aussprache zu gewöhnen. Heute fällt die umfangreiche Einarbeitungszeit weg. Man passt bei den beiden am Markt erhältlichen Spracherkennungsprogrammen Dragon Naturally Speaking 9 und Linguatec Voice Pro 11 nur noch das Headset an und durchläuft die Qualitäts- und Lautstärkeprüfung – das war?s auch schon. Danach können selbst unerfahrene Nutzer mit einer Erkennungsgenauigkeit von über 90 Prozent loslegen ein PCpro-Video bestätigt das. Werden zusätzlich Dokumente und E-Mails gescannt oder sogar das halbstündige Sprachtraining absolviert, gelingen Erkennungsraten von weit über 90 Prozent.
Gut und komfortabel funktioniert in den aktuellen Versionen das Korrigieren fehlerhafter Wörter, und auch die Cursorsteuerung klappt. Bislang waren Positionierungs- und Formatierungsbefehle nur in Microsoft-Anwendungen wie Word oder Excel möglich. Dragon Naturally Speaking 9 unterstützt eine Vielzahl von Entwickler-Controls. Dadurch ist fast jedes Textfeld, vom Browser-Formular bis hin zur Fakturierungsanwendung, spracherkennungstauglich.
Linguistische Probleme
Doch auch die nach wie vor existierenden linguistischen Probleme sollen nicht verschwiegen werden. In der deutschen Sprache können Wörter einen völlig unterschiedlichen Sinn erhalten, wenn sie groß oder klein geschrieben werden. Bei »der Gefangene floh« oder »der gefangene Floh« kann nur durch Kontextprüfung ein Unterschied festgestellt werden. Das Spracherkennungsprogramm wird also nur erfolgreich sein, wenn es sich ständig an den Sprecher und seine Wortwahl anpasst.
Die größten Schwierigkeiten bereiten darüber hinaus Endungen und zusammengesetzte Wörter. Selbst wenn ein Spracherkennungssystem die beiden Wörter »Steuer« und »Lüge« kennt, würde es das Kompositum »Steuerlüge« beim ersten Diktieren nicht erkennen.
Gutes Headset – ein Muss
Spracherkennung
Wer einige Tipps beherzigt, kann auch die linguistischen Stolpersteine leicht umgehen und die Fehlerquote senken. Das A und O für zuverlässige Spracherkennung ist das Headset. Während Dragon Naturally Speaking lediglich ein Headset mit Klinkensteckern beiliegt, gehört bei Voice Pro 11 das hervorragende USB-Headset PC 25-USB von Sennheiser zum Lieferumfang. Der Nachteil der Klinkenvariante bei Dragon: Selbst bei guten Soundkarten ist der Mikro-Eingang oft nur mäßig. Zudem muss der Rechner selbst die Prozessorzeit zur Verfügung stellen, um die Sprache zu »entrauschen«. Bei einem USB-Headset mit eigenem DSP (Digital Sound Processor) ist diese Aufgabe bereits erledigt, wenn der PC-Prozessor ins Spiel kommt. Die Folge ist, dass das Spracherkennungssystem nicht nur bessere Eingangsinformationen erhält, sondern dass die Sprache auch schneller erkannt wird. Ein optimales Headset wie das 59 Euro teure Sennheiser PC 25-USB sollte man sich also gönnen.
Wer zudem beim Diktieren gerne umherwandert, sollte an ein Funk-Headset denken. Einige Bluetooth-Headsets für Handys eignen sich dafür. Vor allem aber taugen Verbindungen, die auf dem DECT-Standard beruhen, etwa das rund 250 Euro teure CS70 von Plantronics.
Wichtig sind auch CPU und Speicher: Wer nicht mindestens 1 GByte RAM sein Eigen nennt, braucht mit den aktuellen Programmversionen gar nicht erst anfangen. Dragon Naturally Speaking installiert sich nicht einmal, wenn der Prozessor mit weniger als 1 GHz getaktet ist.
In der Praxis gibt es nur einen Rat: Korrigieren Sie immer mit der Spracherkennung. Nur so kann das Programm lernen. Wer falsch erkannte Begriffe einfach mit der Tastatur überschreibt, wird die Erkennungsquote nie verbessern.
Innovative Entwicklungen
Mit zunehmender Rechenleistung werden die Spracherkennungssysteme in Zukunft in der Lage sein, Hintergrundgeräusche und unterschiedliche Stimmen zu unterscheiden, so dass das Diktieren auch außerhalb eines Einzelbüros klappt.
Das gleichzeitige Erkennen von verschiedenen Sprechern ist bereits jetzt möglich. Multi-Speak von Voice Perfect Systems zeichnet Konferenzen oder Interviews auf und wandelt den gesprochenen Beitrag direkt in geschriebenen Text um. Entwickelt wurde das Programm mit dem Entwicklungskit Dragon Naturally Speaking SDK.