Oliver Weiss DesignARTICLES

Art, Society, Media & Design

Articles

Oliver Weiss Design

S E A R C H


template_webdesign template line
template computer
Tutorials

Photoshop-Lexikon
deutsch / englisch

Photoshop Glossary

Coverillustration im Stile
von "The New Yorker"

Step-by-Step Photoshop Tutorial

Illustration auf alt getrimmt
Step-by-Step Photoshop Tutorial

Oans, zwoa, Pop-Art!
Macwelt
Tutorial on
Oktoberfest Poster Design

Wie zeichnet man
einen Comicstrip?

Step-by-Step Photoshop Tutorial

Zweifarbendruck
Step-by-Step Photoshop Tutorial
template line
template computer
Art & Society

Der Taktgeber
Film Composer John Ottman

Der Aufräumer
Mafia Lawyer Dead at 95

Charlie Brown lives
Peanuts Creator Charles M. Schulz

Entwicklung der politischen
Parteien in Deutschland

Evolution of German Parties since 1848

Fahren ohne Auto
Dumb Laws from Around the World

FAQ zur Online-Bewerbung
How to File Job Applications Online

Die Muminmutter
Tove Jansson, Writer & Artist

Муми-мама
Туве Янссон

Muminmutter forever
Tove Jansson ist gestorben

Moominmamma Forever
Tove Jansson has Died

9-11 - One Year After
Comments by Ed Koch et al.

9-11 - ein Jahr später
Kommentare von Ed Koch et al.

A Smile is a Smile is a Smiley
The Signet's Inventor is Dead

Räuber und Gedärm
Tomi Ungerer at 70

Die Wellenreiterin
Elisabeth Mann Borgese Dead at 83

Wein zur Prohibition
Lawyer Hiram Mendow Dies Aged 107
template line
template internet
Business

Ein New Yorker verirrt sich
nicht nach Solingen

Interview with a Lawyer & Journalist

Kanzleien helfen Kanzleien
Legal Community in 9-11 Aftermath

PR for Law Firms
Getting Exposure in the Media

PR für Kanzleien
Die gewünschte Publicity bekommen

Wagner ist digital
Customer Service 2000 D.C.

Wer abmahnt, hat
nicht immer recht

Interview on Cease and Desist Letters

Ein wunderbarer
Spätsommertag

Interview on 9-11
template line
template computer
Technology

Allein in New York
Laptop Trouble with Windows ME

Bitte nicht automatisch!
Translation Software Tested

Druck machen
Ink Jet Printer vs. Laser Printer

Faxen und mehr
Faxing Machines Inside Out

Fraktaler Darwinismus
Interview with Gerd Binnig

Now you're Talking!
Speech Analysis Methods

Patent Watch (I)
Method of Excercising a Cat

Patent Watch (II)
Of Cats and Horses

Patent Watch (III)
Hugging Hula Hoop

Patent Watch (IV)
It’s a Bird, a Squirrel, a Patent!


PC für Anfänger
How do Computers Really Work?

PC-Glossar
Tiny Computer Glossary

Die Sprachverarbeiter
Automatic Speech Recognition

Test: Bilddatenbanken
Review: Cumulus, Portfolio, iView
template line
template tech stuff
Web Technology

Alles mit System
Content Management for Lawyers

Die Anwaltssuche 
Lawyers Search Engine

Die Datenmacher
Databased Law Firm Websites

Die Datenmaschinen
Web Content Management Systems

Digitales Publishing
Document Management with PDF 

Internet-Zugang einrichten
Internet Dial-up Access Step by Step

Internet in New York
Free Internet Providers in NYC

Mit leichter Verspätung
It has Taken 5 Years to Register a URL

Maßgeschneidert
Content Management for Publishers 

Meta-Tags
Spreading the News

Suchen und Finden im Netz
Push Services

Web-Wissen
Web World Glossary
template line
template_webdesign
Web Design

Der Arzt im Web
Web Design for Doctors

Anwalts-Marketing-Preis
für Haarmann Hemmelrath

First Prize for Legal Web Site

Auf einen Blick
Corporate Design for Lawyers

Die Design-Strategie
Corporate Web Design

Dynamische Anwaltssuche
Hasche Eschenlohr's Legal Web Site

En un coup d'oeil
L’image de l’entreprise sur Internet

Gelb und blau
Haarmann Hemmelrath's Web Site

In der Welt zuhause
Web Design for Lawyers

In Szene gesetzt
Web Sites for Law Firms

Der virtuelle Anwalt
First Steps Towards a Lawyer's Website

Wie aus einem Guß
Corporate Design for Accountants

 

ARTICLES > Die Sprachverarbeiter


Technology:

Warum ist Spracherkennung so schwierig?

Die Sprachverarbeiter
||| Oliver Weiss

Speech-to-Text-Systeme sind der große Renner der letzten Zeit. Die Vorstellung, einfach mir nichts, dir nichts ins Mikro zu sprechen, und der gewünschte Text erscheint auf dem Bildschirm, wird jedoch schnell ernüchtert: Viel zu wenig wird richtig erkannt. Sind die Diktiersysteme zu schlecht? Oder liegt es womöglich an grundsätzlichen Schwierigkeiten?
Speech-to-Text: What makes automatic speech recognition so difficult? Find out with this article.

 

S

 
Aus:
NJW-CoR Computerreport (C.H. Beck Verlag, April 1998)

>DOWNLOAD PDF

>SPRACHVERARBEITUNG: Methoden der Sprachanalyse

>ILLUSTRATIONEN: Illustrationen zum Thema Sprache, Literatur und Buch.
 

Fragen an...  
Heinrich Niemann
(aus LEGAmedia, 2/2002)
 
   Heinrich Niemann ist Professor für Informatik an der Universität Erlangen-Nürnberg (Lehrstuhl für Mustererkennung)
 
Hier können Sie das Interview auch hören – und dabei bekommen Sie gleich einen Geschmack vom Stand der Technik bei der Sprachsynthese: Denn der Text wird vorgelesen mit der Stimme von realen Menschen. 

Was bedeutet Sprach-
erkennung, was bedeutet Sprachverstehen?

     Heinrich Niemann: Spracherkennung ist das Erkennen der Folge der gesprochenen Wörter (und nicht mehr). Das ist z.B. hinreichend für die Diktiermaschine, bei der nur eine Umsetzung von Sprache zu Schrift gefragt ist, aber kein Satzverständnis.

Sprachverstehen hingegen bedeutet das Erkennen der Wörter plus das Erfassen des Inhalts; das ist z.B. notwendig, wenn man auf eine gesprochene Frage automatisch eine Antwort von einer Maschine generieren will.

Warum versteht mich mein Rechner nicht so gut wie Sie mich? Wie lange wird es dauern, bis der Computer und ich uns richtig unterhalten können?
     Das liegt zum einen an Problemen mit der automatischen Worterkennung, die noch nicht perfekt ist, zum anderen an Mehrdeutigkeiten der natürlichen Sprache und damit verbunden dem automatischen Verständnis einer Äußerung.

Es gibt bereits jetzt einsatzfähige Dialogsysteme, mit denen ein kooperativer Benutzer einen Dialog zu einem bestimmten Zweck, z.B. Fahrplanauskunft oder Kinoauskunft, führen kann.

Seit den 60er Jahren arbeitet man schon daran, Sprache - und auch Handschriften - automatisch zu erkennen. Wie weit ist man heute, und warum hat es so lange gedauert?
     Es gibt Diktiersysteme mit großem Wortschatz und guter Worterkennungsrate sowie einsatzfähige Dialogsysteme für spezielle Aufgaben, kooperative Benutzer vorausgesetzt. Es gibt Adressenleser, die handbeschriftete Briefe mit guter Erfolgsrate sortieren. Es hat lange gedauert, weil die Probleme anfänglich vermutlich unterschätzt wurden und weil die Rechnerleistung früher wesentlich geringer war.

Übrigens liefen auch die ersten Autos schon vor gut 100 Jahren, und trotzdem wird immer noch an ihrer Verbesserung gearbeitet; ähnlich wird es wohl auch in der Sprach- und Bildverarbeitung sein.

Sätze wie "Ich darf Sie weiterverbinden?" und "Ich darf Sie weiterverbinden!" haben dieselben Sprachlautelemente, klingen aber doch unterschiedlich. Welchen Einfluss hat die Sprachmelodie auf die automatische Spracherkennung?
     Auf die Spracherkennung ist nach experimentellen Ergebnissen der Einfluss bisher gering. Für das Sprachverstehen ist die Sprachmelodie offensichtlich wichtig. Sie wird zunehmend in der Forschung berücksichtigt und ist in ersten Laborsystemen erfolgreich im Einsatz.

 

pracherkennung? Gelöst,“ brüsten sich die Hersteller digitaler Diktiersysteme, die gesprochene Wörter in Text umwandeln. Der letzte Schrei: die Erkennung „kontinuierlich“ gesprochener Texte.

Wenn Ordnungswidrigkeiten in „Ordnungsüßigkeiten“ abgemildert werden und sich der gebotene Sicherheitsabstand als „Gebot der Sicherheit am Tanzen“ entpuppt, ist der Fall klar: Man hat es mit einem Speech-to-Text-
Diktiersystem (STT) zu tun.

Dabei ist das Szenario „Sprechen statt Tippen“ doch so verlockend: Anstatt der Sekretärin ein Band in die Hand zu drücken oder dem Gedanken eigenhändig mit zwei Fingern beizukommen, spricht man einfach ins Mikrofon, das Computerprogramm erkennt automatisch was man meint und wandelt es in Text um, fertig. – Halt, nicht so schnell: Spracherkennung gehört zu den schwierigsten Challenges der letzten Jahrzehnte. Auch wenn wir uns spracherkennerisch noch in der Kreidezeit befinden (die ersten Primaten erobern das Land), ist der Einsatz von Sprache erstmalig wirklich greifbar geworden.

 

Auf die Plätze,
fertig, los!

Schieben wir als erstes mal alle Euphorie beiseite: Keines der auf dem Markt erhältlichen Spracherkennungssysteme ist so gut wie man es sich wünschen würde. Gewarnt sei jedenfalls vor den allzu verlockenden Angaben von Spracherkennungsleistungen in Prozentzahlen („95% richtige Erkennung!“): Das ist nämlich unter anderem abhängig von der Systemqualität, der Diktiererfahrung, der Vertrautheit mit dem Text, von Hintergrundgeräuschen, der Mikrofonposition, von Stimme und Akzent, der Betonung, dem Rhythmus, der Disziplin, der insgesamten Trainingszeit, und vielen weiteren Faktoren die man in einer normalen Arbeitsumgebung unmöglich alle auf einmal standardisieren kann.

Auch wenn man ungeduldig ist, das von allen Systemen vorgesehene Eingangstraining sollte man unbedingt absolvieren, sonst darf man sich über schlechte Ergebnisse nicht wundern. (Übrigens sollte man die Systeme immer auch selbst testen und sie sich nicht nur vorführen zu lassen – es ist kein Problem, ein dummes System mit einer Handvoll eindruckschindender Sätze zu trainieren.) Es zwingt dazu, mit dem Mikrofon richtig umzugehen (nicht ganz einfach) und – bei den meisten Systemen – falsch erkannte Wörter sofort zu korrigieren (erfordert Disziplin).

Grundsätzlich qualifiziert es den Anbieter, wenn die Trainingszeit länger als kürzer dauert. Im Eingangstraining werden die individuellen Sprechgewohnheiten des jeweiligen Benutzers an das mathematische und „Real-Life“-Sprachmodell angepaßt. Typische Spracheigenarten wie Dialekt, Rauhheit der Stimme oder Sprechduktus spielen keine allesentscheidende Rolle, solange sie sich in gewissen Toleranzgrenzen bewegen.

Entgegen der Ansicht vieler Neulinge funktioniert ein Spracherkenner nicht so, daß einfach alle vorkommenden Lauteinheiten („Phoneme“) aufgenommen und dem entsprechenden Text in Buchstaben zugeordnet werden. Alle Systeme „lernen“ mit der Zeit, d. h. sie adaptieren sich an den Benutzer und werden, wenn man gewissenhaft bei der Korrektur ist, immer besser.

Hintergrundgeräusche spielen meist keine große Rolle, wenn sie erstens relativ leise sind und zweitens relativ gleichförmig (Festplatte, Stadtrauschen).

 

„Kontinuierliche“ Erkennung

Der Begriff ist tückisch: „kontinuierlich gesprochene Sprache“ ist nicht gleich „natürlich gesprochene Sprache“. Auch wenn man die einzelnen Wörter hier etwas verbinden kann, darf man dabei weder übertreiben (zu schnell sprechen) noch auch nur ansatzweise so reden wie einem der Diktatschnabel gewachsen ist („Jou, nmachmadiesnhier, ne“). Der Erfolg der Erkennung ist immer noch wesentlich in der Hand des Diktanten, der sich halssprecherisch ziemlich zusammennehmen muß.

Beim Diktieren ist es wichtig, immer daran zu denken, daß man mit einer richtig dummen Maschine spricht und nicht mit einem richtig intelligenten Menschen: Die Software versucht händeringend, jedes Räuspern, Lautatmen, Naserümpfen, Lippenschmatzen, jedes Füllwort („Äh“, „Mei“) und alle falschgesprochenen Wörter („Herrn Müller, nee, halt, ich mein’ Meier“) Datenbankphonemen zuzuordnen. Wenn man sich vorstellt, man spräche in eine Siebziger-Jahre-Diktierbox fährt man ganz gut.

 

Sprach-erkennungs-systeme eignen sich vorwiegend für klassische Dikate.

Geeignet oder nicht?

Spracherkennungssysteme eignen sich vorwiegend zu zwei Zwecken: für klassische Dikate und für „Abschriften“ von vorgelesenen Texten, wenn man nicht verbrecherisch schnell liest.

Wenn man einen kreativen „Stream of Thought“ wie den vorliegenden Beitrag zu Papier bringen will, der irgendwo angefangen und irgendwo aufgehört und irgendwo fortgesetzt wird, macht man unterwegs soviele Gedankensprünge, daß der „Rückspul“-bzw. Textkorrekturaufwand schnell im falschen Verhältnis steht: ein Problem, das auch bei der klassischen Diktierbox auftritt und erfahrenen Diktierern vielleicht weniger Mühe macht als mir.

 

Hinterm Busch

Die verwendeten Algorithmen der Spracherkennung haben sich in den letzten Jahrzehnten weit weniger stark verändert als die zugehörige Hardware, die heute mit superschnelle Signalprozessoren protzt, die man sich früher nicht vorstellen konnte. Trotz aller Erfolge ist die Spracherkennung noch längst nicht ausgereizt.

Die momentane Forschung fokussiert sich v. a. auf vier Aspekte: Erkennungsgschwindigkeit, Fehlerrate, Vokabelmenge und Prosodie, also die Einflüsse der Intonation und Akzentuierung, der Wortübergänge, der Rauhheit der Stimme usw.

Auch wenn wir das Präkambrium der sechziger Jahre hinter uns spüren, hat die Spracherkennung eigentlich eben erst gerade maturiert – sie wird den Umgang mit dem Computer ein großes Stück in Richtung „normaler“ Kommunikation bringen.

 

Die Mathematik dahinter

Bastelstunde: Wir bauen ein Spracherkennungssystem, das flüssig gesprochene Sprache erkennen und alle Wörter einer Sprache verstehen kann. 

Und sprecherunabhängig und schnell soll es natürlich auch sein, logisch. Eigentlich genauso wie das Gehirn: schnell, zuverlässig, gut.

Leider ist das alles teuflisch kompliziert. Nur Dank unserer hochkomplexen neurophysiologischen und kognitiven Verarbeitungfähigkeiten wird der Sprachschall richtig interpretiert. 

Jeden Sprachlaut ordnet das Gehirn rasend schnell innerhalb des "Wissenspools" zu, den man sich im Laufe der Jahre angeeignet hat über Sprachsignale, Artikulation, Syntax und Semantik.

Ein automatisches Spracherkennungssystem muß die im Sprachsignal enthaltene Information von Umgebungsgeräuschen trennen und sie dann nach akustischen, phonetischen, statistischen und anderen Kriterien "entschlüsseln", also den gesprochenen Wörtern zuzuordnen. 

Das Speech-to-Text-Modell: Das Sprachsignal wird analysiert, und häppchenweise mit Signalen der Datenbank verglichen. Zusammen mit Abgleichen nach Wörterbuch, Grammatik und Bedeutung wird schließlich die Wortfolge mit der besten Trefferquote in Text umgewandelt.

 

Sprachsignal (oben) mit Spektrum (darunter): Das Spektrum zeigt die im Sprachsignal enthaltenen Frequenzanteile an.

Schwierig wird die automatische Spracherkennung v.a. durch folgende Stolpersteine:

blackpixel.gif (799 Byte) Kontinuität: Sprache besteht nicht aus voneinander unabhängigen Einzellauten, sondern aus deren Aneinanderreihung mit verbindenden Übergängen ("undschnellsollessein").

blackpixel.gif (799 Byte) Variabilität: Sprache ist sprecherabhängig, d.h. Heinz oder Helene Schmitt sprechen das Wort "Spracherkennung" anders aus als Max oder Margarete Mayr. Das hängt zum einen von den "Sprachapparaten" der jeweiligen Parteien ab (Anatomie, Alter, Geschlecht, Gesundheitszustand usw.), und zum andern von ihren Sprechgewohnheiten (Tempo, Duktus, Emotionen, Dialekt usw.). 

Die kontextabhängige Aussprache eines Worts oder Lauts hat mit seinen unterschiedlichsten Klang-, Intensitäts- und Rhythmuseigenschaften i.a. den größten Einfluß auf die Qualität eines automatischen Erkennungssystems. 

Es ist sehr schwierig, für Wörter oder Laute akustische Prototypen zu finden, die alle Sprechvariationen abdecken und sich gleichzeitig genügend von anderen unterscheiden. Weitere Störquellen sind natürlich Typ und Position des Aufnahmemikrofons.

blackpixel.gif (799 Byte) "Noise": Gesprochene Sprache wird meist von Hintergrundgeräuschen überlagert; damit wird ein Teil ihrer Information kaschiert. 

Gesprochene Sprache wird meist von Hintergrund-geräuschen überlagert; damit wird ein Teil ihrer Information kaschiert.

Die Aufgabe der Spracherkennung, diese "Noise"-Signale vom Sprachsignal zu trennen, hat sich längst zu einer eigenen Forschungsrichtung entwickelt. Es genügt ja nicht, wie man meinen könnte, einfach das Geräuschsignal vom Sprachsignal zu subtrahieren, denn erstens ist "Noise" ein stochastischer Prozeß, bei dem die Signale dauernd rauf- und runtergehen, und zweitens würde man z.B. bei Rasenmäherhintergrundgeräusch auch einen "niederfrequenten" Teil der Sprachsignals wegschneiden und damit wesentliche Information verlieren.

blackpixel.gif (799 Byte) Komplexität und Ambiguität: Ohne sehr hohe Rechenleistung und Speicherkapazität, die erst die heutigen Rechner leisten, geht gar nichts: Das gesprochene Wort wird nämlich 8000 bis 20000 Mal pro Sekunde "abgetastet", also digitalisiert; außerdem wird jeder aufgezeichnete Laut mit Tausenden von Schubladenlauten verglichen, und das in Beinahe-Echtzeit. 

Wenn dann mal endlich ein Laut zugeordnet werden konnte, muß noch überprüft werden, wie er geschrieben wird: Ist er ein einzelnes Wort oder Teil eines längeren Wortes, und wie wird das Wort geschrieben, "mehr", "meer", "mer" oder "mär", oder gar "ma" oder "mor", oder wie oder was? – Das ist abhängig von den umgebenden Worten / Wortteilen, die vor der endgültigen Entscheidung statistisch miteinander verrechnet werden müssen. 

Um die ganze Sache weiter zu verkomplizieren, kommen natürlich je nach Sprache mehr oder weniger gravierende grammatikalische Schwierigkeiten hinzu. Zwei Wörter mögen genau gleich klingen, haben aber vielleicht unterschiedliche Bedeutungen und werden anders geschrieben. Diese Ambiguität ("How to recognize speech – How to wreck a nice beach") macht das Leben natürlich zusätzlich kompliziert: Guter Rad ist da teuer.

Damit mag sich erahnen lassen, warum heute Spracherkennungssysteme im besten Fall unter genau kontrollierten "Labor"-Bedingungen funktionieren – und warum die "Real-Life"-Sprachforschung eigentlich gerade erst begonnen hat. [1998]

(c) 1989–2008 Oliver Weiss Design Up! 
 Design / Illustration / Art Sale / Multimedia / Journalism / Contact
 
 Bestseller
350,000+ Copies Sold!
Random House Book Cover
Design for Nonfiction
Bestseller
>more | >more books


My Oktoberfest Poster
>more
Official Oktoberfest Design 2008

POPULAR TAGS

Tom Buhrow Walter Rothschild Year of Mathematics Shantaram Globalisierung Richard David Precht Oktoberfest

CONTACT ME!

Oliver Weiss
Germany
Fon +49-86 41-14 65
info@oweiss.com
www.oweiss.com
IMAGES FOR LICENSING:
The Oliver Weiss Image Stock Archive
Take me to the image archive!
>Click here!
Search my online stock archive from 6,000 illustrations!
Animals
Architecture
Art
Books
Business
Children
Communication
Education
Environment
Family
Food
Fun
Horoscopes
Legal
Lifestyle
Marketing
Media
Medical
Music
Nature
Office
People
Politics
Psychology
Religion
Science
Seasons
Sports
Symbols
Travel