Oliver Weiss DesignARTICLES

Art, Society, Media & Design

Articles

Oliver Weiss Design

S E A R C H


template_webdesign template line
template computer
Tutorials

Photoshop-Lexikon
deutsch / englisch

Photoshop Glossary

Coverillustration im Stile
von "The New Yorker"

Step-by-Step Photoshop Tutorial

Illustration auf alt getrimmt
Step-by-Step Photoshop Tutorial

Oans, zwoa, Pop-Art!
Macwelt
Tutorial on
Oktoberfest Poster Design

Wie zeichnet man
einen Comicstrip?

Step-by-Step Photoshop Tutorial

Zweifarbendruck
Step-by-Step Photoshop Tutorial
template line
template computer
Art & Society

Der Taktgeber
Film Composer John Ottman

Der Aufräumer
Mafia Lawyer Dead at 95

Charlie Brown lives
Peanuts Creator Charles M. Schulz

Entwicklung der politischen
Parteien in Deutschland

Evolution of German Parties since 1848

Fahren ohne Auto
Dumb Laws from Around the World

FAQ zur Online-Bewerbung
How to File Job Applications Online

Die Muminmutter
Tove Jansson, Writer & Artist

Муми-мама
Туве Янссон

Muminmutter forever
Tove Jansson ist gestorben

Moominmamma Forever
Tove Jansson has Died

9-11 - One Year After
Comments by Ed Koch et al.

9-11 - ein Jahr später
Kommentare von Ed Koch et al.

A Smile is a Smile is a Smiley
The Signet's Inventor is Dead

Räuber und Gedärm
Tomi Ungerer at 70

Die Wellenreiterin
Elisabeth Mann Borgese Dead at 83

Wein zur Prohibition
Lawyer Hiram Mendow Dies Aged 107
template line
template internet
Business

Ein New Yorker verirrt sich
nicht nach Solingen

Interview with a Lawyer & Journalist

Kanzleien helfen Kanzleien
Legal Community in 9-11 Aftermath

PR for Law Firms
Getting Exposure in the Media

PR für Kanzleien
Die gewünschte Publicity bekommen

Wagner ist digital
Customer Service 2000 D.C.

Wer abmahnt, hat
nicht immer recht

Interview on Cease and Desist Letters

Ein wunderbarer
Spätsommertag

Interview on 9-11
template line
template computer
Technology

Allein in New York
Laptop Trouble with Windows ME

Bitte nicht automatisch!
Translation Software Tested

Druck machen
Ink Jet Printer vs. Laser Printer

Faxen und mehr
Faxing Machines Inside Out

Fraktaler Darwinismus
Interview with Gerd Binnig

Now you're Talking!
Speech Analysis Methods

Patent Watch (I)
Method of Excercising a Cat

Patent Watch (II)
Of Cats and Horses

Patent Watch (III)
Hugging Hula Hoop

Patent Watch (IV)
It’s a Bird, a Squirrel, a Patent!


PC für Anfänger
How do Computers Really Work?

PC-Glossar
Tiny Computer Glossary

Die Sprachverarbeiter
Automatic Speech Recognition

Test: Bilddatenbanken
Review: Cumulus, Portfolio, iView
template line
template tech stuff
Web Technology

Alles mit System
Content Management for Lawyers

Die Anwaltssuche 
Lawyers Search Engine

Die Datenmacher
Databased Law Firm Websites

Die Datenmaschinen
Web Content Management Systems

Digitales Publishing
Document Management with PDF 

Internet-Zugang einrichten
Internet Dial-up Access Step by Step

Internet in New York
Free Internet Providers in NYC

Mit leichter Verspätung
It has Taken 5 Years to Register a URL

Maßgeschneidert
Content Management for Publishers 

Meta-Tags
Spreading the News

Suchen und Finden im Netz
Push Services

Web-Wissen
Web World Glossary
template line
template_webdesign
Web Design

Der Arzt im Web
Web Design for Doctors

Anwalts-Marketing-Preis
für Haarmann Hemmelrath

First Prize for Legal Web Site

Auf einen Blick
Corporate Design for Lawyers

Die Design-Strategie
Corporate Web Design

Dynamische Anwaltssuche
Hasche Eschenlohr's Legal Web Site

En un coup d'oeil
L’image de l’entreprise sur Internet

Gelb und blau
Haarmann Hemmelrath's Web Site

In der Welt zuhause
Web Design for Lawyers

In Szene gesetzt
Web Sites for Law Firms

Der virtuelle Anwalt
First Steps Towards a Lawyer's Website

Wie aus einem Guß
Corporate Design for Accountants

 

ARTICLES > Now you're Talking! (1/6)

PARTS 1 | 2 | 3 | 4 | 5 | 6


Technology: Methoden der Sprachanalyse
Now you’re Talking!
||| Oliver Weiss

Jetzt wird's technisch: Wie funktioniert eigentlich Sprachverarbeitung? Der Autor stellt grundlegende Methoden für die Analyse im Zeitbereich, im Frequenzbereich und im "Cepstral"-Bereich vor. Im Visier sind Bonobos, Wale und, natürlich, Menschen.
Speech Analysis Methods: Article on fundamental frequencies analysis, Fourier analysis, and cepstral analysis.

 

 

Aus: LEGAmedia, meinem Online-Magazine für Juristen und Unternehmer.

>SPRACHERKENNUNG: Warum ist Spracherkennung so schwierig? Mit einem Interview mit dem Sprachexperten Heinrich Niemann.

>ILLUSTRATIONEN: Illustrationen zum Thema Sprache, Literatur und Buch.

W

arum klingt ein Mann eigentlich wie ein Mann und nicht wie eine Frau? Und worin unterschieden sich ihre Lautäußerungen von denen von Schimpansen oder Walen?

Und warum eigentlich hört es sich anders an, wenn jemand normal spricht, droht oder brüllt? Welche Informationen sind in einem gesprochenen Satz oder auch nur einer kurzen Lautäußerung verborgen, und wie bekommt man sie heraus?

Der jahrzehntealte Traum der Sprachanalytiker, Nachrichtentechniker, Physiker, Phonetiker, Akustiker, Linguisten und Informatiker sieht so aus: Laßt uns herausfinden, wie Sprache funktioniert, damit wir diese Informationen häppchenweise an Rechenmaschinen verfüttern können, die uns eines Tages genauso verstehen wie wir uns untereinander! Hurra!

Abb. 1. Eine Sinuskurve ist eine Sinuskurve ist eine Sinuskurve - im Zeitbereich wie im Frequenzbereich. (A = Amplitude, T0 = Periodendauer, f0 = Frequenz)

Eine tolle Idee. Schon Anfang der Sechziger Jahre schien das Problem kurz vor der Lösung. Doch von wegen Hurra: Denn leider schoben sich immer wieder neue Erkenntnisse über die Komplexität der menschlichen (und übrigens tierischen) Sprache in den Weg, die die Dinge komplizierten machten als zunächst angenommen. 

Und auch die Rechenmaschinen machten viel schneller schlapp als man gehofft hatte. Es ist aber auch so verdammt viel Information in so einem Sprachsignal verborgen!

Lustigerweise haben sich die Algorithmen zur Analyse von Sprache in all den Jahrzehnten gar nicht so wesentlich verändert: Frequenzanalyse, Dynamic Mapping, Statistische Verfahren, Hidden-Markov-Modelle oder Neuronale Netze, wie sie alle heißen mögen. Allerdings sind die Computer besser geworden, die den alten Algorithmen neues Leben einhauchen.

 

I scream, you scream

Abb. 2. Eine komplexes Zeitsignal ist die Summe aus unendlich vielen Sinuskurven. Sagt Jean Baptiste Joseph Fourier.

Wie analysiert man Sprache? Antwort: Indem man das Signal in lauter kleine Stücke häckselt und es sich Stück für Stück zu Gemüte führt. Ein einfaches Signal, z.B. eine Sinuskurve, wenn man sie sich am Oszilloskop ansieht, besteht ja eigentlich nur aus zwei Komponenten: der Amplitude (der Spannungsausschlag auf der Y-Achse) und der Frequenz (dem Reziproken der Periodendauer von Peak zu Peak).

Monsieur Jean Baptiste Joseph Fourier fand im 18. Jahrhundert heraus, daß sich jedes beliebige Signal, also auch solche, die wesentlich komplexer sind als unsere Sinuskurve, durch die Summe aus unter Umständen unendlich vielen einzelnen Sinus- und Cosinuskurven darstellen läßt (Cosinuskurven sind nichts anderes als entlang der Zeitachse um eine halbe Periodendauer verschobene Sinuskurven).

Nun kann man sich vorstellen, daß die Analyse eines komplexes Signals im Zeitbereich - also mit einer zahllosen Menge von Sinuskurven mit unterschiedlichen Amplituden und Frequenzen - ein ziemlich mühsames Unterfangen ist. 

Viel einfacher, so fand Jean-Baptiste Joseph Fourier heraus, ist das, wenn man sich die Kurven im "Frequenzbereich" ansieht, und das geht so: Eine Sinuskurve der Amplitude A und Periodendauer T0 läßt sich im wahnsinnig einfach darstellen, wenn man statt den Koordinatenachsen A (Amplitude) und t (Zeit) die Achsen A und f (Frequenz) verwendet - diese Darstellung nennt man den "Frequenzbereich". Denn hier stellt sich die Sinuskurve lediglich als ein kurzer Ausschlag der Höhe A bei der Frequenz f0 = 1/T0 dar (Abb. 1).

Auch die Mustererkennung und Bild-
verarbeitung nach dem Prinzip der Fourier-
Transformation.

Diese Übertragung des Signals aus dem Zeitbereich in den Frequenzbereich (auch Spektralbereich genannt) bezeichnet man als "Fourier-Transformation". Die Fourier-Transformation des Zeitsignals nennt man "Spektrum". Digital - also rechnerunterstützt - realisiert man das mit der sogenannten "Fast Fourier Transformation", kurz FFT.

Übrigens funktioniert auch die Mustererkennung und Bildverarbeitung nach dem Prinzip der Fourier-Transformation - nur eben auf zwei Dimensionen übertragen. Die verschiedenen Filter bei den Bildverarbeitungsprogrammen von Photoshop oder Corel etwa arbeiten mit Fourier-Transformationen. Und auch die Analysemethoden für alle anderen ein- oder zweidimensionalen Signale wie bei UMTS, dem Brummen beim Auto, bei MP3-Files von Britney Spears, bei MPEG-Pornovideos oder bei den Klingeltönen von Handys sind mehr oder weniger dieselben.

Grundsätzlich gibt es zwei verschiedene Methoden der Analyse eines Sprachlauts: Entweder wird das Signal im Zeitbereich untersucht; dabei schaut man sich also den Amplitudenverlauf über der Zeit an. Oder man analysiert das Signal im Frequenzbereich, also mithilfe von Fourier-Transformationen. Natürlich gibt es alle möglichen Mischformen - zum Beispiel die Cepstralanaylse, bei der Zeit- und Frequenzanalysen miteinander kombiniert werden. Im folgenden werden die Analysemethoden im Zeit-, im Frequenz- und im Cepstralbereich ausführlich vorgestellt; außerdem werden Methoden zur Ermittlung der Anregungsfrequenz eines Sprachsignals (Grundfrequenz) erläutert.

 

Fensterln für Anfänger 

Sprache kann signaltheoretisch modelliert werden als das Ergebnis von einer Reihe von akustischen Filtern, die durch Töne oder auch durch Lärm angeregt wurden. Sprache ist mathematisch gesehen die "Faltung" (convolution) eines Anregungsimpulses mit dem durch den Vokaltrakt, also den Rachenraum, gegebenen Filter.

Bei der Kurzzeit-Analyse wird das Zeitsignal Stück für Stück innerhalb eines entlang der Zeitachse zu verschiebenden quasi-stationären Intervalls gleichbleibender Dauer analysiert. Das diskrete Zeitsignal s[n] wird sequentiell mit einer entlang der Zeitachse in Abständen von (1-ü)N (N: Fensterbreite; ü: Überlappungsgrad, i.a. mit 0 < ü < 0.5) zu verschiebenden Fensterfunktion w[n] der Breite N multipliziert (gewichtet); dieser Vorgang heißt "Fensterung" (windowing).

Abb. 3. Das Prinzip der "Faltung": Das Signal a(t) wird mit dem Signal b(t) gefiltert. Das Ergebnis, dargestellt als a(t) * b(t), ergibt eine Kurve, die mehr oder weniger einer zeitversetzten Sinuskurve entspricht. Im Frequenzbereich ist alles viel einfacher: Das Spektrum A(f) ist nichts weiter als ein kurzer Ausschlag bei der Frequenz f0; und dem Signal b(t) entspricht das Spektrum B(f). Der komplizierten Faltung im Zeitbereich enspricht die einfache Multiplikation im Frequenzbereich - das Ergebnis, A(f)·B(f), ist in diesem Fall wieder ein kurzer Ausschlag, aber mit anderer Amplitude als zuvor das Signal A(f).

Üblicherweise verwendet man Fensterbreiten von etwa 10 bis 20 ms. Bei zu großen Fensterbreiten ist die Quasi-Stationarität des Signalausschnittes meist nicht mehr gewährleistet, da schnelle zeitliche Änderungen nicht berücksichtigt werden. Bei zu kleinen Fensterbreiten beschreibt der dargestellte Ausschnitt innerhalb seiner Grenzen keinen signifikanten Verlauf des Zeitsignals.

Jean Baptiste Joseph Fourier entwickelte die nach ihm benannte "Fourier-Trans-
formation" zur Analyse von Signalen.

Da die meiste Information von Sprachsignalen in Frequenzen unterhalb 3,5 kHz enthalten ist, genügt eine Abtastrate von mindestens der doppelten Nyquistrate, also z.B. 7 kHz. (Die Nyquistrate beschreibt die kleinste Sampling-Rate, bei der das ursprüngliche Signal wieder vollständig hergestellt werden kann. Laut Nyquist-Theorem muß die niedrigste Frequenz bei der man sampled mindestens doppelt so groß wie die höchste im Signal vorkommende Frequenz sein.)

Bei Fensterbreiten von 10 bis 20 ms bzw. 70 bis 140 Abtastwerten ergeben sich gebräuchliche FFT-Fensterbreiten (immer Zweierpotenzen) zu 64, 128 oder 256 Punkten.

Fensterfunktionen

Verlauf Funktion
Rechteck wr[n] = 1
Bartlett (Dreieck) wb[n] = 1 - |2(n-(N-1)/2)/(N-1)|
Hanning wn[n] = 0.5 - 0.5 cos(2pn/(N-1))
Hamming wm[n] = 0.54 - 0.46 cos(2pn/(N-1))
Blackman-Harris wh[n] = 0.35875 - 0.48829 cos(2pn/(N-1))
+ 0.14128 cos(4
pn/(N-1)) 
- 0.01168 cos(6
pn/(N-1))
Typische diskrete Fensterfunktionen; jeweils für Abtastwerte n zwischen 0 und N-1.

All diese Fensterfunktionen erfüllen zwei grundlegende Zielvorgaben im FFT-Spektralbereich: Gefordert wird erstens eine möglichst schmale und zudem möglichst rechteckigförmige Hauptkeule (main lobe) und zweitens ein möglichst großer relativer Amplitudenabstand zwischen dem Maximum der Hauptkeule und den Maxima der ersten Nebenkeulen (side lobes). Letztere Vorgabe impliziert allerdings den Widerspruch von gleichzeitig schmalem Zeitfenster und schmaler Transformierter.

Bei zu kleinen Fensterbreiten wird kein signifikanter Verlauf des Zeitsignals beschrieben.

Beide Forderungen werden näherungsweise erfüllt, wenn die Zeitfunktion durch die Fensterung an den Anfangs- und Endbereichen abgeschwächt und zum Gesamtleistungsausgleich im mittleren Bereich verstärkt wird. Außer dem Rechteck-Fenster gewährleisten somit alle obengenannten Fenster eine Akzentuierung des mittleren Fensterbereiches gegenüber den Randbereichen.

Das Rechteck-Fenster wr[n] als Trivialfall einer Fensterung - das Zeitsignal wird in seiner Amplitude nicht beeinflußt - zeigt im Spektrum Wr[k] im Vergleich zu den anderen Fenstern zwar die schmalste Hauptkeule, dafür jedoch den geringsten relativen Amplitudenabstand von der Hauptkeule zu den Nebenkeulen. 

Das Blackman-Harris-Fenster wh[n] hingegen weist im Spektrum den größten relativen Amplitudenabstand auf, dafür jedoch auch eine breite Hauptkeule. Ideale, das heißt für alle Fälle optimale Fenster gibt es nicht. Einen guten Kompromiß aber stellt für viele Zeitsignale das weich an- und abklingende Hanning- oder Hamming-Fenster wn[n] bzw. wm[n] dar.

PARTS 1 | 2 | 3 | 4 | 5 | 6
(c) 1989–2008 Oliver Weiss Design Up! 
 Design / Illustration / Art Sale / Multimedia / Journalism / Contact
 
 Bestseller
350,000+ Copies Sold!
Random House Book Cover
Design for Nonfiction
Bestseller
>more | >more books


My Oktoberfest Poster
>more
Official Oktoberfest Design 2008

POPULAR TAGS

Tom Buhrow Walter Rothschild Year of Mathematics Shantaram Globalisierung Richard David Precht Oktoberfest

CONTACT ME!

Oliver Weiss
Germany
Fon +49-86 41-14 65
info@oweiss.com
www.oweiss.com
IMAGES FOR LICENSING:
The Oliver Weiss Image Stock Archive
Take me to the image archive!
>Click here!
Search my online stock archive from 6,000 illustrations!
Animals
Architecture
Art
Books
Business
Children
Communication
Education
Environment
Family
Food
Fun
Horoscopes
Legal
Lifestyle
Marketing
Media
Medical
Music
Nature
Office
People
Politics
Psychology
Religion
Science
Seasons
Sports
Symbols
Travel