Oliver Weiss DesignARTICLES

Art, Society, Media & Design

Articles

Oliver Weiss Design

S E A R C H


template_webdesign template line
template computer
Tutorials

Photoshop-Lexikon
deutsch / englisch

Photoshop Glossary

Coverillustration im Stile
von "The New Yorker"

Step-by-Step Photoshop Tutorial

Illustration auf alt getrimmt
Step-by-Step Photoshop Tutorial

Oans, zwoa, Pop-Art!
Macwelt
Tutorial on
Oktoberfest Poster Design

Wie zeichnet man
einen Comicstrip?

Step-by-Step Photoshop Tutorial

Zweifarbendruck
Step-by-Step Photoshop Tutorial
template line
template computer
Art & Society

Der Taktgeber
Film Composer John Ottman

Der Aufräumer
Mafia Lawyer Dead at 95

Charlie Brown lives
Peanuts Creator Charles M. Schulz

Entwicklung der politischen
Parteien in Deutschland

Evolution of German Parties since 1848

Fahren ohne Auto
Dumb Laws from Around the World

FAQ zur Online-Bewerbung
How to File Job Applications Online

Die Muminmutter
Tove Jansson, Writer & Artist

Муми-мама
Туве Янссон

Muminmutter forever
Tove Jansson ist gestorben

Moominmamma Forever
Tove Jansson has Died

9-11 - One Year After
Comments by Ed Koch et al.

9-11 - ein Jahr später
Kommentare von Ed Koch et al.

A Smile is a Smile is a Smiley
The Signet's Inventor is Dead

Räuber und Gedärm
Tomi Ungerer at 70

Die Wellenreiterin
Elisabeth Mann Borgese Dead at 83

Wein zur Prohibition
Lawyer Hiram Mendow Dies Aged 107
template line
template internet
Business

Ein New Yorker verirrt sich
nicht nach Solingen

Interview with a Lawyer & Journalist

Kanzleien helfen Kanzleien
Legal Community in 9-11 Aftermath

PR for Law Firms
Getting Exposure in the Media

PR für Kanzleien
Die gewünschte Publicity bekommen

Wagner ist digital
Customer Service 2000 D.C.

Wer abmahnt, hat
nicht immer recht

Interview on Cease and Desist Letters

Ein wunderbarer
Spätsommertag

Interview on 9-11
template line
template computer
Technology

Allein in New York
Laptop Trouble with Windows ME

Bitte nicht automatisch!
Translation Software Tested

Druck machen
Ink Jet Printer vs. Laser Printer

Faxen und mehr
Faxing Machines Inside Out

Fraktaler Darwinismus
Interview with Gerd Binnig

Now you're Talking!
Speech Analysis Methods

Patent Watch (I)
Method of Excercising a Cat

Patent Watch (II)
Of Cats and Horses

Patent Watch (III)
Hugging Hula Hoop

Patent Watch (IV)
It’s a Bird, a Squirrel, a Patent!


PC für Anfänger
How do Computers Really Work?

PC-Glossar
Tiny Computer Glossary

Die Sprachverarbeiter
Automatic Speech Recognition

Test: Bilddatenbanken
Review: Cumulus, Portfolio, iView
template line
template tech stuff
Web Technology

Alles mit System
Content Management for Lawyers

Die Anwaltssuche 
Lawyers Search Engine

Die Datenmacher
Databased Law Firm Websites

Die Datenmaschinen
Web Content Management Systems

Digitales Publishing
Document Management with PDF 

Internet-Zugang einrichten
Internet Dial-up Access Step by Step

Internet in New York
Free Internet Providers in NYC

Mit leichter Verspätung
It has Taken 5 Years to Register a URL

Maßgeschneidert
Content Management for Publishers 

Meta-Tags
Spreading the News

Suchen und Finden im Netz
Push Services

Web-Wissen
Web World Glossary
template line
template_webdesign
Web Design

Der Arzt im Web
Web Design for Doctors

Anwalts-Marketing-Preis
für Haarmann Hemmelrath

First Prize for Legal Web Site

Auf einen Blick
Corporate Design for Lawyers

Die Design-Strategie
Corporate Web Design

Dynamische Anwaltssuche
Hasche Eschenlohr's Legal Web Site

En un coup d'oeil
L’image de l’entreprise sur Internet

Gelb und blau
Haarmann Hemmelrath's Web Site

In der Welt zuhause
Web Design for Lawyers

In Szene gesetzt
Web Sites for Law Firms

Der virtuelle Anwalt
First Steps Towards a Lawyer's Website

Wie aus einem Guß
Corporate Design for Accountants

 

ARTICLES > Now you're Talking! (3/6)

PARTS 1 | 2 | 3 | 4 | 5 | 6

[cont.]
Technology: Methoden der Sprachanalyse
Now you’re Talking!

 
>SPRACHERKENNUNG: Warum ist Spracherkennung so schwierig? Mit einem Interview mit dem Sprachexperten Heinrich Niemann.

>ILLUSTRATIONEN: Illustrationen zum Thema Sprache, Literatur und Buch.

Frequenzanalyse-Algorithmen

Die Analyse eines Sprachsignals im Frequenzbereich ist im allgemeinen sehr viel aufwendiger als die Analyse im Zeitbereich, rechtfertigt sich aber zum einen durch die im Vergleich mit dem zeitlichen Verlauf wesentlich geringeren spektralen Variationen von ähnlichen Lauten desselben Sprechers, zum andern durch die Sensibilität des Ohres hinsichtlich spektraler Merkmale.

Kurzzeit-Fourier-Transformation

Das zur Analyse ausgewählte Zeitsignal wird in der vorliegenden Implementierung entsprechend der im Fenster-Auswahl-Block festgelegten Fensterbreite (128, 256, 512, 1024 oder 2048 Punkte) und dem Fenstertyp (Rechteck, Bartlett, Hamming, Hanning, Blackman-Harris) einer Fast-Fourier-Transformationsberechnung (FFT) unterworfen, um die spektralen Komponenten des ausgewählten Zeitsignal-Ausschnittes zu ermitteln. 

Durch die Wahl der Fensterfunktion wird das Ergebnis der FFT entscheidend beeinflußt: Auch ein die spektralen Nebenkeulen gut abdämpfendes Fenster kann bei der FFT-Berechnung sehr kleine Werte bei solchen Frequenzanteilen aufweisen, die nicht explizit im Zeitsignal enthalten, sondern durch die Nebenkeulen entstanden sind.

Die Fensterbreite muß für den implementierten FFT-Algorithmus einer ganzzahligen Zweierpotenzzahl entsprechen. Entsprechend dem Abtasttheorem ist die Anzahl der sich durch die Transformation ergebenden Spektralwerte gleich der Hälfte der Anzahl der Abtastwerte N, also der halben Fensterbreite. Die Fensterdauer Dt ergibt sich mit der Abtastfrequenz fa somit zu

Eine Vergrößerung der Fensterbreite steigert den Rechenaufwand der FFT exponentiell zur Basis 2 und verbessert die Frequenzauflösung dadurch umgekehrt proportional zur Zeitauflösung. Eine Fensterbreite von beispielsweise 512 Punkten entspricht 256 Spektralwerten; mit einer Abtastrate von 40,96 kHz ergibt sich eine Frequenzbandbreite von 20,48 kHz. Verteilt auf 256 Spektralwerte bedeutet das eine Frequenzauflösung von 20,48 kHz/ 256 = 80 kHz bzw. eine Zeitauflösung von 1/ 80 kHz = 12,5 ms.

So sieht ein Bonobo oder Zwergschimpanse aus (hier im belgischen Tierpark Planckendael in Mechelen nahe Antwerpen). Bonobos sind von allen Tieren am engsten mit dem Menschen verwandt, noch stärker als normale Schimpansen (das geht bis hin zur Missionarstellung beim Sex - unglaublich!). Bonobos stoßen hochfrequente Schreie aus, die sich gut zur Analyse verschiedener Sprachanalysemethoden eignen.

Die Fast Fourier-Transformation ermöglicht eine gegenüber der Diskreten Fourier-Transformation (DFT) wegen der Elimination der meisten komplexen Werte mit wachsender Fensterbreite wesentlich schnellere Berechnung: N² Operationen der DFT stehen N ldN Operationen der FFT gegenüber. Bei 512 Punkten z.B. müssen nur 4608 statt 262144 Operationen - das sind knapp zwei Prozent - berechnet werden.

Für den FFT-Algorithmus (Cooley-Tukey-Algorithmus) wird ein komplexes Feld mit einer ganzzahligen, zur Basis 2 exponentiellen Anzahl von maximal 2048 Werten transformiert. Ein komplexer Wert wird dabei durch zwei aufeinanderfolgende Werte, einen reellen und einen imaginären, dargestellt. Der FFT-Algorithmus berechnet das Spektrum eines komplexen Feldes; da Audio-Aufnahmen jedoch rein reell sind, verbrauchte man für das Auffüllen des reellen Feldes mit Nullen an den für die Imaginärteile vorgesehenen Stellen und die anschließende FFT-Berechnung unnötig Rechenzeit.

Ein mathematischer Work-around hierfür besteht darin, daß das zu transformierende reelle Feld halbiert und anschließend zwei reelle Felder transformiert werden. Dabei werden die Werte bei geraden Feldpunkten der ersten, bei ungeraden der zweiten Hälfte zugeordnet. 

Man betrachtet also das ursprüngliche reelle Feld der Breite N als komplexes Feld der Breite N/2 und extrahiert die reellen und pseudo-imaginären Anteile. Eine eigene Prozedur berechnet aus diesen Komponenten über Einzeltransformation und Rekonstruktion jeweils die reellen und echt-imaginären Anteile des ursprünglichen reellen Feldes.

3-D mit dem Spektrogramm

Eines der wichtigsten Sprachanalyseverfahren ist das diskrete (Chrono-)Spektrogramm oder das analoge Pendant des Sonagramms. Hierbei werden die drei grundlegenden Parameter eines Sprachsignals: Zeit t, Frequenz f und Amplitude A(f,t) in einem dreidimensionalen Bild kombiniert.

Üblich ist eine zweidimensionale Darstellung des zeitlichen Frequenzverlaufes A(f,t); das entspricht einer Projektion der dreidimensionalen Ansicht, in der die logarithmierten Amplituden in der f/t-Ebene durch die Stärke der Schwärzung aufgetragen werden. 

Die elementaren Parameter eines Sprachlautes: Grundfrequenzen, Resonanzfrequenzen des Vokaltraktes (Formanten) und Energie erlauben die Segmentierung einer Sprachlautsequenz nach Phonemen und Pausen, im weiteren nach Vokalen und Konsonanten, schließlich nach Verschluß- und Nasallauten, Lateralen, Vibranten, Frikativen und Affrikaten.

Abb. 7. Gefenstertes Zeitsignal (Hanning-Fenster) der Länge 12,5 ms: Ruf eines Bonobos (Zwergschimpanse). Deutlich erkennt man die hochfrequenten Anteile des Betragsspektrums; die logarithmische Darstellung erlaubt die grobe Erkennung von Vokaltrakt und Grundfrequenz.

Es gibt zwei Formen von Spektrogrammen, das Schmalband- und das Breitband-Spektrogramm, die sich in der verwendeten Größe der Fensterbreite unterscheiden. Betrachtet man einen geringen Frequenzbereich, erkennt man die Unterschiede des laryngalen Verhaltens während der Lautäußerung (z.B. Formantenverläufe) und den Verlauf der Grundfrequenz.

Abb. 8. Lineare Breitbandspektrogramm-Darstellung (Harris, 6,125 ms) eines Bonobo-Rufes; anhand der Abstände der Frequenzmaxima erkennt man die hohe Grundfrequenz von 2 kHz. Die Formantenstruktur ist ansatzweise erkennbar.

Das breitbandgefilterte zweidimensionale Spektrogramm (kleine Fensterbreite) zeigt die glottalen Anregungsimpulse als diskrete vertikale Linien, die jeweils einem die Resonanzfrequenzen (Formanten F1, F2 usw.) des Vokaltraktes anregenden Luftstoß entsprechen. Bei niedriger Grundfrequenz sind diese Linien relativ weit auseinander; bei steigender Grundfrequenz schieben sie sich zusammen.

Abb. 9. Ausschnitt aus Ken Jones' Gedicht "How you might relax tonight", das Gary T. Lime für LEGAmedia vorlas. Im Bild sieht man das Zeitsignal und das Spektrogramm.

Steigende Grundfrequenz bedeutet demnach eine steigende Anzahl glottaler Impulse pro Zeit. Breitband-Spektrogramme geben somit Aufschluß über das Anregungssignal. In der dreidimensionalen Ansicht ist wegen der niedrigen spektralen Auflösung der Verlauf der Formanten nur ungenau zu erkennen; auch die Grundfrequenz ist in der Implementierung wegen der diskreten Darstellung im allgemeinen nicht über die Abstände der Einzelspektren zu ermitteln (Abb. 8).

Schmalband-
Spektrogramme geben im Unterschied zu Breitband-
Spektrogrammen Aufschluß über die glottalharmonisch unabhängigen Vokaltrakt-
Resonanzfrequenzen.

Da ein schmaleres Filter (große Fensterbreite) eine größere Frequenzauflösung bedeutet, erscheinen im schmalbandgefilterten zweidimensionalen Spektrogramm die harmonischen Formantstrukturen als breite horizontale Linien. 

Die unterste Linie (nicht immer sichtbar) beschreibt die Grundfrequenz: Bei steigender Grundfrequenz schieben sich die Linien in umgekehrtem Maße zur Schmalbandfilterung auseinander. Schmalband-Spektrogramme geben im Unterschied zu Breitband-Spektrogrammen Aufschluß über die glottalharmonisch unabhängigen Vokaltrakt-Resonanzfrequenzen. Im dreidimensionalen Bereich ergeben sich die Grundfrequenzen über die höherharmonischen Frequenzabstände der Einzelspektren, meist auch über die ersten Maxima.

PARTS 1 | 2 | 3 | 4 | 5 | 6
(c) 1989–2009 Oliver Weiss Design Up! 
 Design / Illustration / Art Sale / Multimedia / Journalism / Contact
 
 Bestseller
350,000+ Copies Sold!
Random House Book Cover
Design for Nonfiction
Bestseller
>more | >more books


My Oktoberfest Poster
>more
Official Oktoberfest Design 2008

POPULAR TAGS

Tom Buhrow Walter Rothschild Year of Mathematics Shantaram Globalisierung Richard David Precht Oktoberfest

CONTACT ME!

Oliver Weiss
Germany
Fon +49-86 41-14 65
info@oweiss.com
www.oweiss.com
IMAGES FOR LICENSING:
The Oliver Weiss Image Stock Archive
Take me to the image archive!
>Click here!
Search my online stock archive from 6,000 illustrations!
Animals
Architecture
Art
Books
Business
Children
Communication
Education
Environment
Family
Food
Fun
Horoscopes
Legal
Lifestyle
Marketing
Media
Medical
Music
Nature
Office
People
Politics
Psychology
Religion
Science
Seasons
Sports
Symbols
Travel