Oliver Weiss DesignARTICLES

Art, Society, Media & Design

Articles

Oliver Weiss Design

S E A R C H


template_webdesign template line
template computer
Tutorials

Photoshop-Lexikon
deutsch / englisch

Photoshop Glossary

Coverillustration im Stile
von "The New Yorker"

Step-by-Step Photoshop Tutorial

Illustration auf alt getrimmt
Step-by-Step Photoshop Tutorial

Oans, zwoa, Pop-Art!
Macwelt
Tutorial on
Oktoberfest Poster Design

Wie zeichnet man
einen Comicstrip?

Step-by-Step Photoshop Tutorial

Zweifarbendruck
Step-by-Step Photoshop Tutorial
template line
template computer
Art & Society

Der Taktgeber
Film Composer John Ottman

Der Aufräumer
Mafia Lawyer Dead at 95

Charlie Brown lives
Peanuts Creator Charles M. Schulz

Entwicklung der politischen
Parteien in Deutschland

Evolution of German Parties since 1848

Fahren ohne Auto
Dumb Laws from Around the World

FAQ zur Online-Bewerbung
How to File Job Applications Online

Die Muminmutter
Tove Jansson, Writer & Artist

Муми-мама
Туве Янссон

Muminmutter forever
Tove Jansson ist gestorben

Moominmamma Forever
Tove Jansson has Died

9-11 - One Year After
Comments by Ed Koch et al.

9-11 - ein Jahr später
Kommentare von Ed Koch et al.

A Smile is a Smile is a Smiley
The Signet's Inventor is Dead

Räuber und Gedärm
Tomi Ungerer at 70

Die Wellenreiterin
Elisabeth Mann Borgese Dead at 83

Wein zur Prohibition
Lawyer Hiram Mendow Dies Aged 107
template line
template internet
Business

Ein New Yorker verirrt sich
nicht nach Solingen

Interview with a Lawyer & Journalist

Kanzleien helfen Kanzleien
Legal Community in 9-11 Aftermath

PR for Law Firms
Getting Exposure in the Media

PR für Kanzleien
Die gewünschte Publicity bekommen

Wagner ist digital
Customer Service 2000 D.C.

Wer abmahnt, hat
nicht immer recht

Interview on Cease and Desist Letters

Ein wunderbarer
Spätsommertag

Interview on 9-11
template line
template computer
Technology

Allein in New York
Laptop Trouble with Windows ME

Bitte nicht automatisch!
Translation Software Tested

Druck machen
Ink Jet Printer vs. Laser Printer

Faxen und mehr
Faxing Machines Inside Out

Fraktaler Darwinismus
Interview with Gerd Binnig

Now you're Talking!
Speech Analysis Methods

Patent Watch (I)
Method of Excercising a Cat

Patent Watch (II)
Of Cats and Horses

Patent Watch (III)
Hugging Hula Hoop

Patent Watch (IV)
It’s a Bird, a Squirrel, a Patent!


PC für Anfänger
How do Computers Really Work?

PC-Glossar
Tiny Computer Glossary

Die Sprachverarbeiter
Automatic Speech Recognition

Test: Bilddatenbanken
Review: Cumulus, Portfolio, iView
template line
template tech stuff
Web Technology

Alles mit System
Content Management for Lawyers

Die Anwaltssuche 
Lawyers Search Engine

Die Datenmacher
Databased Law Firm Websites

Die Datenmaschinen
Web Content Management Systems

Digitales Publishing
Document Management with PDF 

Internet-Zugang einrichten
Internet Dial-up Access Step by Step

Internet in New York
Free Internet Providers in NYC

Mit leichter Verspätung
It has Taken 5 Years to Register a URL

Maßgeschneidert
Content Management for Publishers 

Meta-Tags
Spreading the News

Suchen und Finden im Netz
Push Services

Web-Wissen
Web World Glossary
template line
template_webdesign
Web Design

Der Arzt im Web
Web Design for Doctors

Anwalts-Marketing-Preis
für Haarmann Hemmelrath

First Prize for Legal Web Site

Auf einen Blick
Corporate Design for Lawyers

Die Design-Strategie
Corporate Web Design

Dynamische Anwaltssuche
Hasche Eschenlohr's Legal Web Site

En un coup d'oeil
L’image de l’entreprise sur Internet

Gelb und blau
Haarmann Hemmelrath's Web Site

In der Welt zuhause
Web Design for Lawyers

In Szene gesetzt
Web Sites for Law Firms

Der virtuelle Anwalt
First Steps Towards a Lawyer's Website

Wie aus einem Guß
Corporate Design for Accountants

 

ARTICLES > Now you're Talking! (4/6)

PARTS 1 | 2 | 3 | 4 | 5 | 6

[cont.]
Technology: Methoden der Sprachanalyse
Now you’re Talking!

 
>SPRACHERKENNUNG: Warum ist Spracherkennung so schwierig? Mit einem Interview mit dem Sprachexperten Heinrich Niemann.

>ILLUSTRATIONEN: Illustrationen zum Thema Sprache, Literatur und Buch.

Cepstralanalyse-Algorithmen

Die Aufgabe, aus einem harmonischen Sprachlaut die Informationen der zugrundeliegenden Signalanteile von glottaler Anregung einerseits und Vokaltrakt andererseits voneinander zu trennen, scheitert im Zeitbereich an der mathematischen Unmöglichkeit der erforderten "Entfaltung". Zur Lösung wählt man den Umweg über die Spektraltransformation: Das sich ergebende Verfahren wird "Cepstralanalyse" genannt.

Was ist ein Cepstrum?

Das Cepstrum stellt ein erstmalig von Tukey beschriebenes Verfahren zur Grundfrequenzbestimmung bei harmonischen Sprachlauten dar. Das Cepstrum ist definiert als die Rücktransformation des logarithmierten Leistungsdichtespektrums des Zeitsignals s(t):

mit

bzw., da das logarithmierte Leistungsdichtespektrum gerade ist und die Fourier-Transformation somit zur Cosinus-Transformation wird:

Durch diese zweimalige Fouriertransformation (bzw. die Rücktransformation des logarithmierten Leistungsdichtespektrums) erhält man die "Frequenz" des Spektrums, das heißt den "Rhythmus" oder den "Takt" der harmonischen Frequenzanteile. Der Terminus "Cepstrum" entsteht durch Invertierung der ersten vier Buchstaben des Wortes "Spectrum" und wurde geprägt, um Verwechslungen zwischen den signalimmanenten Frequenzen einerseits und den sich erst über nochmalige Spektraltransformation ergebenden "cepstralen Frequenzen" andererseits zu vermeiden:

  • "Spektrum (spectrum)" wird zum "Cepstrum"
  • "spectral analysis" wird zu "cepstral alanysis (cepstrale Alanyse)"
  • "frequency" wird zu "quefrency (Quefrenz)"
  • "harmonic" wird zu "rahmonic (Rahmonische)"
  • "filtering" wird zu "liftering (Lifterung)"

Die Quefrenz hat die Einheit Zyklen pro Hertz oder einfach Sekunden (Abkürzung: "q"; da die Quefrenz der Verzögerung (delay) der Autokorrelierten entspricht (siehe unten), wird sie häufig auch mit "d" abgekürzt). Das Cepstrum besteht aus einem niederquefrenten Anteil - der zur Formantstruktur korrespondierenden Information des Vokaltraktes - und Ausschlägen bei höherquefrenten Anteilen (Grundquefrenz und eventuell Rahmonische).

Abb. 10. System zur Erzeugung stimmhafter Sprachlaute (implizites Rauschen).

Das Cepstrum ist also das Spektrum des Spektrums, d.h. die Fourier-Transformation einer Fourier-Transformation eines Zeitsignals. Fourier-transformiert man ein einfaches Sinussignal mit einer Reihe von Harmonischen derselben Amplitude, und zeichnet man die Amplitude über der Frequenz auf, erhält man eine Reihe von vertikalen Ausschlägen, die den harmonischen Anteilen entsprechen und alle gleich weit voneinander entfernt sind. Diese Darstellung zeigt in sich selbst eine harmonische Struktur, die man über eine abermalige Fourier-Transformation als einzelne Linie ermitteln kann, die der Grundfrequenz und allen Harmonischen entspricht.

Die Anwendungen der Cepstralanalyse sind ziemlich raffiniert: Fourier-transformiert man etwa ein Zeitsignal, das aus der Überlagerung aus den Klängen einer Flöte, einer Klarinette und eines Fagotts entsteht, erhält man eine Riesenanzahl von enthaltenen Frequenzen. Die Cepstralanalyse hiervon produziert lediglich drei Einzellinien, die den drei Instrumenten entsprechen. Geräusche (noise) bleiben außen vor.

Das vereinfachte lineare Modell der Spracherzeugung (Abb. 10) beschreibt die Erzeugung stimmhafter Sprachlaute im Zeitbereich durch die Faltung der glottalen Impulsfolgen-Anregungsfunktion g(t) der Periode T0 (inklusive additiv überlagerten Rauschens) mit der Impulsantwort v(t) des Vokaltraktes:

s(t) = g(t) * v(t).

(Dabei wird die glottale Anregung als echte Pulsfolge beschrieben, obwohl sie als Ergebnis der Faltung einer echten Pulsfolge mit der Impulsantwort des glottalen Systems eigentlich mehr dreieck- als deltaförmig ist. Die vorliegende Idealisierung ist aber eine im allgemeinen legitime Näherung.)

Im Frequenzbereich entspricht dies der Multiplikation des glottalen Linienspektrums der Grundfrequenz F0 = 1/T0 mit der Vokaltraktübertragungsfunktion:

mit

Für stimmhafte Sprachlaute ist das Anregungssignal und somit das Sprachsignal quasi-periodisch. Mit der Grundperiode T0 ergibt sich der Abstand der Harmonischen im Spektrum bzw. Leistungsdichtespektrum zu F0, der sich über die Fourier-Rücktransformation als Peak in der hierdurch entstehenden Autokorrelationsfunktion

niederschlägt. Diese Gleichungen zusammengesetzt ergeben als weiteren Ausdruck für die Autokorrelationsfunktion:

mit den jeweiligen Autokorrelationsfunktionen von g(t) und v(t).

Um die Auswirkungen von Anregungssignal und Vokaltrakt-Impulsantwort voneinander trennen zu können (was über Entfaltung der Autokorrelationen nicht möglich ist), wird das Leistungsdichtespektrum vor der Fourier-Rücktransformation logarithmiert. Das Cepstrum ergibt sich zu

Anstatt der Faltung erhält man die mathematische Separierung zweier unabhängiger Funktionen. Die prinzipiellen Berechnungen sind in Abb. 11 skizziert (Berechnung über Leistungsdichtespektrum).

Abb. 11. Die prinzipiellen Berechnungen des Cepstrums eines harmonischen Sprachsignals (schematisch): mit

 

C(w) = Spektrum des Cepstrums
g'(q) = glottaler Cepstralanteil
v'(q) = Vokaltrakt-Cepstralanteil

Die cepstrale Alanyse erweist sich aufgrund der zweimaligen Fourier-Transformation und der Logarithmus-Operation als sehr rechenaufwendig. Zur Rekonstruktion der Impulsantwort des Vokaltraktes oder der glottalen Anregungs-Pulsfolge wären zwei weitere Fourier-Transformationen sowie eine exponentielle Operation erforderlich. Häufig wird das Cepstrum zur Bestimmung von Grundfrequenz oder Vokaltrakt-Übertragungsfunktion verwendet.

Treten im Spektralbereich große harmonische Intervalle auf, schlägt sich das im Cepstralbereich als niederquefrenter Anteil nieder, während geringe harmonische Intervalle etwa eines Rauschsignals zu einem hochquefrenten Anteil transformiert werden. Bei der menschlichen Sprache besitzt die niedrige Grundfrequenz von z.B. 100 Hz eine große Anzahl spektraler Harmonischer, deren Abstand voneinander der relativ hohen Quefrenz von 10 ms entspricht.

PARTS 1 | 2 | 3 | 4 | 5 | 6
(c) 1989–2009 Oliver Weiss Design Up! 
 Design / Illustration / Art Sale / Multimedia / Journalism / Contact
 
 Bestseller
350,000+ Copies Sold!
Random House Book Cover
Design for Nonfiction
Bestseller
>more | >more books


My Oktoberfest Poster
>more
Official Oktoberfest Design 2008

POPULAR TAGS

Tom Buhrow Walter Rothschild Year of Mathematics Shantaram Globalisierung Richard David Precht Oktoberfest

CONTACT ME!

Oliver Weiss
Germany
Fon +49-86 41-14 65
info@oweiss.com
www.oweiss.com
IMAGES FOR LICENSING:
The Oliver Weiss Image Stock Archive
Take me to the image archive!
>Click here!
Search my online stock archive from 6,000 illustrations!
Animals
Architecture
Art
Books
Business
Children
Communication
Education
Environment
Family
Food
Fun
Horoscopes
Legal
Lifestyle
Marketing
Media
Medical
Music
Nature
Office
People
Politics
Psychology
Religion
Science
Seasons
Sports
Symbols
Travel