|
[cont.]
Technology:
Methoden der Sprachanalyse
Now
you’re Talking!
Die Aufgabe, aus einem
harmonischen Sprachlaut die Informationen der zugrundeliegenden Signalanteile
von glottaler Anregung einerseits und Vokaltrakt andererseits voneinander zu
trennen, scheitert im Zeitbereich an der mathematischen Unmöglichkeit der
erforderten "Entfaltung". Zur Lösung wählt man den Umweg über die
Spektraltransformation: Das sich ergebende Verfahren wird "Cepstralanalyse"
genannt.
Was ist ein Cepstrum?
Das Cepstrum stellt ein erstmalig
von Tukey beschriebenes Verfahren zur Grundfrequenzbestimmung bei harmonischen
Sprachlauten dar. Das Cepstrum ist definiert als die Rücktransformation des
logarithmierten Leistungsdichtespektrums des Zeitsignals s(t):
mit

bzw., da das logarithmierte
Leistungsdichtespektrum gerade ist und die Fourier-Transformation somit zur
Cosinus-Transformation wird:
Durch diese zweimalige
Fouriertransformation (bzw. die Rücktransformation des logarithmierten
Leistungsdichtespektrums) erhält man die "Frequenz" des Spektrums,
das heißt den "Rhythmus" oder den "Takt" der harmonischen
Frequenzanteile. Der Terminus "Cepstrum" entsteht durch Invertierung
der ersten vier Buchstaben des Wortes "Spectrum" und wurde geprägt,
um Verwechslungen zwischen den signalimmanenten Frequenzen einerseits und den
sich erst über nochmalige Spektraltransformation ergebenden "cepstralen
Frequenzen" andererseits zu vermeiden:
- "Spektrum (spectrum)" wird zum
"Cepstrum"
- "spectral analysis" wird zu "cepstral
alanysis (cepstrale Alanyse)"
- "frequency" wird zu "quefrency
(Quefrenz)"
- "harmonic" wird zu "rahmonic
(Rahmonische)"
- "filtering" wird zu "liftering
(Lifterung)"
Die Quefrenz hat die Einheit
Zyklen pro Hertz oder einfach Sekunden (Abkürzung: "q"; da die
Quefrenz der Verzögerung (delay) der Autokorrelierten entspricht (siehe unten),
wird sie häufig auch mit "d" abgekürzt). Das Cepstrum besteht aus
einem niederquefrenten Anteil - der zur Formantstruktur korrespondierenden
Information des Vokaltraktes - und Ausschlägen bei höherquefrenten Anteilen (Grundquefrenz
und eventuell Rahmonische).
|

|
|
Abb. 10. System zur Erzeugung
stimmhafter Sprachlaute (implizites Rauschen). |
Das
Cepstrum ist also das Spektrum des Spektrums, d.h. die Fourier-Transformation
einer Fourier-Transformation eines Zeitsignals. Fourier-transformiert man ein einfaches
Sinussignal mit einer Reihe von Harmonischen derselben Amplitude, und zeichnet
man die Amplitude über der Frequenz auf, erhält man eine Reihe von vertikalen
Ausschlägen, die den harmonischen Anteilen entsprechen und alle gleich weit
voneinander entfernt sind. Diese Darstellung zeigt in sich selbst eine
harmonische Struktur, die man über eine abermalige Fourier-Transformation als
einzelne Linie ermitteln kann, die der Grundfrequenz und allen Harmonischen
entspricht.
Die Anwendungen der Cepstralanalyse sind ziemlich
raffiniert: Fourier-transformiert man etwa ein Zeitsignal, das aus der
Überlagerung aus den Klängen einer Flöte, einer Klarinette und eines Fagotts
entsteht, erhält man eine Riesenanzahl von enthaltenen Frequenzen. Die
Cepstralanalyse hiervon produziert lediglich drei Einzellinien, die den drei
Instrumenten entsprechen. Geräusche (noise) bleiben außen vor.
Das vereinfachte lineare Modell
der Spracherzeugung (Abb. 10) beschreibt die Erzeugung
stimmhafter Sprachlaute im Zeitbereich durch die Faltung der glottalen
Impulsfolgen-Anregungsfunktion g(t) der Periode T0 (inklusive additiv überlagerten
Rauschens) mit der Impulsantwort v(t) des Vokaltraktes:
s(t) = g(t) * v(t).
(Dabei wird die glottale Anregung
als echte Pulsfolge beschrieben, obwohl sie als Ergebnis der Faltung einer
echten Pulsfolge mit der Impulsantwort des glottalen Systems eigentlich mehr
dreieck- als deltaförmig ist. Die vorliegende Idealisierung ist aber eine im
allgemeinen legitime Näherung.)
Im Frequenzbereich entspricht
dies der Multiplikation des glottalen Linienspektrums der Grundfrequenz F0 =
1/T0 mit der Vokaltraktübertragungsfunktion:
mit

Für stimmhafte Sprachlaute ist
das Anregungssignal und somit das Sprachsignal quasi-periodisch. Mit der
Grundperiode T0 ergibt sich der Abstand der Harmonischen im Spektrum bzw.
Leistungsdichtespektrum zu F0, der sich über die Fourier-Rücktransformation
als Peak in der hierdurch entstehenden Autokorrelationsfunktion
niederschlägt. Diese Gleichungen zusammengesetzt
ergeben als weiteren Ausdruck für die Autokorrelationsfunktion:


mit den jeweiligen
Autokorrelationsfunktionen von g(t) und v(t).
Um die Auswirkungen von
Anregungssignal und Vokaltrakt-Impulsantwort voneinander trennen zu können (was
über Entfaltung der Autokorrelationen nicht möglich ist), wird das
Leistungsdichtespektrum vor der Fourier-Rücktransformation logarithmiert. Das
Cepstrum ergibt sich zu



Anstatt der Faltung erhält man
die mathematische Separierung zweier unabhängiger Funktionen. Die prinzipiellen Berechnungen
sind in Abb. 11 skizziert (Berechnung über Leistungsdichtespektrum).
|

|
|
Abb. 11. Die prinzipiellen
Berechnungen des Cepstrums eines harmonischen Sprachsignals (schematisch): mit
C(w)
= Spektrum
des Cepstrums
g'(q) = glottaler Cepstralanteil
v'(q) = Vokaltrakt-Cepstralanteil
|
Die cepstrale Alanyse erweist
sich aufgrund der zweimaligen Fourier-Transformation und der
Logarithmus-Operation als sehr rechenaufwendig. Zur Rekonstruktion der
Impulsantwort des Vokaltraktes oder der glottalen Anregungs-Pulsfolge wären
zwei weitere Fourier-Transformationen sowie eine exponentielle Operation
erforderlich. Häufig wird das Cepstrum zur Bestimmung von Grundfrequenz oder
Vokaltrakt-Übertragungsfunktion verwendet.
Treten im Spektralbereich große
harmonische Intervalle auf, schlägt sich das im Cepstralbereich als
niederquefrenter Anteil nieder, während geringe harmonische Intervalle etwa
eines Rauschsignals zu einem hochquefrenten Anteil transformiert werden. Bei der
menschlichen Sprache besitzt die niedrige Grundfrequenz von z.B. 100 Hz eine große
Anzahl spektraler Harmonischer, deren Abstand voneinander der relativ hohen
Quefrenz von 10 ms entspricht.
|