|
[cont.]
Technology:
Methoden der Sprachanalyse
Now
you’re Talking!
Die Analyse eines Sprachsignals
im Frequenzbereich ist im allgemeinen sehr viel aufwendiger als die Analyse im Zeitbereich, rechtfertigt sich aber zum einen durch die im
Vergleich mit dem zeitlichen Verlauf wesentlich geringeren spektralen
Variationen von ähnlichen Lauten desselben Sprechers, zum andern durch die
Sensibilität des Ohres hinsichtlich spektraler Merkmale.
Kurzzeit-Fourier-Transformation
Das zur Analyse ausgewählte
Zeitsignal wird in der vorliegenden Implementierung entsprechend der im
Fenster-Auswahl-Block festgelegten Fensterbreite (128, 256, 512, 1024 oder 2048
Punkte) und dem Fenstertyp (Rechteck, Bartlett, Hamming, Hanning,
Blackman-Harris) einer Fast-Fourier-Transformationsberechnung (FFT) unterworfen,
um die spektralen Komponenten des ausgewählten Zeitsignal-Ausschnittes zu
ermitteln.
Durch die Wahl der Fensterfunktion wird das Ergebnis der FFT
entscheidend beeinflußt: Auch ein die spektralen Nebenkeulen gut abdämpfendes
Fenster kann bei der FFT-Berechnung sehr kleine Werte bei solchen
Frequenzanteilen aufweisen, die nicht explizit im Zeitsignal enthalten, sondern
durch die Nebenkeulen entstanden sind.
Die Fensterbreite muß für den
implementierten FFT-Algorithmus einer ganzzahligen Zweierpotenzzahl entsprechen. Entsprechend dem Abtasttheorem ist die Anzahl der sich durch die
Transformation ergebenden Spektralwerte gleich der Hälfte der Anzahl der
Abtastwerte N, also der halben Fensterbreite. Die Fensterdauer Dt
ergibt sich mit der Abtastfrequenz fa somit zu

Eine Vergrößerung der
Fensterbreite steigert den Rechenaufwand der FFT exponentiell zur Basis 2 und
verbessert die Frequenzauflösung dadurch umgekehrt proportional zur Zeitauflösung.
Eine Fensterbreite von beispielsweise 512 Punkten entspricht 256 Spektralwerten;
mit einer Abtastrate von 40,96 kHz ergibt sich eine Frequenzbandbreite von 20,48
kHz. Verteilt auf 256 Spektralwerte bedeutet das eine Frequenzauflösung von 20,48 kHz/ 256 = 80 kHz bzw. eine Zeitauflösung von 1/ 80 kHz =
12,5 ms.
|

|
|
|
So sieht ein Bonobo oder Zwergschimpanse aus
(hier im belgischen Tierpark Planckendael in Mechelen nahe Antwerpen). Bonobos sind von allen Tieren am
engsten mit dem Menschen verwandt, noch stärker als normale Schimpansen (das
geht bis hin zur Missionarstellung beim Sex - unglaublich!). Bonobos stoßen
hochfrequente Schreie aus, die sich gut zur Analyse verschiedener
Sprachanalysemethoden eignen. |
|

|
|
Die Fast Fourier-Transformation
ermöglicht eine gegenüber der Diskreten Fourier-Transformation (DFT) wegen der
Elimination der meisten komplexen Werte mit wachsender Fensterbreite wesentlich
schnellere Berechnung: N² Operationen der DFT stehen N ldN Operationen der FFT
gegenüber. Bei 512 Punkten z.B. müssen nur 4608 statt
262144 Operationen - das sind knapp zwei Prozent - berechnet werden.
Für den FFT-Algorithmus (Cooley-Tukey-Algorithmus)
wird ein komplexes Feld
mit einer ganzzahligen, zur Basis 2 exponentiellen Anzahl von maximal 2048
Werten transformiert. Ein komplexer Wert wird dabei durch zwei
aufeinanderfolgende Werte, einen reellen und einen imaginären, dargestellt. Der
FFT-Algorithmus berechnet das Spektrum eines komplexen Feldes; da Audio-Aufnahmen jedoch rein reell sind, verbrauchte man für das Auffüllen
des reellen Feldes mit Nullen an den für die Imaginärteile vorgesehenen
Stellen und die anschließende FFT-Berechnung unnötig Rechenzeit.
Ein mathematischer Work-around hierfür besteht
darin, daß das zu transformierende reelle
Feld halbiert und anschließend zwei reelle Felder transformiert werden. Dabei werden die
Werte bei geraden Feldpunkten der ersten, bei ungeraden der zweiten Hälfte
zugeordnet.
Man betrachtet also das ursprüngliche reelle Feld der Breite N als
komplexes Feld der Breite N/2 und extrahiert die reellen und pseudo-imaginären
Anteile. Eine eigene Prozedur berechnet aus diesen Komponenten über
Einzeltransformation und Rekonstruktion jeweils die reellen und echt-imaginären
Anteile des ursprünglichen reellen Feldes.
3-D mit dem Spektrogramm
Eines der wichtigsten
Sprachanalyseverfahren ist das diskrete (Chrono-)Spektrogramm oder das
analoge Pendant des Sonagramms. Hierbei werden die drei grundlegenden
Parameter eines Sprachsignals: Zeit t, Frequenz f und Amplitude A(f,t) in einem
dreidimensionalen Bild kombiniert.
Üblich ist eine zweidimensionale Darstellung
des zeitlichen Frequenzverlaufes A(f,t); das entspricht einer Projektion der
dreidimensionalen Ansicht, in der die logarithmierten Amplituden in der
f/t-Ebene durch die Stärke der Schwärzung aufgetragen werden.
Die elementaren
Parameter eines Sprachlautes: Grundfrequenzen, Resonanzfrequenzen des
Vokaltraktes (Formanten) und Energie erlauben die Segmentierung einer
Sprachlautsequenz nach Phonemen und Pausen, im weiteren nach Vokalen und
Konsonanten, schließlich nach Verschluß- und Nasallauten, Lateralen, Vibranten,
Frikativen und Affrikaten.
|

|
|
Abb. 7. Gefenstertes Zeitsignal (Hanning-Fenster)
der Länge 12,5 ms: Ruf eines Bonobos (Zwergschimpanse). Deutlich erkennt man
die hochfrequenten Anteile des Betragsspektrums; die logarithmische Darstellung
erlaubt die grobe Erkennung von Vokaltrakt und Grundfrequenz. |
Es gibt zwei Formen von
Spektrogrammen, das Schmalband- und das Breitband-Spektrogramm, die sich in der
verwendeten Größe der Fensterbreite unterscheiden. Betrachtet man einen
geringen Frequenzbereich, erkennt man die Unterschiede des laryngalen Verhaltens
während der Lautäußerung (z.B. Formantenverläufe) und den Verlauf der
Grundfrequenz.
|

|
|
Abb. 8. Lineare
Breitbandspektrogramm-Darstellung (Harris, 6,125 ms) eines Bonobo-Rufes; anhand
der Abstände der Frequenzmaxima erkennt man die hohe Grundfrequenz von 2 kHz.
Die Formantenstruktur ist ansatzweise erkennbar. |
Das breitbandgefilterte
zweidimensionale Spektrogramm (kleine Fensterbreite) zeigt die glottalen
Anregungsimpulse als diskrete vertikale Linien, die jeweils einem die
Resonanzfrequenzen (Formanten F1, F2 usw.) des Vokaltraktes anregenden Luftstoß
entsprechen. Bei niedriger Grundfrequenz sind diese Linien relativ weit
auseinander; bei steigender Grundfrequenz schieben sie sich zusammen.
|

|
|
Abb. 9. Ausschnitt aus Ken Jones' Gedicht "How you might relax tonight",
das Gary T. Lime für LEGAmedia vorlas. Im Bild sieht man das Zeitsignal und das Spektrogramm.
|
Steigende
Grundfrequenz bedeutet demnach eine steigende Anzahl glottaler Impulse pro Zeit.
Breitband-Spektrogramme geben somit Aufschluß über das Anregungssignal. In der
dreidimensionalen Ansicht ist wegen der niedrigen spektralen Auflösung der Verlauf der
Formanten nur ungenau zu erkennen; auch die Grundfrequenz ist in der
Implementierung wegen der diskreten Darstellung im allgemeinen
nicht über die Abstände der Einzelspektren zu ermitteln (Abb. 8).
|
Schmalband-
Spektrogramme geben im Unterschied zu Breitband-
Spektrogrammen
Aufschluß über die glottalharmonisch unabhängigen Vokaltrakt-
Resonanzfrequenzen.
|
Da ein schmaleres Filter (große
Fensterbreite) eine größere Frequenzauflösung bedeutet, erscheinen im
schmalbandgefilterten zweidimensionalen Spektrogramm die harmonischen
Formantstrukturen als breite horizontale Linien.
Die unterste Linie (nicht immer
sichtbar) beschreibt die Grundfrequenz: Bei steigender Grundfrequenz schieben
sich die Linien in umgekehrtem Maße zur Schmalbandfilterung auseinander.
Schmalband-Spektrogramme geben im Unterschied zu Breitband-Spektrogrammen
Aufschluß über die glottalharmonisch unabhängigen
Vokaltrakt-Resonanzfrequenzen. Im dreidimensionalen Bereich ergeben sich die
Grundfrequenzen über die höherharmonischen Frequenzabstände der
Einzelspektren, meist auch über die ersten Maxima.
|