Puheanalyysi

Kohteesta Wikipedia
Siirry navigaatioon Siirry hakuun
Tämä artikkeli kertoo puheäänen analyysistä. Puhe-esityksen analyysi ei kuulu tähän.

Puheanalyysi (myös äänianalyysi[1]; engl. speech analysis[2], engl. voice analysis[2]) on puheteknologiassa puhe- ja lauluäänen sekä muitten äänitaajuisten (20–20 000 Hz) äänten kuten vaikkapa musiikkisoittimien äänten, keuhkoäänten, lasten itkujen, puheessa havaittavien emootioiden, hyvän radioäänen, puheäänen kuormittuneisuuden analysoimista, eri kielten ja murteitten äänteiden vertailun tutkimusta digitaalisen signaalinkäsittelyn keinoin.[3][4].

Puheanalyysin tekniikka[muokkaa | muokkaa wikitekstiä]

Yleensä digitaaliseen signaalinkäsittelyyn perustuvat puheanalyysit sisältävät:[5]

  • erilaisia ihmisäänen yksittäisspektrianalyysejä (FFT-spektri (engl. FFT spectrum[5]), kepstri (engl. cepstrum[5]), LPC-spektri (engl. LPC spectrum[5]), auditorinen spektri (engl. auditory spectrum[5]), auditorinen äänekkyysspektri (engl. auditory loudness spectrum[5])) -, -, -asteikoilla.
  • erilaisia ihmisäänen FFT-keskiarvospektrianalyysejä eli LTAS-analyysejä (engl. LTAS analyses[5]) -, -, -asteikoilla.
  • erilaisia ihmisäänen FFT-, LPC-, auditorisia spektrogrammeja (engl. auditory spectrograms[5]) -, -, -asteikoilla.
  • erilaisia ihmisäänen FFT-, kepstri-, LPC-, auditorisia spektrisarjoja (engl. auditory waterfalls[5]) -, -, -asteikoilla.
  • erilaisia puheen perustaajuuden (äänenkorkeuden) F0-analyysejä (engl. F0 analyses[5]) käyrinä aika mukana ja ilman aikaa -, -, -, -, -asteikoilla.
  • erilaisia puheen amplitudin A0-analyysejä (engl. A0 analyses[5]) käyrinä aika mukana ja ilman aikaa -asteikolla.
  • erilaisia puheen äänenvoimakkuustason SPL-analyysejä (engl. SPL analyses[5]) käyrinä ja erilaisia mittauksia -asteikolla.
  • erilaisia puheen jitter- ja shimmer-analyysejä (engl. jitter and shimmer analyses[5]) käyrinä ilman aikaa -asteikolla ja -asteikolla.
  • erilaisia puheen äänekkyysanalyysejä (engl. loudness analyses[5]) käyrinä ja spektreinä -asteikolla (engl. sone scale[5]).
  • puheen äänikenttäanalyysejä (engl. voice field analyses[5]) kaksi- ja kolmiulotteisina esityksinä -asteikoilla.
  • puheen fonetogrammianalyysejä (engl. fonetogram analyses[5]) kaksiulotteisina esityksinä -asteikoilla.
  • puheen erilaisten mitattavien suureitten jakauma-analyysejä (engl. histogram analyses[5]) ja jakaumien perussuureita kuten keskiarvo, keskihajonta, vaihteluväli.
  • puheen formanttimittauksia (engl. formant measurements[5]) ja formanttikarttoja (engl. formant charts[5]) -, -, -, -, -asteikoilla.

Yleensä puheanalyysiohjelmissa on:[5]

  • valmiita tuloskuvapohjia monenlaisille suureille ja monenlaisilla asteikoilla.
  • tuloskuvat muodostavat uusia analyysejä, jotka toimivat aika- ja taajuussynkronoidusti muitten analyysien kanssa.
  • analyysikuvissa on ajassa liikkuva kursori ja taajuuksissa liikkuva kursori.
  • puheen yksi- tai monikanavainen sisäänotto analysoitavaksi.
  • puheen yksi- tai monikanavainen kuuntelu.
  • puheen yksi- tai monikanavainen editointi ja suodatus.
  • puheen signaalikuva ja verhokäyräkuva ja erilaisten segmenttirajojen asettaminen niihin ja muihin analyysikuviin.
  • puheen osien kuten äänteiden, tavujen, lauseitten ja virkkeitten aikakestojen analyysejä puhesignaalista, sen verhokäyrästä ja erilaisista aikaa sisältävistä analyysikuvista.
  • puheen rytmin analyysejä aikaa sisältävistä analyysikuvista.
  • aika-akselin sisältävissä analyysikuvissa on siirrettävä aikakursori ja taajuusakselin sisältävissä analyysikuvissa lisäksi myös siirrettävä taajuuskursori.
  • analyysikuvat on aikasynkronoitu toisiinsa niin, että siirrettäessä missä tahansa analyysikuvassa aikakursoria se siirtyy myös muissa analyysikuvissa.
  • analyysikuvat on myös taajuussynkronoitu toisiinsa niin, että siirrettäessä missä tahansa analyysikuvassa taajuuskursoria se siirtyy myös muissa analyysikuvissa riippumatta erilaisista .taajuusakseliesityksistä.
  • kullakin analyysillä on oma kuvansa, joka on vapaasti siirreltävissä ja kooltaan zoomattavissa.
  • analyysikuvat päivittävät automaattisesti itsensä käyttäjän tekemän muutoksen jälkeen.

Digitaalisen signaalinkäsittelyn menetelmien algoritmit perustuvat kompleksilukujen ja kompleksilukumuunnosten käyttöön[6][7][8][9][10][11][12][13].

Puheanalyysin taajuussuureitten muunnoskaavoja[muokkaa | muokkaa wikitekstiä]

  • Hertsit Barkkeina: , f on taajuuden arvo hertseinä.[1]
  • Barkit hertseinä: , x on taajuuden arvo Barkkeina.[1]
  • Hertsit ERB:einä: , f on taajuuden arvo hertseinä.[1]
  • ERB:it hertseinä: , x on taajuuden arvo ERB:einä.[1]
  • Hertsit meleinä: , f on taajuuden arvo hertseinä.[1]
  • Melit hertseinä: , x on taajuuden arvo meleinä.[1]
  • Hertsit puolisävelinä: , f on taajuuden arvo hertseinä, vastaa 440 hertsin puolisävelarvoa. Esim. 880 hertsin st-arvo on ja 220 hertsin st-arvo on . Eli taajuuden hertseinä kaksinkertaistuessa puolisävelet lisääntyvät määrällä 12 ja taajuuden hertseinä puolittuessa puolisävelet vähenevät määrällä 12. Puolisävel-asteikko on tasavälinen asteikko.[14]
  • Puolisävelet hertseinä: , st on taajuuden arvo puolisävelinä, vastaa 440 hertsin puolisävelarvoa.[14]

Puheanalyysin laskentakaavoja[muokkaa | muokkaa wikitekstiä]

  • Jos on mikrofonin jännitesignaali, niin (nT) = k(nT), jossa on paine, k on vakiokerroin, T on näytevälin pituus.[5]
  • Amplitudiverhokäyrä: , x(n) on signaalinäytteen arvo hetkellä n.[5]
  • : , max(n) on ilmaistavan signaalin maksimiarvo hetkellä n.[5]
  • Tavallinen : , x(n) on signaalinäyte hetkellä n.[5]
  • Äänekkyys N soneina: , on äänekkyystaso foneina.[15][1][16]

Puheanalyysin teoriakaavoja ja teoriakuvauksia[muokkaa | muokkaa wikitekstiä]

  • Digitaalisen signaalinkäsittelyn kompleksinen perusteoria perustuu osaltaan z-muunnoksen ja sen käänteismuunnoksen olemassaoloon ja käyttöön. . . x(n) on signaalinäyte, z on kompleksinen muuttuja.[6]
  • Digitaalisen signaalinkäsittelyn kompleksinen perusteoria perustuu myös osaltaan diskreetin Fourier-muunnoksen DFT:n ja sen käänteismuunnoksen IDFT:n olemassaoloon ja käyttöön. , , muulloin . , , muulloin . , N on signaalin x(n) näytteiden määrä.[6]
  • DFT tehollisessa muodossa: , x(n) on signaalinäyte hetkellä n, w(n) on painotusikkuna, k on spektrikanavan/spektripisteen kohta. Spektrissä kanavien määrä N/2 on aina puolet signaalipisteiden määrästä N. Jos painotusikkunan leveys on signaalipisteitten määrää N pienempi asetetaan painotusikkunan molempiin päihin nollia niin paljon, että signaalin pituus ja painotusikkunan leveys saadaan käytännössä samaksi.[6] Kaava lasketaan nopeaa Fourier-laskentahajotelmaa FFT käyttäen.[6]
  • Hamming-painotusikkuna [5].
  • Blackman-Harris-painotusikkuna [5].
  • DFT dB-muodossa: .[6]
  • LTAS tuotetaan laskemalla keskiarvo tehollisessa muodossa olevista DFT:eistä ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon .[6]
  • Usean LTAS-spektrin keskiarvo lasketaan tehollisessa muodossa olevien LTAS-spektrien keskiarvona ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon.[6]
  • Puheanalyysiin käyttökelpoinen kepstri syntyy laskemalla dB-muodossa olevasta DFT:stä uusi DFT .[6]
  • Äänen äänekkyystaso foneina[15][1][16][4][5] on yhtä suuri kuin yhtä äänekkäältä tuntuva 1kHz:n ääneksen äänenpainetaso desibeleinä. Äänekkyys on kuuntelijan subjektiivinen vaikutelma äänen voimakkuudesta. Sen yksikkö on sooni eli soni[15][1][16][4][5]. Soni-asteikko on laadittu niin, että soni-määrän kaksinkertaistuminen vastaa myös äänekkyyden kaksinkertaistumista.[5]

FFT-spektri[muokkaa | muokkaa wikitekstiä]

Ihmisäänen FFT-spektri dB-asteikolla tuotetaan yllä olevia DFT:n kaavoja käyttäen. FFT-spektri käytännössä lasketaan nopeaa Fourier-muunnoshajotelmaa FFT:tä käyttäen. Vaihtoehtoja nopeaksi Fourier-muunnoshajotelmaksi on monta.[5]

Kepstri[muokkaa | muokkaa wikitekstiä]

Puheanalyysissä kepstri saadaan aikaan seuraavasti. Otetaan ensin Fourier-muunnos äänisignaalista.[5] Näin saadaan uusi signaali seuraavaa Fourier-muunnosta varten.[5] Seuraava Fourier-muunnos laskee uudesta signaalista uuden Fourier-käyrän.[5] Fourier-käyrän voimakkain huippu kuvaa alkuperäisen äänisignaalin perustaajuutta ja huipun avulla voidaan määrittää äänen perustaajuus.[5] Kepstrihuipun avulla perustaajuuden määritys on tarkempi kuin ensimmäisen Fourier-muunnoksen ensimmäisestä harmoonisesta mitattu perustaajuus.[5]

Puheanalyysiin käyttökelpoinen kepstri tuotetaan dB-muodossa olevasta DFT:stä laskemalla siitä uusi DFT.[1][5]

Minkä tahansa ajassa muuttuvan signaalin perustaajuus on määrättävissä kepstrin avulla.[5]

LPC-spektri[muokkaa | muokkaa wikitekstiä]

LPC-spektrin tuottamiseen on käytettävissä monta erilaista LPC-laskentamenetelmää. Kun LPC halutaan tulostaa myös FFT-spektrin taustakuvana on PARCOR-menetelmä käytännössä kaikkein toimivampia ja mahdollisimman kaunista kuvaesitystä tuottavaa. LPC-spektri esitetään dB-asteikolla. LPC-spektristä formantit F1, F2, F3 ja F4 voidaan tunnistaa suodattamalla LPC-spektriä sopivalla kaistanpäästösuodatuksella, jolloin vain formanttien kohdalle muodostuu kumpuja.[5]

LTAS-spektri[muokkaa | muokkaa wikitekstiä]

Ihmisäänen LTAS-spektri tuotetaan laskemalla keskiarvo tehollisessa muodossa olevista DFT:stä ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon.[5]

LTAS-spektrien keskiarvospektri[muokkaa | muokkaa wikitekstiä]

Usean ihmisäänen LTAS-spektrien keskiarvospektri lasketaan tehollisessa muodossa olevien LTAS-spektrien keskiarvona ja lopuksi tehollinen keskiarvo muutetaan dB-muotoon.[5]

FFT-, kepstri-, LPC-spektrisarjat[muokkaa | muokkaa wikitekstiä]

FFT-, kepstri-, LPC-spektrisarjat tuotetaan laskemalla muutaman kymmenen millisekunnin välein liukuvasti spektrejä ja sisällyttämällä analyysikuvaan myös aika-akseli.[5]

FFT-spektrogrammi[muokkaa | muokkaa wikitekstiä]

FFT-spektrogrammi tuotetaan laskemalla muutaman millisekunnin välein liukuvasti FFT-spektrejä dB-asteikolla ja muuttamalla kunkin spektrin kanavien voimakkuudet harmaansävyiksi analyysikuvaan.[5]

LPC-spektrogrammi[muokkaa | muokkaa wikitekstiä]

LPC-spektrogrammi tuotetaan laskemalla muutaman millisekunnin välein liukuvasti LPC-spektrejä dB-asteikolla ja ilmaisemalla sen jälkeen kaistanpäästösuodatuksella spektreistä neljä ensimmäistä formanttitaajuutta ja tulostaen ilmaistut formantit harmaansävyinä analyysikuvaan.[5]

Perustaajuusanalyysi (äänenkorkeusanalyysi)[muokkaa | muokkaa wikitekstiä]

Puheen perustaajuusanalyysin algoritmi perustuu joko aikatasossa tapahtuvaan tai taajuustasossa tapahtuvaan ilmaisuun. Jotkut aikatasossa tapahtuvista ilmaisuista poikkeavat taajuustasossa tapahtuvista ilmaisuista ensisijaisesti siinä, että aikatasossa on mahdollista ilmaista ja numeroida yksitellen jokainen puheen perusjakso. Taajuustasoilmaisussa puheen perustaajuus havaitaan tiettynä ajanhetkenä liukuvan aikaikkunan sisällä. Jokaisen perusjakson yksitellen ilmaisevaa algoritmia tarvitaan myös tarkan F0-jakauman luontiin ja siitä tehtävien tarkkojen tilastosuureitten luontiin. Jos F0-jakauman laskennassa on mukana muutakin kuin pelkästään kaikkien todelliset perusjaksojen taajuudet on tilastosuure epätarkka. Aikatason ilmaisuista voidaan mainita kaistanpäästöesisuodatukseen & suoraan säännöillä signaalista tapahtuvaan ilmaisuun perustuvat menetelmät ja autokorrelaatioon perustuvat menetelmät. Taajuustasossa tapahtuvista ilmaisuista voidaan mainita kaksinkertaiseen DFT:hen eli kepstriin perustuvat menetelmät. Kepstriin perustuvat F0-analyysit toimivat vaikka signaalin perustaajuuskomponentti puuttuisikin. Aikataso- ja taajuustasoilmaisuissa voidaan esisuodatuksena käyttää kaistanpäästösuodatusta sekä käänteissuodatusta, jotka pyrkivät yksinkertaistamaan analysoitavaa puhesignaalia.[5]

Jitter ja shimmer[muokkaa | muokkaa wikitekstiä]

Jitter ja shimmer kuvaavat puheen perusjaksojen taajuuden ja amplitudin muutoksia perusjaksosta toiseen. Algoritmi perustuu aikatasossa tapahtuvaan perustaajuusilmaisuun, joka ilmaisee ja numeroi yksitellen jokaisen puheen perusjakson, sen perustaajuuden ja maksimiamplitudin. Jitter lasketaan -asteikolla ja shimmer -asteikolla[5]

Äänikenttä[muokkaa | muokkaa wikitekstiä]

Äänikenttä tuotetaan aikatasossa tapahtuvalla perustaajuusanalyysillä (äänenkorkeusanalyysillä), joka ilmaisee ja numeroi yksitellen jokaisen puheen perusjakson, sen perustaajuuden (äänenkorkeuden) ja maksimiamplitudin. Äänikenttäkuvassa -asteikko on pystysuunnassa ja -asteikko tai -asteikko vaakasuunnassa. Kuvaan tulostetaan myös molempien suureitten jakaumat.[5]

Formanttikartta[muokkaa | muokkaa wikitekstiä]

Formanttikartta on kaksiulotteinen kuva puheen vokaalien formanttitaajuuksien mittaustuloksista taajuusasteikolla, joissa taajuussuureena on yleensä Hz, Bark tai ERB. Taajuusasteikot tekevät kuvassa tarvittaessa taajuusmuunnoksia. Historiallisesti formanttikarttoja tehtiin aluksi Hz-asteikolla. Auditorisen ajattelun mukaan tullessa asteikoksi tuli myös Bark-asteikko. Vähän myöhemmin ERB-asteikko. Bark-asteikkoa käytettäessä formanttikarttaan tulee lisäpiirteenä pisteitten merkitseminen 1 Bark:in kokoisina ympyröinä, jolloin ajatuksena on, että kun vokaalien ympyrät eivät mene kartassa päällekkäin niin ne ovat toisistaan hyvin erottuvia. Jos taas menevät päällekkäin saattaa siitä seurata, että vokaalit eivät erotu hyvin toisistaan. Näin vokaalien erotettavuutta toisistaan voidaan eksaktisti ja havainnollisesti mitata formanttikarttakuvan avulla.[5]

Auditorisen ja auditiivisen ero[muokkaa | muokkaa wikitekstiä]

Auditorinen viittaa kuuloelimiin liittyvään asiaan ja auditiivinen viittaa ulkoiseen kuuloon liittyvään asiaan[4][1][5].

Auditorinen spektri[muokkaa | muokkaa wikitekstiä]

Auditorinen spektri eli Auditory Spectrum on Otaniemessä Akustiikan laboratoriossa 19821983 kehitettyyn Bark-asteikkoiseen tekniseen kuulon malliin ja suodinpankkilaskentaan perustuva spektriesitys kuvaamaan ihmisääntä kuuloalueella 20–10 000 Hz. Auditorinen spektri tuotetaan suodattamalla auditorisella kaistanpäästösuodinpankilla ääntä muutaman kymmenen millisekunnin ajan ja laskemalla lopussa äänikomponenttien voimakkuudet kriittisen kaistan eli 1 Bark:in levyisistä taajuuskaistoista 1/2 Bark:in välein ja tuottamalla siitä 48 arvoa sisältävä spektri. Kehitettyä auditorista spektriä tutkittiin ja sovellettiin professori Matti A. Karjalaisen ja DI Raimo Olavi Toivosen toimesta akateemisesti Akustiikan laboratoriossa Suomen Akatemian Modelling of Auditory and Speech Communication -tutkimushankkeessa 19821986 [17][18][19][5].

Auditorinen suodinpankki[muokkaa | muokkaa wikitekstiä]

Auditorinen suodinpankki eli Auditory Filter Bank poikkeaa muista auditorisista kuulonmalleista siinä, että se sisältää taajuuspeiton lisäksi myös aikatason esi- ja jälkipeiton. Puheentunnistuksessa ja puhujantunnistuksessa käytetyt auditoriset mallit eivät sisällä puheanalyysissä tärkeää aikatason esi- ja jälkipeittoa ja ovat siksi epätarkempia kuulonmalleja eivätkä siksi niin hyvin sovellu ihmispuheen ominaisuuksien tutkimiseen eri tieteen aloilla. Kehitettyä auditorista suodinpankkia tutkittiin ja sovellettiin professori Matti A. Karjalaisen ja DI Raimo Olavi Toivosen toimesta akateemisesti Akustiikan laboratoriossa Suomen Akatemian Modelling of Auditory and Speech Communication -tutkimushankkeessa 19821986 [17][18][19][5].

Auditorinen spektrisarja[muokkaa | muokkaa wikitekstiä]

Auditorinen spektrisarja eli Auditory Waterfall tuotetaan laskemalla auditorisella kaistanpäästösuodinpankilla muutaman kymmenen millisekunnin välein liukuvasti auditorisia spektrejä. Kehitettyä auditorista spektrisarjaesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen spektrogrammi[muokkaa | muokkaa wikitekstiä]

Auditorinen spektrogrammi eli Auditory Spectrogram tuotetaan kaistanpäästösuodattamalla auditorisen spektrisarjan kukin spektri Bark-asteikolla niin, että saadaan aikaan spektriesitys, jossa näkyy vain löydetyt ihmisäänen auditoriset formanttitaajuudet harmaansävyinä. Kehitettyä spektrogrammiesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Äänekkyyden ja äänekkyystason ero[muokkaa | muokkaa wikitekstiä]

Äänekkyyden yksikkö on sooni eli soni[15][1][16][4][5] ja äänekkyystason yksikkö on fooni eli foni[15][1][16][4][5].

Auditorinen äänekkyysspektri[muokkaa | muokkaa wikitekstiä]

Auditorinen äänekkyysspektri eli Auditory Loudness Spectrum tuotetaan auditorisesta spektristä muuntamalla kunkin kriittisen kaistan eli Bark-kaistan arvo soneiksi ja tuottamalla näin uusi spektriesitys. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen kokonaisäänekkyys[muokkaa | muokkaa wikitekstiä]

Auditorinen kokonaisäänekkyys eli Auditory Loudness tuotetaan summaamalla äänekkyysspektrissä kaikki kriittisten kaistojen 24 soni-arvoa.[5] Kehitettyä äänekkyysesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen äänekkyyskäyrä[muokkaa | muokkaa wikitekstiä]

Auditorinen äänekkyyskäyrä eli Auditory Loudness Curve tuotetaan laskemalla kokonaisäänekkyysarvoja tasa-aikavälein ja tuottamalla siitä käyräesitys aika-asteikolla. Kehitettyä käyräesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen äänekkyysmuutoskäyrä[muokkaa | muokkaa wikitekstiä]

Auditorinen äänekkyysmuutoskäyrä eli Auditory Chance in Loudness Curve tuotetaan suodattamalla/derivoimalla äänekkyyskäyrää niin, että saadaan aikaan käyrä, jossa näkyy kumpuina vain muutoskohdat. Kehitettyä käyräesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen sointispektri[muokkaa | muokkaa wikitekstiä]

Auditorinen sointispektri tuotetaan auditorisesta spektristä ilmaisemalla jokaisesta kriittisen kaistan eli 1 Bark:in levyisestä äänikaistasta kepstrissä näkyvä perustaajuuspiikin (äänenkorkeuspiikin) voimakkuus ja laskemalla nämä 1/2 Bark:in välein 24 Bark:in taajuusalueelta. Näin saatu uusi spektri kuvaa miten vahvasti perustaajuus (äänenkorkeus) ja äänen harmoonisuus näkyvät 24 Bark:in levyisellä taajuusalueella. Tämä menetelmä toimii vaikka äänen FFT-spektristä puuttuisi perustaajuuskomponentti. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditoriset usean samanaikaisen äänen sointispektrit[muokkaa | muokkaa wikitekstiä]

Auditoriset usean samanaikaisen äänen sointispektrit voidaan auditorisen sointispektrin laskennalla erottaa tosistaan seuraamalla usean samanaikaisen äänen perustaajuutta (äänenkorkeutta) kepstrillä ja ilmaisemalla kunkin perustaajuuspiikin (äänenkorkeuspiikin) voimakkuus. Näin saadut uudet spektrit kuvaavat miten vahvasti perustaajuus (äänenkorkeus) ja äänen harmoonisuus näkyvät 24 Bark:in levyisellä taajuusalueella kun kyseessä on useita samanaikaisia eri perustaajuisia ääniä. Tämä menetelmä toimii vaikka äänten FFT-spektreistä puuttuisi perustaajuuskomponentti. Kehitettyä spektriesitystä tutkittiin ja sovellettiin em. tutkimushankkeessa[17][18][19][5].

Auditorinen usean samanaikaisen perustaajuuden (äänenkorkeuden) ilmaisu[muokkaa | muokkaa wikitekstiä]

Auditorinen usean samanaikaisen perustaajuuden (äänenkorkeuden) ilmaisu tuotetaan auditorisen usean samanaikaisen äänen sointispektrin laskennalla erottamalla ilmaistut eri perustaajuudet omiksi F0-käyrikseen. Tämä menetelmä toimii vaikka äänen FFT-spektreistä puuttuisi perustaajuuskomponentti.[5]

Katso myös[muokkaa | muokkaa wikitekstiä]

Lähteet[muokkaa | muokkaa wikitekstiä]

  1. a b c d e f g h i j k l m n Karjalainen, Matti: Kommunikaatioakustiikka. Oppikirja. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1999. ISBN 951-22-4412-8.
  2. a b Kent, Ray D. & Read, Charles: The Acoustical Analyses of Speech. Singular Publishing Group, Inc., 1992. ISBN 1-56593-364-8.
  3. Laukkanen, Anne-Maria & Leino, Timo: Ihmeellinen ihmisääni – äänenkäytön ja puhetekniikan perusteet, arviointi, mittaaminen ja kehittäminen. Oppikirja. Helsinki: Gaudeamus, 1999. ISBN 951-662-782-X.
  4. a b c d e f Suomi, Kari: Johdatusta puheen akustiikkaan. Oppikirja. Logopedian ja fonetiikan laitoksen julkaisuja 4. Oulu: Oulun yliopisto, 1990. ISBN 951-42-2922-3.
  5. a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af ag ah ai aj ak al am an ao ap aq ar as at au av aw ax ay az ba bb bc bd be bf bg bh bi bj bk Kuvaus löytyy Intelligent Speech Analyser™:in analyysisivuilta [vanhentunut linkki]
  6. a b c d e f g h i Oppenheim, Alan V. & Schafer, Roland W.: Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-214635-5.
  7. Rabiner, Lawrence R. & Gold, Bernard: Theory and Application of Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-914101-4.
  8. DeFatta, David J. & Lucas, Joseph G. & Hodgkiss, William S.: Digital Signal Processing, A Systems Design Approach. John Wiley & Sons, Inc., 1988. ISBN 0-471-63765-3.
  9. Proakis, John G. & Manolakis, Dimitris G.: Digital Signal Processing Principles, Algorithms, and Applications. Macmillan Publishing Company, 1992. ISBN 0-02-396815-X.
  10. Ifeachor, Emmanuel C. & Jervis, Barrie W.: Digital Signal Processing, A Practical Approach. Addison-Wesley, 1993. ISBN 0-201-54413-X.
  11. Mitra, Sanjit K.: Digital Signal Processing, A Computer-Based Approach. McGraw-Hill, 1998. ISBN 0-07-115793-X.
  12. Tan, Li & Jiang, Jean: Digital Signal Processing, Fundamentals and Applications. Academic Press, 2013. ISBN 978-012-415893-1.
  13. Pulkki, Ville & Karjalainen, Matti: Communication Acoustics – An Introduction to Speech, Audio and Psychoacoustics. John Wiley & Sons, Ltd, 2015. ISBN 978-1-118-86654-2. [1] [2]
  14. a b Sundberg, Johan: ”Scales, Tunings and Temperaments”, The science of musical sounds, s. 78−105. San Diego (Calif.): Academic Press, 1991. ISBN 0-12-676948-6.
  15. a b c d e Toivanen, Jarmo: Teknillinen akustiikka. Oppikirja. Otakustantamo, 1976. ISBN 951-671-123-5.
  16. a b c d e Karjalainen, Matti: Hieman akustiikkaa (PDF) 16.10.2000. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. (suomeksi)
  17. a b c d e f g h i j Karjalainen, Matti (toim.): Puheen kuulemisen mallintaminen. (On the modelling of speech perception). Raportti 29. Espoo: TKK, Akustiikan laboratorio, 1987. ISBN 951-754-154-6.
  18. a b c d e f g h i j Karjalainen, Matti: Kokemuksia auditiivisen spektrianalyysin käytöstä. Papers from the 12th Meeting of Finnish Phoneticians (Tikka, T., Ikonen, U. eds.). Joensuu: Joensuun yliopisto, 18.–19.5.1984. ISBN 951-69-6523-7.
  19. a b c d e f g h i j Karjalainen, Matti: Auditory Models for Speech Processing. Tallinn, Estonia, USSR: in Proceedings of the 11th International Congress of Phonetic Sciences (ICPhS'87), vol. 2, pp. 11–20, Invited paper, 1.–7.8.1987.

Kirjallisuutta[muokkaa | muokkaa wikitekstiä]

Suomalaisia teoksia

  • Karjalainen, Matti & Virtanen, Markku: Puhesignaalin särö ja sen mittaaminen. Raportti 26. Espoo: TKK, Akustiikan laboratorio, 1981. ISBN 951-752-376-9.
  • Karjalainen, Matti & Virtanen, Markku: Puheen tuottamisen ja kuulemisen mallit ja niiden käyttö särötutkimuksessa ja -mittauksessa. Raportti 27. Espoo: TKK, Akustiikan laboratorio, 1982. ISBN 951-752-587-7.
  • Karjalainen, Matti & Nuuttila, Petri: Signaaliprosessorien käyttö puheen- ja äänenkäsittelyssä. KTM:n rahoittaman tavoitetutkimuksen loppuraportti. Raportti 28. Espoo: TKK, Akustiikan laboratorio, 1983. ISBN 951-752-902-3.
  • Karjalainen, Matti: Kokemuksia auditiivisen spektrianalyysin käytöstä. Papers from the 12th Meeting of Finnish Phoneticians (Tikka, T., Ikonen, U. eds.). Joensuu: Joensuun yliopisto, 18.–19.5.1984. ISBN 951-69-6523-7.
  • Karjalainen, Matti: Tietokone puheentutkimuksessa – uusia suuntia. XIII Fonetiikan päivät – Turku 1985. (toim. Aaltonen O. & Hulkko T.) Suomalaisen ja yleisen kielitieteen laitoksen julkaisuja, 26, s. 141–160. Turku: Turun yliopisto, 1985. ISBN 951-642-751-0.
  • Karjalainen, Matti (toim.): Digitaaliaudion signaalinkäsittelymenetelmiä, Akustiikan seminaari. Raportti 41. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1996. ISBN 951-22-3309-7.
  • Välimäki, Vesa & Karjalainen, Matti (toim.): Signaalinkäsittely audiotekniikassa, akustiikassa ja musiikissa, Äänenkäsittelyn seminaari. Raportti 50. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1998. ISBN 951-22-4311-3.
  • Karjalainen, Matti (toim.): Kuulon mallit ja niiden sovellukset. Raportti 52. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio, 1999. ISBN 951-22-4507-8.
  • Karjalainen, Matti: Hieman akustiikkaa (PDF) 16.10.2000. Espoo: TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. (suomeksi)
  • Van Bergeijk, William A. & Pierce, John R. & David, Edward E., jr: Aallot ja korva. Luonto tieteen valossa 4. Alkuteoksen nimi Wawes and the ear. Suomentanut Reino Tuokko. Helsinki: WSOY, 1960.

Vieraskielisiä suomalaisia julkaisuja

  • Mutanen, Antti: Factors conditioning consonant duration in consonantal context with special reference to initial and final consonant clusters in english. Helsinki: Suomalainen tiedeakatemia, 1973. ISBN 951-41-0099-9.
  • Iivonen, Antti & Toivonen, Raimo: Computer in der psychoakustischen analyse und representation der vokale und vokalsysteme. Computergestützte Sprachverarbeitung für Phonetik und Diagnostik (Gall, V., Hollmach, U. Hrsg.), Martin-Luther Universität Halle-Wittenberg, Wissenschaftliche Beiträge 1990/36 (F98), pp. 34–37, June 12–14 1989.
  • Iivonen, Antti & Toivonen, Raimo: Simulation of the psycho-acoustical vowel space for linguistic applications. Paris: Eurospeech 89, European Conference on Speech Communication and Technology, Vol. 2, pp. 289–292, June 12–14 1989.
  • Iivonen, Antti: Regional German Vowel Studies. Fonetiikan laitoksen monisteita 15. Helsinki: Helsingin yliopisto, April 1989.
  • Wiik, Kalevi & Raimo, Ilkka (editors): Nordic Prosody IV. Papers from a Symposium. Turku: University of Turku Phonetics, July 1990. ISBN 1-56593-379-6.
  • Riederer, Klaus & Lahti, Tapio (editors): Nordic Acoustical Meeting, 12–14 June 1996. Proceedings. Helsinki: The Acoustical Society of Finland, 1996. ISBN 951-22-3134-4.

Kansainvälisiä teoksia

  • Oppenheim, Alan V. & Schafer, Roland W.: Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-214635-5.
  • Rabiner, Lawrence R. & Gold, Bernard: Theory and Application of Digital Signal Processing. Prentice-Hall, Inc., 1975. ISBN 0-13-914101-4.
  • DeFatta, David J. & Lucas, Joseph G. & Hodgkiss, William S.: Digital Signal Processing, A Systems Design Approach. John Wiley & Sons, Inc., 1988. ISBN 0-471-63765-3.
  • Proakis, John G. & Manolakis, Dimitris G.: Digital Signal Processing Principles, Algorithms, and Applications. Macmillan Publishing Company, 1992. ISBN 0-02-396815-X.
  • Ifeachor, Emmanuel C. & Jervis, Barrie W.: Digital Signal Processing, A Practical Approach. Addison-Wesley, 1993. ISBN 0-201-54413-X.
  • Mitra, Sanjit K.: Digital Signal Processing, A Computer-Based Approach. McGraw-Hill, 1998. ISBN 0-07-115793-X.
  • Tan, Li & Jiang, Jean: Digital Signal Processing, Fundamentals and Applications. Academic Press, 2013. ISBN 978-012-415893-1.
  • Sadaoki Furui: Digital Speech Processong, Synthesis, and Recognition. Marcel Dekker, Inc., 1989. ISBN 0-8247-7965-7.
  • Kent, Ray D. & Read, Charles: The Acoustical Analyses of Speech. Singular Publishing Group, Inc., 1992. ISBN 1-56593-364-8.
  • Sundberg, Johan: The Science of Singing Voice. Northern Illinois University Press, 1987. ISBN 0-87580-120-X.
  • Sundberg, Johan: The Science of Musical Sounds. Academic Press, 1991. ISBN 0-12-676948-6.
  • Stevens, Kenneth N. & Hirano, Minoru (editors): Vocal Fold Physiolocy. University of Tokio Press, 1981. ISBN 0-86008-281-4.
  • Bless, Diane M. & Abbs, James H. (editors): Vocal Fold Physiolocy, contemporary research & clinical issues. College-Hill Press, 1983. ISBN 0-933014-87-2.
  • Gauffin, Jan & Hammarberg, Brita (editors): Vocal Fold Physiolocy, Acoustic, Perceptual, and Physiological Aspects of Voice Mechanisms. Singular Publishing Group, Inc, 1991. ISBN 1-879105-51-9.
  • Fujimura, Osamu & Hirano, Minoru (editors): Vocal Fold Physiology, Voice Quality Control. Singular Publishing Group, Inc, 1995. ISBN 1-56593-379-6.
  • Orlikoff, Robert F. & Baken, Ronald J.: Clinical Speech and Voice Measurement, Laboratory Exercises, Instructor´s Manual. Singular Publishing Group, Inc, 1993. ISBN 1-56593-215-3.
  • Lehder, Steven: Understanding Lung Sounds. W.B.Sounders Company, 1984. ISBN 0-7216-1066-8.
  • Luchsinger, Richard & Arnold, Godfrey Edward: Voice – Speech – Language, Clinical Communicology: Its Physiology and Pathology. Wadsworth Publishing Company, Inc., 1965. ISBN 978-0534006808.
  • Fant, Gunnar: Acoustic Theory of Speech Production. Mouton De Gruyter, The Hague, 1970. ISBN 90-279-1600-4.
  • Stanley Smith Stevens: A scale for the measurement of the psychological magnitude: loudness. In: APA Journals (Hrsg.): Psychological Review, 1936:43:5:405–416. [3]
  • Fletcher, Harvey; Munson, Wilden A.: Loudness, its definition, measurement and calculation, The Journal of the Acoustical Society of America, 1933:5:2:82–108. [4]
  • Zwicker, Karl Eberhard: Subdivision of the audible frequency range into critical bands, The Journal of the Acoustical Society of America, 1961:33:2:248–248. [5]