Puhesynteesi

Puhesynteesi on ihmispuheen mallintamista keinotekoisesti.^[1] Tietokoneella suoritettuna se on osa digitaalista signaalinkäsittelyä.

Tekstistä puheeksi -synteesissä (text-to-speech, TTS) pyritään muuttamaan kirjoitettu teksti puhuttuun muotoon. Käsitteestä puheeksi -synteesissä (concept-to-speech, CTS) puhuttava pyritään rakentamaan jostakin ei-kielellisestä tiedosta, esimerkiksi lämpötilatietokannan perusteella.

Synteesimenetelmiä on ainakin neljä:

artikulatorinen synteesi pyrkii mallintamaan ihmisen ääntöväylää ja sen avulla tuottamaan luonnollisenkuuloista puhetta. Ensimmäiset mekaaniset laitteet ovat peräisin jo 1700-luvulta (von Kempelen)
formanttisynteesi pyrkii mallintamaan puheessa olevia formantteja. Esimerkiksi Dennis Klattin kehittämä Klatt-syntetisaattori perustuu formanttisynteesiin
konkatenaatiosynteesi perustuu nauhoitetusta puheäänestä leikattujen palasten yhdistämiseen. Ymmärtämisen kannalta tärkeää ovat siirtymät yhdestä äänteestä toiseen, ei niinkään äänteet puhtaimmillaan. Difoni on kahden äänteen puolikkaasta muodostettu kokonaisuus. Difonikonkatenaatiossa luodaan difonitietokanta kaikista kielen kaikista mahdollisista (ja mahdottomista) äännepareista. (Lisää: LPC-analyysi, perustaajuuden ja keston venytys ja paukutus) Luonnollisemman kuuloista puhetta saadaan tällä hetkellä ns. Unit Selection -menetelmällä. Siinä tietokanta koostuu tuhansista lauseista aitoa puhetta. Tietokannasta poimitaan sitten halutun puhutun puhunnoksen kannalta mahdollisimman sopivat palat. Parhaimmillaan menetelmän avulla saadaan erittäin luonnollisen kuuloista puhetta, mutta huonoimmillaan palojen liitoskohtiin tulee amplitudin ja korkeuden pomppimisia, epäjatkuvia formantteja ja naksumisia
HMM-pohjainen puhesynteesi, jossa signaalin generoimisessa hyödynnetään puheentunnistuksen puolella kehitettyjä menetelmiä. Sen etuna on pienet kielimallit ja erittäin luonnollinen prosodia. Ongelmana tekniikassa on vokooderin aiheuttama pieni ”pörinä”.

Suomen kielelle on avoimeen lähdekoodiin pohjaava, Festival-pohjainen Suopuhe-syntetisaattori, joka julkaistiin 19. marraskuuta 2004. ESpeak sisältää myös suomen kielen tuen.

Festival on Edinburghin yliopistossa kehitetty ilmainen puhesynteesin kehitysalusta, jolle saa ilmaiseksi ainakin englannin-, espanjan-, kroatian- ja kymrinkielisiä ääniä.