Artikkeleja voi nykyään kuunnella koneäänen lukemana suomalaisten medioiden sivuilla, ja esimerkiksi Suomen Kuvalehti ja Kaksplus julkaisevat audioartikkeleja myös Spotifyssa. Aihe kiinnostaa medioita, sillä äänisisältöjen kulutus on kasvanut viime vuosina huimaa tahtia sekä Suomessa että maailmalla. Valtaosa aikakausmedioista myös uskoo koneäänen lukemien sisältöjen lisääntymiseen lähitulevaisuudessa.
Lue myös: Kysely: Lähes puolet aikakausmedioista tekee audiosisältöjä – suosio yhä kasvussa
Mediapäivässä esiintynyt a.i.materin toimitusjohtaja Lauri Falck kertoi puheenvuorossaan koneäänien kehityksestä. Hänen mukaansa sisältöjen audioittaminen on ottanut valtavan harppauksen vuoden 2016 jälkeen, kun synteettisiä ääniä alettiin luoda neuroverkkopohjaisilla malleilla. Niissä koneääni muodostaa puhetta sen perusteella, mitä sille on kuunteluttamalla opetettu. Ennen koneäänet syntyivät leikkaa ja liimaa -tyyppisesti laittamalla äänitettyjä klippejä jonoon, jolloin ongelmaksi muodostuivat epäluonnolliselta kuulostavat äänteiden välit ja sanojen painotukset.
– Koneoppimismenetelmiin perustuvat koneäänet ovat niitä, joilla päästään kaikkein luonnollisimpaan lopputulokseen. Niissä koneääni pyrkii jäljittelemään ihmisen puhetta yksittäisten äänteiden toistelun sijaan, Falck sanoo.
"Synteettinen ääni ei ole vielä ihmisen veroinen esimerkiksi tunnetilojen tulkinnassa."
Koneäänen rakentaminen alkaa nauhoittamalla muutaman tunnin mittainen pätkä tekstiä, joka luetaan studio-olosuhteissa sanantarkasti. Tämän jälkeen äänite syötetään yhdessä tekstin kanssa koneoppimismallille, joka koulutetaan sen avulla yleistämään, miltä kieli kuulostaa juuri tämän ihmisen puhumana. Malli oppii äänen lisäksi myös painotukset ja tauotukset, ja Falckin mukaan koneäänelle puhettaan lainannut ihminen onkin varsin tunnistettavasti saman kuuloinen kuin synteettinen versionsa.
– Brändeille voidaan tehdä kokonaan omia ääniä, joilla on mahdollisuus erottua, Falck kertoo.
Mitä seuraavaksi?
Tänä päivänä koneäänen tunnistaa vielä koneääneksi, mutta teknologia kehittyy jatkuvasti. Vuoden 2022 toukokuussa julkaistiin ensimmäistä kertaa tutkimus, jossa koehenkilöt eivät pystyneet erottamaan koneäänen tuottamaa puhetta ihmisestä lyhyissä lauseissa. Pidemmissä pätkissä ei vielä päästä yhtä hyviin tuloksiin.
– Synteettinen ääni ei ole vielä ihmisen veroinen esimerkiksi tunnetilojen tulkinnassa, Lauri Falck kertoo.
Kieliteknologisten tieteellisten tutkimusten määrä on ollut voimakkaassa kasvussa viime vuosina. Falckin mukaan koneääni-ilmiön merkittävyydestä kertoo se, että tutkimusta tekevät etunenässä monikansalliset jättiyhtiöt, kuten Google, Microsoft, Meta ja Amazon.
Vuonna 2022 julkaistussa tutkimuksessa koehenkilöt pitivät koneääntä luonnollisempana kuin ihmisääntä.
Google Play ja Apple ovat myös hiljattain lanseeranneet koneäänen lukemia kirjoja palveluihinsa. Asiasta on kertonut esimerkiksi The Guardian.
Tulevaisuudessa tarjolla voi olla yhden henkilön puheen perusteella koulutettujen mallien sijaan niin sanottuja monipuhujamalleja, jotka perustuvat useiden henkilöiden ja tuhansien tuntien puhenäytteisiin. Niiden ominaisuuksia yhdistelemällä pystytään luomaan teoriassa loputtomasti täysin keinotekoisia ääniä.
– Jatkossa mietittäväksi tulevat myös tekijänoikeuskysymykset, sillä keinotekoisten äänten käytöstä ei ole vielä selkeitä sääntöjä, Falck sanoo.
Yksi kehityskulku voi olla myös niin sanottujen style transfer -ohjelmistojen yleistyminen. Niiden avulla henkilön ääntä ja aksenttia pystytään muuntamaan lennosta. Sanas-niminen yritys tarjoaa tätä jo nyt.
– Kuvitelkaa IT-tukensa Intiaan ulkoistanut yhdysvaltalaisyritys. Kun asiakas soittaa tukeen, Sanaksen softa pystyy puhelun aikana muuntamaan intialaisen aksentin jenkkiaksentiksi, jolloin asiakaskokemus paranee, Falck heittää.
A.i.mater
- Ohjelmistoyritys, joka on erikoistunut tekoälypohjaisiin puheteknologian ratkaisuihin.
- Tunnetaan suomenkielisestä Ilona-koneäänestä ja suomenruotsia puhuvasta Amandasta.