Siri

Ezért nem beszél magyarul a Siri – interjú (2. rész)

#HÍREK
2016. 10. 22.

Felkerestük Dr. Németh Gézát, a BME docensét, hogy segítsen kideríteni miért nem ismeri anyanyelvünket az asszisztens. Interjúnk második részéből most végre kiderül a válasz, sok más érdekességgel egyetemben.

Az Apple saját fejlesztésű személyi asszisztense, a Siri, már elérhető iPhone-ra, Apple Watch-ra és most már Mac-ekre is. Viszont a legtöbb magyar felhasználónak problémát jelent, hogy az asszisztens nem ért a szép magyar szóból.

Vannak akik szerint ez az Apple lustasága miatt van ez így, de vannak olyanok is, akik a magyar nyelv bonyolultságára gyanakodnak. Kíváncsiak voltunk mi lehet az igazság, ezért felkerestük Dr. Németh Géza egyetemi docenst, a Budapesti Műszaki és Gazdaságtudományi Egyetem (BME) Távközlési és Médiainformatikai Tanszékének munkatársát.

Dr. Németh Géza
Dr. Németh Géza. Fotó: Horváth Domonkos

Ő a vezetője a tanszéken található Beszédkommunikáció és Intelligens Interakciók Laboratóriumának (SmartLab), ahol többek közt beszédszintetizátorokat, gépi szövegfelolvasókat és ember-gép interfészeket kutatnak, fejlesztenek.

Munkájukkal a mindennapokban is találkozhatunk. Ők fejlesztették a Keleti-pályaudvar hangosbemondójának beszédszintetizátorát, de őket kérték fel Stephen Hawking robotbeszélőjének magyar szinkronhangjának elkészítésére is, A Mindenség elmélete című filmhez.

Stephen Hawking
Stephen Hawking, vezető angol elméleti fizikus

Az interjú első része épp ott ért véget, hogy Dr. Németh Géza azt ecsetelte, hogy milyen hatékonyan lehet az úgynevezett elemösszefűzéses módszerrel beszédszintetizárokat készíteni. Ezzel a technológiával, amire valószínűleg a Siri is épül, demózta számunkra, hogy akár egy mindössze 15 perces hanganyag felhasználásával is milyen jól lehet utánozni, akár politikusok hangját is. Most további ötleteket ad, milyen területeken lehetne kamatoztatni a megoldást…

…Mindenféle trükkös alkalmazásokat lehetne így csinálni. Például, hogy az SMS-t annak a hangján olvassa fel a rendszer, aki küldte. De hozzárendelhetnénk celebeket is. Külföldön már vannak is hasonló dolgok egészségügyi célokra. Amerikában meg Angliában is komoly pénzeket öltek ebbe. Ott például a beszédsérült, gégeműtött vagy sztrókos embertől előre felvehetnek valamennyi hangmintát, amikor még viszonylag jó a hangja. Sokszor ugyanis, még korai stádiumban valamennyire tudnak beszélni. Majd ha bekövetkezik a probléma, akkor generálnak rá egy szintetizátort, és a saját hangján beszélhet tovább.

Dr. Németh Géza
Dr. Németh Géza. Fotó: Horváth Domonkos

Ezt követte a rejtett Markov-modell alapú beszédszintézis. Itt szintén van egy beszédkódoló a betanítási fázisban. Majd a gépi rendszer megtanulja, hogy az egyes hullámformák előállításához, körülbelül milyen vezérlőparamétereket kell beállítani a kódolórendszerbe. Ezután, ha nem a tanítószöveget olvastatjuk fel, hanem bármi mást, akkor egy valószínűségi eloszlás alapján kiszámolja, körülbelül mit kell oda tenni. Ez a módszer emlékeztet az illető személy hangjára, de általában jól megkülönböztethető minőségben az összefűzéses rendszertől.

Az üzleti szférában, ha a technika és a számítógép kapacitás lehetővé teszi, akkor a mai napig inkább az elemösszefűzéses rendszereket alkalmazzák, mert az kellemesebb hangú, legalábbis jobban szeretik az ügyfelek. Ha erőforráskorlátok vannak, mert mondjuk egy nagyon kis kütyübe szánják, akkor inkább a parametrikus rendszert használják.

Siri

A fókuszból ezek lassacskán most kikerülnek, annak ellenére, hogy lehetne rajtuk még mit fejleszteni. Átveszi a helyüket a legújabb, mélytanulás alapú rendszer, aminek szintén van parametrikus, és nem parametrikus, de még hibrid változata is.

Merre fejlődhetnének még ezek a rendszerek?

Nagy probléma még, hogy egészen elemi szemantikus (jelentésbeli – a szerk.) összefüggéseket nem tudnak még kezelni. Itt még várjuk az áttörést a nyelvészektől, hogy alkossanak egy jól körülhatárolt szemantikus világot.

Majdnem mindegyik angol rendszer azt fogja mondani, amikor azt olvastatom fel vele, hogy “Yesterday I read a book”, hogy “Jesztördéj áj ríd ö búk”, és nem a helyes “red ö búk” alakot (az angolban az olvasni ‘read’ szót múlt és jelen időben is ugyanúgy kell írni, viszont a kiejtése jelen időben kb: “ríd”, múlt időben pedig “red” – a szerk.)

Dr. Németh Géza
Dr. Németh Géza. Fotó: Horváth Domonkos

De tudok mondani sokkal egyszerűbb dolgot is, amire úgy találom, nincs még megoldás. Érdekes lenne megvizsgálni, hogy például egy ember hány féle stílusban beszél. Nyilvánvaló, hogy egy hivatalos kommunikációban a főnökkel, vagy egy ellentétes neművel teljesen másként beszélünk.
Egyelőre még ott sem tartunk, hogy legyen egy kategória lista: általában az emberek ebben az ‘x’ stílusban beszélnek.

Azért idegenkednek általában a felhasználók a gépi beszédet alkalmazó rendszerektől, mert azok többnyire csak egy féle stílusban beszélnek. Nem kapcsolódnak a kommunikációs kontextushoz, mindent ugyanúgy mondanak be. Ha beszélünk valakivel, automatikusan adaptálódunk a másik beszédsebességéhez. Ha a partner alapból gyorsabban beszél, akkor én is kicsit gyorsabban fogok, és ugyanez fordítva. Ezt sem tudják még a gépek, pedig ezek mind olyan dolgok, amik nagyon fontosak lennének ahhoz, hogy az emberek elfogadják a szintetizált hangot.

Siri
Szóval ezek miatt nem hangzik teljesen természetesnek mondjuk a Siri?

Persze. Kéne tudnia módosítani a stílusát témakörönként. Sok olyan szintetizátor van, ami egy két mondat erejéig nagyon jó, de ha meg kéne hallgatni egy A/4 oldalnyi szöveget, akkor a végére már falra másznánk tőle. Mert determinisztikus módon működnek: ha ugyanazt adom be, akkor mindig ugyanaz is fog kijönni. Egy idő után az agyunk rátanul erre a szabályrendszerre, és elkezd hiányozni az a természetesség, ami az emberi nyelvben megvan.

Egy olyan egyszerű dolgot, mint a “jónapot kívánok”-ot sem mondom ki kétszer ugyanúgy. Ez a változatosság pedig nagy értéke a beszédnek.

Dr. Németh Géza
Dr. Németh Géza. Fotó: Horváth Domonkos
Miért nem tud még magyarul a Siri?

Ezt az Apple-től kéne megkérdezni, konkrétabban Alex Acero-tól, aki most a Siri programnak a vezetője. Ismerem is egyébként, egy spanyol születésű kolléga. De lehet hogy ő sem tudna válaszolni, mert ő kutatás-fejlesztési szakember. Egy ilyen kérdést gondolom a marketingesek döntenek el, tehát ebben nem tudok nyilatkozni, mert nem az én kompetencia területem.

Arról viszont tudok, hogy egy magyar Siri műszaki, tudományos háttere már megvan. Tehát meg lehetne csinálni egy magyar változatot, de azt a cég dönti el, hogy akarja ezt, vagy sem.

Persze nem egy egyszerű fordítási folyamatról van szó, mert bizonyos címkézett adatbázis és szöveg kell. A kérdés, hogy mennyi energiát és pénzt ölnek bele, hogy tényleg jó legyen.

Alex Acero
Alex Acero (jobbra)

Lehet hallani, hogy a multik úgy fejlesztenek magyar nyelvre, hogy felvesznek 1-2 nyelvészt, aki lehetőleg nem érti a technológiát mélyen. Azt nem akarják, hogy a know-how-t kivigye, így a beszédes funkciókra is őket alkalmazzák, mert nem értik a technológiát. Velük összeraknak valamit, ami nagyjából működik, majd kipipálják, hogy megvan magyarra is. Itt lehet persze, hogy van kivétel, de akikről én tudok, azokat mind így alkalmazták.

A világnak van mondjuk 7 000 nyelve, ebben a magyar benne van az első 100-ban az anyanyelvi beszélők számát tekintve, valahol a 65-70-75 hely körül, tulajdonképpen egész jól állunk. De szó sincs róla, hogy a cégek összemérhető színvonalon csinálnák meg mondjuk az első száz nyelvet, nagyjából az első 5, vagy jó esetben 10 nyelvvel foglalkoznak. De ezeket sem az anyanyelvi beszélők, hanem a GDP alapján választják ki.

Pedig az Apple-nél, már az elejétől kezdve sok energiát toltak a területbe. Ha jól emlékszem a ’80-as évek óta minden termékükben volt beszédfelismerő és beszédszintetizátor is. Van egy-két kutatójuk, akiket én is ismerek, ők tényleg nagyon jók.
Apple Macintosh

Nem lehetséges, hogy a magyar nyelv nehézségei miatt nem jelent még meg magyarul?

Érdekes, gépi szintézis szempontjából a magyar nyelv egyáltalán nem nehezebb, mint az angol, sőt.

Igaz, beszédfelismerésben viszont sokkal komplikáltabb. Az angol fonémakészlet összetettebb mint a magyar, sok átmeneti, elharapott jellegű hanggal.

Az angol szintézis azért nagyon nehéz, mert az embereik is rengeteg féleképpen beszélik. Több dialektus van, csak Londonon belül is. Persze a magyarnak is vannak nyelvjárásai, de azt lehet mondani, hogy a köznapi magyar beszéddel nincsenek megértési problémák.

A beszédfelismerésnél viszont előjön a magyar ragozó jelleg, és a szabad szórend is. A beszédfelismerő rendszerek valószínűségi alapokon dolgoznak, tehát betippelik, hogy általában milyen hangok és szavak követik egymást. Míg az angolban ez kötött, a magyarban nem.

Siri

Az elsők között csináltunk nyelvstatisztikákat 2002 körül. Elsősorban azért, hogy legyen valamilyen mérték a nyelvek komplexitására, egy egyszerű szám. Magyar, angol és német anyagokat hasonlítottunk össze.

Egy 100 millió szavas adatbázist (ami akkor nagynak számított, ma már nem nagy dolog), 97,5%-ban lefedett 20 000 angol szóalak. Amikor a ’90-es évek elején csináltunk egy vizsgálatot magyar időjárás-jelentésekre, csak abban 13 000 szóalak volt. És ez csak az időjárás-jelentés. Összehasonlításként, amikor kaptunk egy párszáz millió szavas magyar adatbázist, körülbelül 2 millió különböző szóalakot találtunk. És még így sem volt reprezentatív a vizsgálat, mert túl kicsi volt az adatbázis.

A Siri a beszédszintézis szakmai szempontjából jó minőségűnek számít?

Átlagosnak mondanám. De ezt nem lehet önmagában megítélni, mert rengeteg egyéb komponense van. A Sirinek a beszéd tulajdonképpen csak egy felület, amin keresztül az információt továbbítja. De emellett rengeteg minden van még benne: hol a kocsma, benzinkút, repülőtér, az időjárás stb.

Ettől függetlenül a Siri sem más, mint egy kereső, ami megpróbál releváns találatokat adni, hogy ne ezer találatot kapjunk, hanem mondjuk csak ötöt.

Dr. Németh Géza
Dr. Németh Géza. Fotó: Horváth Domonkos
Miért álltak most annyira rá az intelligens asszisztensekre a cégek?

Minden multi óriási energiákat, pénzt és marketinget fektet bele a területbe. Majdnem mindenhol ahol előadást tartok, felhozom ezt a témakört. A hardvergyártók bajban vannak. A PC, laptop, tablet eladások nagyjából stabilak már. Aki akart az vett, most már csak valamilyen gyakorisággal cserélgetnek a felhasználók. A mobilban volt a növekedés, de jövő évre azt jósolják, hogy ez is meg fog szűnni. Gyakorlatilag minden 12 évnél idősebb embernek lesz mobilja. A tőzsdei világ viszont folyton növekedést vár el.

A plafon elérésével, ugye meg fog szűnni a hardveres növekedés. Elkezdték a szoftverboltokat, mert abból viszonylag stabil bevétel van. De ezek is gyakorlatilag telítődtek már. Az, hogy 1 millió 500 ezer vagy 1 millió 600 ezer alkalmazás van a boltban már nem igazán érdekel senkit. Látszik is, hogy az összes hardvergyártó elkezdett mindenféle egyéb területre kinyúlni. Az Apple is már nem csak telefonnal, hanem órával, autóval is foglalkozik például.

Másrészt a mobil lett a legszemélyesebb tárgy. Ez emberek ma már a jegygyűrűjüket messzebb rakják le az ágytól éjszaka, mint a mobiljukat.

Amazon Echo
Amazon Echo, benne Alexa

A személyi asszisztens pont ezért lehetne érdekes. Nagyon sok időt töltünk a mobillal, de csak ugyanannyi percünk van, mint évekkel ezelőtt, amivel gazdálkodhatunk az ébrenlét alatt. Ott látják az üzleti lehetőséget, hogy létrehoznak egy köztes réteget, ami a különböző alkalmazásokat, – amiket most külön-külön indítunk, és külön-külön kezelünk és viszünk bele adatokat – automatikusan kezeli.

A mintapélda, amit egy Microsoftos kolléga mutatott egy konferencián, az volt, hogy a levelezőrendszer, mondjuk Gmail, észreveszi hogy november 20-ára foglaltam egy repülőjegyet. Ezt megjegyzi, beírja a naptáramban, majd 19-én szól, hogy ugye tudom, hogy holnap utazni kell. Másnap, mondjuk egy megbeszélésem alatt, az asszisztens figyeli a repülőjáratot, majd a GPS pozíciómból és a forgalmi adatokból kiszámolja, hogy mikor kell elindulni ahhoz, hogy még időben be tudjak checkolni. Ez lenne az intelligens asszisztens víziója.

Windows Cortana
Cortana, a Windows asszisztense

Ettől a Siri még azért odébb van, de én úgy gondolom, ez szerencse. Most még különböző alkalmazások kezelik a személyes adatainkat.

De abban a pillanatban, amikor minden adat összeköttetésre kerül, és aztán ezzel egy alkalmazás azt csinál, amit akar, az veszélyes.

Persze üzletileg érthető: akinek az asszisztense nyerni fog, tulajdonképpen az lesz a globális nagyúr. Ő fogja eldönteni, milyen alkalmazást kér be az ilyen-olyan funkciókra, ami után bőven kérheti a pénzt.

Érdekes, az emberiség milyen lassan tanulja meg: amikor azt mondják, hogy ingyen kapsz valamit, akkor kell a legjobban figyelni, mert olyankor vernek át. A Google ezt az üzemmódot tökélyre fejlesztette. Úgymond ingyenes, csak közben éppen adod a legszemélyesebb adataidat, amivel ő majd tud kereskedni utána. Valószínűleg sokkal nagyobb bevételre tesz szert így a cég, mintha az adott funkcióért fizetnék x forintot naponta.