imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

A Lightning csatlakozó olyan mint a köldököd

Így tisztíthatod meg

siri

A magyar Siri nyomában – interjú (1. rész)


Felkerestük Dr. Németh Gézát, a BME docensét, hogy segítsen kideríteni miért nem ismeri anyanyelvünket az Apple virtuális asszisztense. Rengeteg érdekes választ kaptunk, olyan sokat, hogy két cikk is született belőle. Íme az első rész.

Az Apple saját fejlesztésű személyi asszisztense, a Siri, már elérhető iPhone-ra, Apple Watch-ra és most már Mac-ekre. Viszont a legtöbb magyar felhasználónak problémát jelent, hogy az asszisztens nem ért a szép magyar szóból.

Vannak akik szerint ez az Apple lustasága miatt van ez így, de vannak olyanok is, akik a magyar nyelv bonyolultságára gyanakodnak. Kíváncsiak voltunk mi lehet az igazság, ezért felkerestük Dr. Németh Géza egyetemi docenst, a Budapesti Műszaki és Gazdaságtudományi Egyetem (BME) Távközlési és Médiainformatikai Tanszékének munkatársát.

Dr. Németh Géza
Dr. Németh Géza

Ő a vezetője a tanszéken található Beszédkommunikáció és Intelligens Interakciók Laboratóriumának (SmartLab), ahol többek közt beszédszintetizátorokat, gépi szövegfelolvasókat és ember-gép interfészeket kutatnak, fejlesztenek.

Munkájukkal a mindennapokban is találkozhatunk. Ők fejlesztették a Keleti-pályaudvar hangosbemondójának beszédszintetizátorát, de őket kérték fel Stephen Hawking robotbeszélőjének magyar szinkronhangjának elkészítésére is, A Mindenség elmélete című filmhez.

Keleti-pályaudvar
Mivel foglalkoznak a SmartLab-nél?

A nevünk elég pontos. A beszéd kutatásával, vizsgálatával indultunk. Ez a profil aztán később kiterjedt arra, hogy intelligens interakciókat hozzunk létre bármilyen okos platformon. Legyen szó akár okostelefonról, okostévéről, okosrobotról vagy akár okosautóról. De majd ha lesz okos cipő, vagy okos alsónadrág azokra is. Minden okosplatformmal foglalkozunk, amivel kapcsolatba kerülünk.

Ahogy nőnek a felhasználási irányok, úgy nyitunk mi is. Emiatt együttműködünk más területekkel, hogy viszonylag összetett rendszereket hozzunk létre. De az alap, ahonnan elindultunk, az a beszéd. Ebben vannak a legmélyebb kutatási tapasztalataink, eredményeink.

Robotokkal is foglalkoznak?

A rendszereinket most már több mint 30 éve használják nagyon különböző emberek. Emiatt is kutatjuk az ember-robot interfész témakört, amiben én a robotra úgy tekintek, mint valamilyen okos eszközre. Tehát azzal, hogy a robot hogyan navigál, vagy találja meg az akadályokat, már nem én foglalkozom.

robotok

De ha mondjuk egy kórházban fekvő beteg gyereket egy robottal tudunk motiválni arra, hogy beszedje a gyógyszert, akkor az már a mi témánk. A gép gesztusai, a beszéde, és esetleg ezek szinkronizálása.

Mondana egy példát arra, mit lehetne fejleszteni?

Például már 2003-ban csináltunk – másokkal együttműködve – egy szoftverboltot okostelefonra. Ennek a demó alkalmazása volt egy SMS felolvasó, aminek semmiféle internetkapcsolatra nem volt szüksége. Fura is számomra, hogy azóta sem oldották még ezt meg normálisan telefonokra. Nagyjából persze tudják, de igazán használhatóan nem.

Egy egyszerű dolog: egy ilyen rendszer figyelje, ha le van halkítva a telefon, és ne kezdje el felolvasni az SMS-t. Volt is ebből kellemetlen helyzetem. Letöltöttem egy demó alkalmazást, de éppen siettem egy megbeszélésre, ahonnan ráadásul el is késtem. Erre a telefon elkezdte felolvasni az egyik üzenetemet. Nagyon kellemetlen volt (nevet).

SMS
Hogy néz ki egy beszédszintetizátor fejlesztése?

Igazából alig tér el az átlagos szoftverfejlesztési módszertantól. A legfontosabb, hogy tudjuk, kik lesznek a felhasználóim, mik a fő szempontjaik, és mi az a probléma, amit meg akarok oldani.

Minden mérnöki alkotást végső sorban az ítél meg, hogy a végfelhasználóknak mi a véleménye róla.

Klasszikus dolog, hogy hiába tökéletes a fázis- és frekvenciamenete egy hangfalnak, ez a végfelhasználót nem fogja érdekelni. Csak az, hogy jól szól vagy nem jól szól. Persze ez erősen szubjektív dolog, de azért nagy átlagban kijön, hogy mi az, amit szeretnek az emberek, és mi az amit nem.

Abban én nem hiszek, hogy valaha is készülni fog olyan gépi rendszer, ami minden ember minden problémájára automatikusan választ tud majd adni. Ilyen ember sincs. Persze voltak, akik ezt gondolták magukról Nérótól Hitlerig, de annyira azért nem jött be nekik. Általában azok a dolgok szoktak működni, amik figyelembe veszik a peremfeltételeket, majd ezeken belül próbálnak valamilyen célra optimalizálni. A történelmi példáknál maradva Bethlen Gábor figyelembe vette ezeket.

Siri

Nálunk is így van ez. Ha vak embereknek akarunk rendszert csinálni, akkor teljesen más követelményeknek kell megfelelni, mint amikor vasúti pályaudvarra készítek utastájékoztatást. A vakok számára az a fontos, hogy mindig érthető maradjon a szöveg, és a felolvasás sebessége széles határok között legyen állítható. Az utastájékoztatásnál meg az a lényeg, hogy a hang nagyon rossz jel-zaj viszony mellett is jól érthető maradjon.

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva. Majd utána ezeket vonnák össze egy kalap alá, és a szoftver csak eldöntené, melyiket hívja be.

Milyen nehézségek adódhatnak mondjuk a vasutas példánál?

Ilyen helyeken sok egyéb kérdés is felmerül. Például sokat vitatkoztunk arról, hogy egy magyar pályaudvari utastájékoztatásban milyen legyen az angol rendszer. Elvárt-e, hogy egy angol anyanyelvű személy beszéljen? És ha angol, akkor milyen? Brit? Amerikai? Melyik változat?

Dr. Németh Géza
Dr. Németh Géza

De mondhatjuk azt is, hogy nem baj, ha érezhető a bemondó magyar akcentusa, sőt, jobb ha nagyjából ugyanaz a hang beszél mindkét nyelven. Így az egész rendszer karbantartása sokkal egyszerűbb lesz. Ráadásul nagy valószínűséggel a Keleti-pályaudvaron viszonylag kevés londoni állampolgár érkezik vonattal, viszont sok román, szlovák vagy lengyel. Nem biztos, hogy olyan nagy baj, ha nincs széles dinamikájú, korrekt brit angol kiejtése a bemondónak.

Aki nem tud jól angolul, annak egy brit változat nagyon nehéz. Ők például azt mondják, hogy “train calling at Budapest”. Ezt szerintem a középfokú nyelvvizsgával rendelkezők 90%-a nem érti. Amikor a Keleti Pályaudvar rendszerét csináltuk, kérték, hogy ott is így mondja be a bemondó. Én meg mondtam, hogy nem. Azt kell mondani, hogy “stopping at Budapest”, mert ezt mindenki meg fogja érteni. Akkor is, ha a Oxford British English szerint ez helytelen, vagy legalábbis nem ez a szokásos.

A Combinókon is ezért mondja be akcentussal a bemondó a magyar nevű megállókat?

Igen, de ezzel én nem igazán értek egyet. Legalábbis én nem így csináltam volna meg. Ez szintén egy elvi kérdés. Be lehet tippelni, hogy nagyjából hogy mondaná egy brit. Viszont körülbelül azt kéne mondani, amit egy átlag magyar ember megért. Ha azt kérdezik majd a turisták, hogy hol az ‘elme utká’, akkor semelyik járókelő nem fog alma utcára gondolni.

Ezek nehéz, és nem megoldott kérdések. Ugyan ez a helyzet a navigációs rendszereknél is. Ha külföldön autózik valaki és olvassa az utca, vagy szálloda neveket, akkor a helyi ország kiejtésének vagy a felhasználó országa a kiejtésének megfelelően jelenjenek meg?

Dr. Németh Géza
Dr. Németh Géza

Nekem az a véleményem, hogy az az előnyös, ha az országban tartózkodó idegenek azt a kiejtést tanulják meg, amit a helyiek is mondanak. Mert bármilyen más helyzetben, ha a számukra adaptált kiejtést tanulják, lehet hogy nem fognak nekik tudni segíteni.

Például ez cégenként eltérő lehet. A MÁV-nál az a szabály, hogy a külföldi, magyar névvel rendelkező helységneveket magyarul mondjuk be. Például Varsó az Varsó. De, ha külföldre megy a vonat, az angol bemondásban már a helyi kiejtést mondjuk. A példánál maradva Warszawa [var’ʃava]) és nem az angol Warsaw.

A Siri esetében lehet tudni, hogy ki a színésznő, akinek a hangján megszólal az asszisztens. Ilyenkor minden mondatot felmondatnak vele, vagy egy gép szintetizálja?

Nagyon sok beszédszintézis technológia van. Én a saját szakmai életutam során legalább öt-hat teljesen különböző típusnál tartok. Persze mindegyik az emberi beszédből indul ki.

Susan C. Bennett
Susan C. Bennett, a Siri női hangja

Az úgynevezett parametrikus szintézis esetén, kivonunk valamilyen jellemzőket a beszédből, majd ezeket generáljuk újra egy bizonyos szabály szerint a szövegből. Tulajdonképpen meghajtunk egy rendszert, ami a paraméterekből beszédhangot állít elő.

Ennek az eljárásnak volt az első képviselője az úgynevezett formáns szintetizátor. Steven Hawking jellegzetes “hangja” például pontosan ilyen technológia.

Már vagy 35 éves, de ő a mai napig ezt használja, mert már annyira azonosult vele. Pedig mára már sokkal emberibben hangzó lehetőségek is vannak, az elég robotos, de legalább jól érthető.

Egy robotba valószínűleg jobb is ez a megoldás. Egy robotnak robotosan kell beszélnie. Ha túl emberszerű, akkor uncanny valley (ijesztőnek találjuk azokat a robotokat, amik majdnem olyan mint az ember, de mégsem – a szerk.) jelenség miatt zombiként észlelik a felhasználók, mert teljes emberi nem tud lenni, de megpróbál.

Susan C. Bennett
Susan C. Bennett, a Siri női hangja

A második technológia, amit valószínűleg a Sirinél is használnak (nyilván mindig változik, csak nem mindig dokumentálják), az az elemösszefűzéses technológia. Ilyenkor egy ember felolvas bizonyos mennyiségű szöveget. Ebből egyes elemeket kivágnak, majd összefűznek. Persze nagyon sokféle megoldási mód létezik. Ha kicsi az adatbázis gépiesebb, ha nagyobb akkor kevésbé. De ha egy adott témakört teljesen lefed, akkor abban nem nagyon lehet megkülönböztetni az emberi bemondástól.

Ezzel lehet jó marketing dolgokat is csinálni. Egy nevezetes politikusnak fölvettük 15 percnyi hanganyagát valamelyik rádió archívumából, majd készítettünk rá egy szintetizátort. Olyan szövegeket is ki lehetett mondatni a hangján, amilyeneket ő valószínűleg soha életében nem mondott. Nagyjából 30 emberből 20 fel szokta ismerni, pedig ez csak pár percnyi adatbázisból épült. (Nekünk volt szerencsénk meghallgatni az említett anyagot, megdöbbentően jól felismerhető volt egy korábbi miniszterelnökünk hangja – a szerk.)

Az interjú második részét itt olvashatjátok.

Akár 100 000 Ft kedvezmény
Apple Inc. (AAPL)

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? ... - Klikk ide!