imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Milyen lesz a MacBook Pro 5 év múlva?

Az iMagazin koncepciója a Ti elképzeléseitek alapján!

Suttogj Siri fülébe, aki lágy, búgó hangon válaszol majd


Ez nem valami intim jelenet szövegkönyve egy készülő ember-gép XXX filmből, Siri-vel a főszerepben, hanem a lehetséges jövő. Az Apple azon dolgozik, hogy suttogva is beszélgethessünk a virtuális személyi asszisztenssel. Hülyeségnek hangzik, de bizonyos esetekben tényleg jól jönne. Nem mellesleg pedig nagyon komoly szakmai kihívás.

Első hallásra elég bizarrnak tűnhet a “digitális asszisztens, ami képes suttogva válaszolni” című, 2016-ban beadott, de csak most publikált szabadalom. Mégis ki az a perverz, aki a virtuális személyi asszisztensével akar sugdolódzni? Pedig ez nem aberráció, tényleg hasznos lehet a funkció egy csomó helyzetben.

Például, ha könyvtárban vagy múzeumban kérdeznél valamit. Vagy ha nem akarod, hogy az egész busz azt hallgassa, hogy a telefonoddal próbálsz alkudozni, ami nem hajlandó átkapcsolni a következő számra. Esetleg ha a párod már alszik, de te mondjuk még lekapcsoltatnád Sirivel az előszoba világítását. Nyilván nem olyan dolog, amire égető szükség van, de azért ha meg tudják oldani, akkor miért ne.

A kulcsot itt a “ha meg tudják oldani” problémakör jelenti. Ugyanis a suttogást sem automatikusan felismerni, sem produkálni nem olyan könnyű. Az Apple elképzelése szerint a beszédhang-hullámok amplitúdóját (hangerő) és frekvenciamintázatát (valószínűleg a beszéddallamra gondolnak itt) elemeznék, ezekből a paraméterekből ítélve állapítanák meg, hogy a felhasználó suttog-e.

Ha igen, akkor a tervek szerint Siri is halkan válaszolna. Sőt, nem is csak simán halkan, hanem körülbelül olyan hangerővel, mint ahogy a felhasználója kérdezte. Ehhez viszont kelleni fog majd egy “suttogás beszédmodul” is az asszisztens beszédszintetizátorába, ugyanis suttogni nem csak annyit tesz, hogy halkabban beszélünk. Akit érdekel az ilyen, annak egy kicsit részletesebben a továbbiakban.

A suttogás egy elég speciális hangképzési módja az embernek. Normális beszédnél a hangszalagjaink három állásban állhatnak. Az egyik az úgynevezett zöngeállás, ilyenkor produkáljuk a zöngés mássalhangzókat és a magánhangzókat. A másik a szűk légzőállás, amikor a zöngétlen mássalhangzók vannak terítéken (ilyenkor nem rezegnek be a hangszalagok), végül pedig van még a h-állás, ami csak a h hang kiejtésének sajátja.

A vonalak a hangszalagok “szélei”, köztük áramlik a levegő. A két kis nyílszerű fehér valamik alul a kannaporcok.

Igen ám, de amikor suttogunk, akkor egyik normális hangszalagállás sincs használatban, hanem felveszünk egy negyedik, “erre a célra kialakított”, suttogóállást. Míg normális esetben a tüdőből kiáramló levegő a hangszalagok között áramlik (vagy megrezegtetve azokat, vagy nem), addig suttogóállásban a hangszalagok teljesen összezárnak, és az “őket vezérlő” kannaporcok közt keletkezik rés. Épp emiatt teljesen megváltozik a suttogott beszéd akusztikai szerkezete.

A normálisan ejtett “Hey Siri” parancs, utolsó két beszédhangjának (ri) hullámformája és hangszínképe. A különböző színű pontok és vonalak azt jelölik, hogy a gép detektálni tudott akusztikai jellemzőket (beszéddallam, formánsok, periódusok stb.).

Például hiányozni jóval zörejesebbé válik a beszéd, hiányozni fog a zönge és természetesen a hangerő is csökkenni fog (ráadásul különböző frekvenciatartományokban eltérő mértékben) – általában ugye ez is a célja a suttogásnak. Szóval Sirinek, ha suttogni szeretne, nem lesz elég csak a hangerejét csökkenteni, még ezt a teljesen különböző beszédképzést is meg kellene tanulnia szimulálni. Az biztos, hogy nem lesz egyszerű feladat.

Na meg pont ezért a suttogás detektálása sem. Értelemszerűen a folyamat oda-vissza működik, azaz ha a felhasználó suttog, akkor az ő beszédakusztikai jellemzői is megváltoznak majd. A beszédnek pedig a legkönnyebben elemezhető, leginkább megfogható, és legtöbb információval rendelkező része a gépek számára pont a zöngés hangok. Itt lehet mérni például alaphangmagasságot, és formánsértékeket, amelyek nagyban meghatározzák, hogy milyen dallammal, milyen hangokat ejtett az emberünk.

A suttogott “Hey Siri” parancs utolsó két beszédhangjának (ri) hullámformája és hangszínképe. Látható, hogy jóval zörejesebb, és kevésbe periodikus az egész, a gép is nehezebben tud vele mit kezdeni – ha egyáltalán.

De mint ahogy fentebb írtam, pont ezek a zöngés hangok nem igazán érvényesülnek. Épp ezért a suttogott beszédet rettenetesen nehéz gépileg (sokszor még emberileg is) detektálni. Mert valóban, az intenzitás és a frekvenciamenetek elemzésével talán képes lehet Siri felismerni azt, hogy suttogtak, de azt hogy MIT, már aligha.

Egyszóval van még kihívás bőven ebben a projektben, de ha tényleg meg tudják csinálni, akkor le a kalappal…

0% THM 20 hónapra

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? - Klikk ide!