imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Kipróbáltuk az iPhone XS Max-ot

Megnéztük hogyan teljesít hosszabb távon!

Milyen a tökéletes asszisztens hangja?


Természetesen digitális értelemben vett asszisztensről van szó, és ha jobban belegondolunk, a kérdés nagyon is releváns. Valamilyen hangon ugyanis mindenképpen meg kell szólalnia, és baromira nem mindegy, hogy az milyen benyomást kelt a hallgatókban.

Aránylag régóta jelen vannak a szintetizált beszédhangok a mindennapjainkban, nem kellett hozzá bevárni az okostelefonok korát. Ott vannak a vasút állomásokon, a telefonos menükben, szövegfelolvasókban és még számtalan egyéb helyen. Amiben Siri és később kollégái változást hoztak, az a dinamikus, interaktív jelleg volt. Bár nem tűnhet túl nagy váltásnak, valójában elég lényeges gondolkodásbeli rekalibrációt igényelt a felhasználók részéről.

Innentől kezdve ugyanis párbeszédbe, azaz egy korábban csak ember-ember relációban értelmezhető interakcióba léptünk a gépekkel. Ez pedig óhatatlanul is ad némi humán jelleget a digitális asszisztenseknek. Innen nézve pedig nagyon sok múlik azon, hogy hogyan is beszél hozzánk az a bizonyos másik fél, még akkor is, ha tulajdonképpen csak egy algoritmusról van szó.

Vonatkozó kötelező “irodalom”: a Her című film.

A beszélgetőpartner hanghordozása rengeteg non-verbális információval lát el minket. Ebből próbáljuk leolvasni, hogy a másik hogyan viszonyul hozzánk (szeret, utál, lenéz), sokat elárul a felek hiearchiájáról, dominanciaviszonyairól (utasító hangnem, főnökösködő stílus), hangulatállapotáról és még számtalan minden másról.

Aztán ott vannak még az emberben természetesen élő sztereotípiák. Vannak bennünk élő elképzelések arról, hogyan beszél egy művelt, egy arrogáns, egy iskolázatlan partner. Egy része tehát kulturális beágyazottság a dolognak. Könnyű belátni, hogy a hallás, és a másik hangjának az elemzése ösztönös, elemi képességünk. Nem véletlen szokás mondani a várandós anyukáknak, hogy nyugodtan beszéljenek, énekeljenek a magzathoz – lehet, hogy nem értik, de segítik a kötődés kialakításában, információval látja el a születendő gyermekeket.

Míg az emberek hangja alapvetően genetikailag kódolt, a hangszínt leginkább a vokális traktus biológiai sajátosságai szabják meg, addig a gépeknél, a szintetizált beszédnél mi adjuk meg a paramétereket. Adja magát a kérdés, hogy a fentiek alapján milyen benyomást akarunk kiváltani a hallgatóban az asszisztenssel.

Legyen „okos“ hangja? Legyen tudálékos? Vagy jobb kedvelnénk, ha szolgalelkű, alázatos lenne, hogy érezzük mi vagyunk a főnökök? Egyáltalán hasonlítson az emberi hangszínre, vagy maradjon robotos, hogy jól elválasztható legyen a két kategória? Az asszisztenseket fejlesztő mérnököknek számtalan olyan szociológiai, pszichológiai szempontot kell figyelembe venniük, amikre alapvetően nem is gondolnánk.

Az Engadget elbeszélgetett egy kicsit Teri Danz beszédtechnika tanárral, aki korábban több híresség hangját is edzette már, hogy meséljen róla, mire kell figyelni egy asszisztens hangjának kialakításakor, milyen benyomást kelt Siri. A válaszokból meglepően érdekes kép alakult ki arról is, hogy az Apple milyen korosztályra kalibrálja a Sirit.

Itt van például a fentebbi összeállítás a Siri hangjáról a 2015, 2016 és 2017-es évekből. Ahogy haladunk az időben, jól hallhatóan magasabb, „világosabb“ lett az Apple asszisztensének hangja. Ez Danz szerint az emberek fejében egy energetikusabb, optimistább, nem mellesleg pedig fiatalosabb benyomást kelt.

A magasabb alaphangmagasság sokkal kevésbé parancsoló, inkább barátságosabb, melegebb hatást kölcsönöz a női hangnak a legtöbb generáció számára, különösen az ezredforduló körül születetteknek.

A szakember kitér rá, hogy manapság – mint minden más – az is rendkívül gyorsan változik, hogy milyen elvárásai vannak a hallgatóknak a szintetizált beszédhangokkal kapcsolatban. Változik, hogy mit találunk kellemesnek és mit idegesítőnek. Szerencsére a technológia mára már bőven van olyan fejlett, hogy gyorsan adaptálódni tudjon ezekhez az igényekhez – a gyártóknak egyben feladatuk is ezek kielégítése, különben lemaradnak a versenyben.

Modernitás ide vagy oda, Clifford Nass és Scott Brave tanulmánya alapján kijelenthetjük, hogy kulturálisan még mindig a hagyományos társadalmi berendezkedés az uralkodó. A Stanford Egyetem két kutatója úgy találta, hogy a férfiak alapvetően jobban kedvelik a férfi hangú asszisztenst, ahogy a nők is inkább az azonos nemű hangot pereferálják. Érdekes módon viszont, amikor a gép által adott utasításokra kerül a sor, akkor mindkét nem a férfinak hangzó asszisztens beszédet hajlamosabbak elfogadni, még akkor is, ha a női változat tartalmilag pontosan ugyanazt mondja.

Arról, hogy milyen hangszínt találunk kellemesnek Rebecca Kleinberger az MIT kutatója beszélt:

A csontvezetésnek köszönhetően jobban és hangosabban halljuk a saját hangunk mélyebb összetevőit, mint a magasakat. Valószínűleg ez játszik szerepet abban is, hogy legtöbbünk nem szereti hallani a saját hangját felvételről; és amiért mind egy kicsit jobban szeretjük a mélyebb hangokat a magasaknál.

Talán ennek köszönhető az is, hogy amikor 2013-ban a kutatók lemérték Siri alaphangmagasságát azt találták, hogy az asszisztens 21%-kal mélyebben beszél mint a női átlag.

Általános elmondható, hogy az emberek azt várják el az asszisztensektől, hogy segítséget nyújtsanak a hétköznapokban és nem azt, hogy parancsolgassanak. Nagyon vigyázni kell rá tehát a fejlesztés során, hogy ennek még a látszatát is elkerüljék. Hogy ez, hogyan lehetséges? Hát rengeteg teszteléssel. Ez nem egy olyan dolog, amit a tudomány a semmiből meg tudna határozni, eszméletlen mennyiségű percepciós tesztet kell elvégezni a hallgatóságon, hogy megtalálják az ideális jelöltet.

És, hogy az milyen? Alex Acero, a Siri beszédéért felelős vezetője így nyilatkozott a Wirednek adott interjújában:

Ez a rész több művészetet igényelt, mint tudományt. Olyan hangot kerestünk, amelyben benne van az a megfoghatatlan segítőkészség és bajtársiasság; ami pimasz anélkül, hogy túl éles lenne; ami úgy tud vidám lenni, hogy közben nem nevetséges.

Forrás: Engadget

Ha nem tudod, miért olyan nehéz megtanulnia annak a nyamvadt Siri-nek végre magyarul, ebből az interjúból mindent megtudhatsz.

iPad Pro 2018

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? - Klikk ide!