imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Megjöttek az októberi Keynote meghívói

Kövesd velünk az eseményeket!

Nem tudod eldönteni, hogy Laurel vagy Yanny? Megmondjuk a tutit!


Ahogy az az internettel rendszeresen meg szokott esni, ismét „felrobbant“. Ezúttal nem az a kérdés, hogy a ruha kék vagy arany, hanem, hogy Laurel vagy Yanny-t mond-e a gép. A világ két táborra szakadt, mi pedig megpróbáljuk újra egyesíteni az emberiséget a tudomány eszközeivel.

Másodpercek alatt szakított be az internetet a legújabb őrület, azaz a Laurel vagy Yanny jelenség. Annak, aki esetleg átaludta volna a napot: kikerült a netre egy pár másodperces felvétel, amelyen egy beszédszintetizátor egyetlen szava hallható. A nagy rejtély, hogy mi lehet ez a szó, ugyanis a világ egyik fele szentül állítja, hogy Laurel, a másik pedig meg merne rá esküdni, hogy Yanny.

Ha még emlékeztek, körülbelül ugyanarról van szó, mint a kék vagy arany ruha esetében, csak ezúttal nem a szemünk, hanem a fülünk csinál barátból ellenséget, testvérből mostohát, szeretőből haragost.

A külföldi sajtó hamar el is kocogott különböző szakértőkhöz, hogy megfejtse a jelenséget, érkezett is mindenféle válasz, amelyek részben egyirányba mutatnak, némi megnyugvást hozva ezzel a világ életébe. Anélkül, hogy kútfőből szeretnénk eldönteni évszázadunk rejtélyét, mostani cikkünkben kicsit beszélnénk a jelenség lehetséges okairól és a figyelembe veendő szempontokról tudományos szempontból. Kezdjünk is bele!

Előfeszítés (priming)

A pszichológiában és a különböző észlelési kísérletekben (percepciós vizsgálatokban) a kutatók megfigyeltek egy úgynevezett előfeszítő, avagy idegen szóval priming hatást. Ezt nagyjából a „ne gondolj a fehér elefántra“ mondás analógiájára lehet a legjobban elképzelni. Ha úgy állsz neki egy eldöntendő kérdésnek, hogy előzetesen már van egy elképzelésed arról, hogyan fogsz ítélni, akkor jó eséllyel tényleg úgy fogsz dönteni.

Ha csak nem kimondottan a priming vizsgálata a cél, vagy ha a hatást nem akarják szándékosan kihasználni a kutatók, akkor az előfeszítő hatást általában ildomos kerülni az észlelési kísérleteknél, hiszen az negatív irányba befolyásolhatja az eredmények helytállóságát. Biztos ismeritek a következő játékot:

  • Fehér, fehér, fehér fehér, fehér, fehér, fehér…
  • Mit iszik a tehén?
  • Tejet!
Ember vagy váza?

Szokott hangzani az avatatlanok első, ösztönös válasza. Ez is az előfeszítésnek köszönhető, hiszen a fehéret (meg amúgy a tehenet is) összekapcsoljuk a tejjel, így amikor hirtelen kell válaszolnunk a kérdésre, gyorsabb a mentális hozzáférés a tejhez, mint a helyes megoldáshoz, a vízhez.

Ez az előfeszítés ráadásul nem feltétlen úgy történik, hogy tudatosítjuk is az ingert. Gondolom a mozifilmekbe vágott felvillanó Coca Cola reklámokról is mindenki hallott már. Ne, ez például a primingnak azon esete, amikor az ingerlés nem üti meg az ingerküszöböt, de az agy ettől még tudat alatt észleli a stimulust, előfeszítve ezzel a befogadót.

A Yanny-Laurel tengelyen ennek ott lehet jelentősége, hogy nagyon nem mindegy, hogy mennyire „szűz“ füllel láttál neki a hallgatásnak. Ha úgy tolta eléd a haver a laptopot, hogy „Figyi már, itt van ez a feladat és én csak a Laurelt hallom, és te?“ akkor megvan az esélye, hogy ezzel máris életbe lépett a priming hatás, te pedig akkor is Laurelt fogsz hallani, ha egyébként Yanny lett volna a te embered.

Frekvenciák sűrűjében

Remélem mindenkiben frissen élnek még a hallásról írt cikkünkben említettek, ugyanis szükség lesz rá a következőkben. Ha már megkopott a tudás, vagy kimaradt az iromány, akkor erre lehet pótolni.

A lényeg, hogy a hallásunk a levegő nyomásingadozását észleli. A nyomásingadozás pedig hullám formájában terjed a levegőben, és mint ilyen, frekvenciaösszetevőkkel rendelkezik.

Amikor beszélünk, a hangképzőszerveink biológiájából, és más sajátságokból fakadóan van egy ránk jellemző rezonancia karakterisztikánk. Ezt körülbelül úgy lehet elképzelni, hogy mindannyian egy kicsit másként megalkotott, más anyagból, más formára készített gitárok vagyunk. Ettől függetlenül, ahogy a gitár hangját is egyértelműen fel lehet ismerni, hogy gitár, úgy az emberi beszéd is feldolgozható minden halló számára akusztikusan.

Ezek a ránk jellemző rezonanciák bizonyos frekvenciákon felerősítik, máshol meg gyengítik a tüdőnkből a hangszalagokon át a szánkon (és/vagy orrunkon) kiáramló hangot. Ezeket hívjuk formánsoknak. A formánsok nem is annyira önmagukban, hanem egymáshoz viszonyítva tudnak információval szolgálni számunkra. Például a magánhangzók elég jól leírhatóak az első két formánsuk alapján (jelölésük: F1, F2). A szélső értékek (kardinális magánhangzók) egy trapéz alakú, úgynevezett magánhangzó teret hoznak létre, ezen belülre esnek a magánhangzók formánsai.

A jelenség magyarázatakor a külföldi sajtóban felmerült az az érv, hogy akik rosszabbul hallják a magasabb frekvenciákat, azok inkább a Laurelt, akik pedig jobban, azok inkább a Yanny-t hallják. Na most, az emberi hallás durván 20 Hz-től 20 000 Hz-ig terjed. A beszéd információt hordozó tartománya körülbelül 8 000 Hz-ig tart. E fölött már csak nüansznyi különbségek vannak.

A mobiltelefonok például nem is olyan régen, még a szélessávú varázslatok előtt „spórolásból“ 300 és 3 000 Hz közé szűrtek, azaz az e feletti és alatti tartományokat egyszerűen levágták. A beszéd mégis minden gond nélkül érthető volt. Ennek oka, hogy az említett első két formáns frekvenciaértéke általában jóval a 3 000 Hz alatti tartományban szokott maradni, így például a magánhangzók azonosítása gond nélkül megtörténhetett, de a többi beszédhanggal (egy-két kivételtől eltekintve) is elég jól el lehetett boldogulni.

Meggyőződésem tehát, hogy nem ez lesz a dolog nyitja. Eszméletlen súlyos halláskárosodás kell ahhoz, hogy az érthetőséget jelentősen befolyásoló tartományra szűküljön a hallás. Persze ettől függetlenül, ha nagyon határestet az adott beszédhang frekvenciája (például pont két különböző beszédhangra jellemező tartomány közé esik) számíthat az ilyesmi. Ebben a konkrét esetben viszont aligha, mivel az azonosítához szükséges kulcspozíciókban alaposan eltér egymástól a [jæni] (= Yanny fonetikus átírással) és a [lɔrəl] (=Laurel).

Hangszínképelemzés

Láthatjuk tehát, hogy a fülünket és agyunkat elég könnyen be lehet csapni mindenféle frekvenciákkal és előfeszítésekkel, illetve azt is nehéz megítélni, hogy ki milyen körülmények között, milyen eszközzel hallgatta meg a felvételt, és hogy az mennyire befolyásolta az ítéletet. Kell tehát valamilyen objektív nézőpont, amit mindez nem befolyásol. Itt jön a képbe a hangszínképelemzés.

Már így is elég hosszúra sikeredett a cikk, így nem mennék bele különösebben a részletekbe, hogy pontosan mi az a hangszínkép, és hogy mit láttok majd a screenshotokon, de azért megpróbálom – remélhetőleg érthetően – illusztrálni, miket néztünk meg.

Először is fontos leszögezni, hogy az elemzőszoftvereket a lehető legjobb minőséggel kell etetni a pontos eredményért. A szóbanforgó felvétel pedig ebből a szempontból mondhatni rettenetes állapotú és ez befolyásolhat elég sok mindent.

Mindenesetre első lépésben letöltöttem a felvételt a netről, majd átkonvertáltam a szükséges formátumra. Ezután megetettem a Praat nevezetű, kiváló hangelemző cimborámmal, aki a következő képet köpte vissza.

Ami rögtön látszik, hogy mocskosmód zajos a felvétel. Benne van az elég erős háttérsistergéstől kezdve az egérkattintásig minden. A programban ugyan van zajszűrésre lehetőség, de ez meg módosíthat a frekvenciákon, így pedig értelmét veszti az egész vizsgálódás, hiszen így nem az eredeti fájlról lenne szó. Efölött tehát szemet kell hunyni.

A szegmentumra ránagyítva viszont elkezdhetünk bizonyos beszédhangokra jellemző nyomok után kutatni. Mind a Yanny, mind a Laurel egy úgynevezett közelítőhanggal (approximáns) indít, az egyetlen különbség a kettő között, hogy a [j] palatális képzési helyű mediális approximáns, az [l] meg alveoláris és laterális. A minimális eltérésból fakadóan a kettő hangszínképe eleve nagyon hasonló, hát még ilyen minőségű felvételen, így a vita nem itt fog eldőlni.

Ami viszont nagyon feltűnő a hangszínképen, az a mély kráter a hangsor közepén, ami főleg kizoomolva látszik igazán. Látható, hogy a szomszédos hangok formánsai (vizuálisan a piros pöttyökből álló vonal) erősen egy pont felé gravitálnak, azaz a beszédhangunk „elszívja“ a formánsokat. Ez pedig olyan tulajdonság, amiben tipikusan az [r] az erős. Ha [n] állna ott az szinte alig lenne megkülönböztethető a magánhangzóktól.

Az [r] nyoma.
Plusz egy pont tehát a Laurel mellett. Rögtön jön is a következő, ugyanis a Yanny végén ugye ott figyel az [i]. Márpedig, ha magánhangzó, akkor várnánk egyfelől valamilyen periodikus jelet a zöngésség miatt, illetve az i esetébén magas F2-t és alacsony F1 értékeket. Ehhez képest azt látjuk, hogy a program nem ismert fel semmilyen periodicitást (kék vonalkák lennének a felső fekete erdőben az alsó képen) és bár a formánsok távolsága meglehetősen nagy, a mérés alapján 500 Hz fölé számolta a program az F1 értékét, ami túl magas az [i]-hez. Ettől függetlenül lehet, hogy csak a zaj az oka, ezt sajnos nem tudhatjuk.

Több mindent nem is mernék még csak tippelni sem ebből a hangszínképből, mivel a felvétel annyira zajos, hogy esetleges antiformánsok, HNR értékek és hasonló finomságok kimutatása, amelyek segíthetnék az elemzést nemcsak lehetetlen, de fölösleges is. Személyes véleményem, hogy pont a zaj okozza a félreértést. A maszkoló hatás miatt kieshetnek olyan lényeges akusztikus kulcsok az érzékelés számára, amelyek megkülönböztetnék egymástól a két hangsort. Innentől kezdve pedig már csak az számít, hogy az agy restauráló hatása mivel pótolja a kiesett részeket. Van akinek így, van akinek úgy.

Nincs kimutatható periodicitás az [i] helyén.
Ettől függetlenül én a saját fülem és a hangszínkép alapján is megveszekedett Laurel párti vagyok. Az irodán belül viszont akadnak Yanny-t favorizálók is szép számmal. Végsősoron pedig úgysem az számít, hogy mit mutat a hangszínkép, hanem hogy mit hall az ember. Aki legyen akár Jani, akár Lóri, úgyis meg lesz győződve a saját igazáról…

Kifutó MacBook Pro modellek

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? - Klikk ide!