imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

A jövő megérkezett!

Rendeld elő már most az iPhone X-et!

Így működik a “Hey Siri” funkció


Újabb publikáció jelent meg az Apple-féle Machine Learning Journal hasábjain, amelyben arról tudhattunk meg részleteket, miként működik a varázslatos Hey Siri funkció. Hihetetlen, milyen részletekre is odafigyeltek a tervezés során a szakemberek.

Az, hogy az Apple elkezdte rövid publikációk formájában megosztani a mesterségesintelligencia-kutatásait, az egyik legjobb dolog, ami az Apple technológiái iránt érdeklődőkkel történhetett. Az Apple fejlesztéseit ugyanis mindenki ismeri, sokan még használják is őket nap, mint nap, így ezek az írások úgy tudnak tudományosak lenni, hogy közben a laikus olvasók is kötni tudják valahova az információkat, nem csak egy, a valóságból kiragadott katyvasz lesz az egész. A legfrissebb cikkben például a Hey Siri funkció technikai részleteibe láthatunk bele. Nézzük is!

Hogyan működik?

Egy nagyon kicsi hangfelismerő modul folyamatosan működik és hallgatózik, mindössze két apró szó után kutatva. Miután detektálta a “Hey Siri” kifejezést, elkezdi parancs vagy lekérésként elemezni a parancsot követő beszédet. A “Hey Siri” detektor úgynevezett Deep Neural Networköt (DNN) használ arra a célra, hogy a hangod akusztikai mintázatát minden egyes időpillanatban valószínűség-eloszlással elemezze amíg a beszéd tart. Ezután az adatok felhasználva egy időbeli integrációs folyamattal kiszámolja a Hey Siri találati valószínűségét, amire egy pontszámot ad. Ha ez a pontszám elég magas, akkor Siri “felébred”.

Energiatakarékosság

Annak elkerülése érdekében, hogy a készülék fő processzora egész nap csak azért működjön, hogy megtalálja az aktiválóparancsot, az iPhone-nak (6s-től fölfelé) van egy Always On Processzora (AOP) is (egy apró, alacsony energiaigényű chip, amely a Motion Coprocessorba van ágyazva), amelynek folyamatos hozzáférése van a mikrofon bejövő jeléhez. Az AOP limitált számítási kapacitását arra használjuk, hogy futtassa a beszédfelismerő detektort, illetve a DNN akusztikai modelljének egy részét. Amikor a találati valószínűségre adott pontszám átlépi a küszöbértéket, a motion segédprocesszor felébreszti a fő processzort, amelyik elkezdi a bejövő jel elemzését a DNN egy nagyobb részének felhasználásával.

A beállítás folyamata

A beállítás során összevetünk minden lehetséges új Hey Siri kifejezést az eltárolt mintákkal a következők szerint. A detektor az időzítésről produkál információkat, amelyeket utána arra használunk, hogy az akusztikai mintázatot átkonvertáljuk egy fix hosszúságú vektorrá, az egyes állapotokhoz igazított ablakok átlagolásával. Egy különálló, speciálisan erre a feladatra tanított DNN átalakítja ezt a vektort egy úgynevezett “beszélő térré”. Az azonos beszélőtől származó minták tendenciaszerűen közelebb fognak esni ehhez a térhez, míg az eltérő beszélők mintái távolabb. A beszélőfelismerés során összevetjük az aktuálisan mért távolságot a beállítás során kimért referenciaértékkel. Ehhez a referenciaértékhez egy újabb küszöbérték tartozik, ami meghatározza majd, hogy a Hey Siri parancsot a beállítást végző beszélőhöz, vagy valaki máshoz társítja majd a rendszer.

További érdekesség még az automatikus érzékenységállítás. Ha az első pontban meghatározott küszöbtartománynak csak az alsó értékét üti meg a hangmintára adott találati pontszám, akkor bár nem fog aktiválódni a Siri a téves risztások redukálása érdekében, viszont pár másodpercre kisebb pontszámot is át fog engedni, feltéve hogy megismétlődik a Hey Siri parancs.

Ez a “második esély” mechanizmus jelentősen növeli a rendszer használhatóságát anélkül, hogy túlságosan növelné a téves riasztások számát, hiszen az az extra szenzitív állapot csak rövid ideig érvényes.

Ilyen, és még ehhez hasonló érdekességek olvashatóak a Machine Learning Journal legfrissebb cikkében, amit minden érdeklődő szíves figyelmébe ajánlunk, megéri az olvasást.

Forrás: Macrumors, iMore és Apple

Lassan érkeznek majd a HomePodok, amelyek működése nagyban támaszkodik a virtuális személyi asszisztens, és különösen a Hey Siri funkcióra. Addig is, ha Apple-ös audióeszközön akarsz csevegni Siri-vel, ajánljuk figyelmedbe az AirPods-ot, amiből most újra van készleten elég sok darab.

Mac akció
Apple Inc. (AAPL)

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? ... - Klikk ide!