imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

Elérhető az iOS 12!

Töltsd le és mondd el a véleményed!

Siri hangjának megváltoztatása


Bár sokan, főleg itthon csak elvétve használják, Siri igenis fontos tényezője az Apple terveinek. Az asszisztens hangja pedig majdnem olyan ikonikussá vált az évek során, mint a Marimba csengőhang. Pedig akár meg is tudod változtatni… Mutatjuk!

Az irodában többször is cikiztek már vele, hogy a Siri férfi hangon beszél hozzám. Rajtam kívül mindenkinek a klasszikus, eredeti női hangszín van beállítva, ami teljesen érthető is – így szoktuk meg az asszisztens. Ennek ellenére megvannak az indokaim a férfi hang mellett, még ha kicsit geeknek is hangozhat.

Már fizikai testet is kapott.

Szakmai ártalom (ezt tanulom az egyetemen), de nekem Siri elsősorban nem egy digitális asszisztens, hanem egy elég jól összerakott beszédszintetizátor (és -detektor). Márpedig mint ilyen, véleményem szerint brit férfiként teszi legjobban a dolgát és ebből nem vagyok hajlandó engedni.

A beszédszintézist különböző módokon is meg lehet közelíteni. Az ember azért tud úgy beszélni, ahogy, mert rendelkezik beszédképző szervekkel, amellyel a gépek értelemszerűen nem. Na most, ha imitálni akarjuk a természetes emberi hangzást két lehetőség áll rendelkezésünkre: vagy megpróbáljuk a beszédképző szerveket modellezni, vagy megpróbáljuk az a beszédjel akusztikai szerkezetét utánozni.

Így néz ki a beszéd hangszínképe, azaz akusztikai szerkezete digitalizálva.

Előbbire példa Kemplen Farkas híres-neves beszélőgépe, ami egyike volt az első, korai próbálkozásoknak. Azóta persze sokat fejlődött a dolog, jöttek olyan modellek, mint például a forrás-szűrő modell, aminek segítségével egy fokkal közelebb jutottunk a megoldáshoz, de egyelőre ez a kevésbé sikeres eljárás. Egyszerűen túl bonyolult leképezni az emberi biológia összetettségét – majd talán a nanotechnológia hoz némi áttörést.

Addig is marad a másik út, azaz az akusztikai produktum imitálása. Ezen belül is több megközelítés van. A forráskódolás során például a beszédjelből megpróbálják kivonni a lényegi információkat, amelyeket aztán adatsorozatként felhasználhatnak a szintézishez. Ilyen megoldás például a formánsszintézis, amivel Steven Hawking robothangjánál ti is találkozhattatok, vagy az úgynevezett Linear predictive coding, azaz LPC.

Egy másik, jelenleg talán leginkább elterjedt eljárás az elemösszefűzés. Nagyon leegyszerűsítve, ilyenkor fognak egy tényleges emberi beszélőt, felolvastatnak vele kismillió különböző mondatot. A beszédhangot ezután feldarabolják különböző méretű egységekre – hangkapcsolatokra, szótagokra, szavakra. Ezekből ezután hullámforma-elemtárakat készítenek, amelyből a szintézis során egy algoritmus összefűzi a szükséges elemeket. Tulajdonképpen tehát egy nagyon fejlett összeollózásról van szó.

Lényeg a lényeg, hogy Siri is ezzel az eljárással beszél, az ikonikus női hangot Susan Bennett kölcsönözte neki, amin persze azóta folyamatosan módosítottak, finomítottak, de még felismerhető a hasonlóság a hölgy élő interjúit hallgatva.

Innen nézve talán már jobban érthető, hogy miért is fontos – nekem legalábbis – hogy milyen hangon beszél az asszisztens: a lehetőségek közt vannak természetesebbnek, és robotosabbnak ható változatok is, a legjobb mind közül szerintem a brit férfi szintetizátora lett. Ha másért nem, tehát ezért is játszani kicsit a lehetőségekkel, amiből jelenleg összesen hat áll rendelkezésünkre.

  • Ehhez nem kell mást tennünk, mint iOS-en ellátogatni a Beállítások > Siri és keresés > Siri-beszédhang menüpontba, majd kiválasztani a számunkra kedves kombinációt.

Tényleg csak bátorítani tudok mindenkit, hogy próbáljátok ki a különböző kombinációkat, hallani fogjátok a különbséget a szintetizátorok minősége közt.

  • Macen ugyanehhez a Rendszerbeállítások > Siri menüpontjába kell a Siri-beszédhang opciók közül válogatni.

 

Váltás után a rendszer le fogja tölteni a szükséges csomagokat az internetről, ami eltarthat egy ideig. Ezt az időt érdemes azzal tölteni, hogy előhívjátok a Sirit, ugyanis ilyenkor is rendelkezésre áll egy alap szintetizátor, de annak hangja érezhetően robotosabb: ennyit számít, ha odafigyelnek a természetességre.

Siriről, a beszédszintézisről és a lokalizációs nehézségekről Dr. Németh Gézával, a BME docensével készítettünk kétrészes interjút , érdemes elolvasni, ha érdekel az ilyesmi.

BTS

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? - Klikk ide!