imagazin arrow2-left arrow2-right arrow2-top arrow-up arrow-down arrow-left arrow-right cart close dossiers education fb instagram menu notification oander rss rss-footer search service shuffle speech-bubble star store stores tests twitter youtube

A jövő megérkezett!

Az Apple bemutatta az iPhone X-et

Ez a cikk több mint egy éve nem frissült. Kérjük, vedd figyelembe, hogy ennek tükrében a tartalom mára már idejétmúlt lehet.

Az Apple és a mesterséges intelligencia


Napjainkban egyre több területen tör utat magának a mesterséges intelligencia és a gépi tanulás alkalmazása. Persze nem Skynet-szintű dolgokra kell gondolni, hanem például olyan, elsőre apróságnak tűnő funkciókra, mint például az iOS-ben található Siri app ajánló.

Egyre több olyan véleményt lehet hallani, hogy a techcégek következő nagy dobása a mesterséges intelligencia és a gépi tanulás lehet. Aki kimarad, lemarad – és míg például a Google köztudottan sok energiát fektet ebbe a területbe, az Apple-ről nem sokat hallani. Ami nem azt jelenti, hogy egyáltalán ne zajlanának fejlesztések ezen a területen, sőt.

Az Apple hagyományosan nem nagyon beszél a terveiről, vagy a háttérben zajló fejlesztésekről, a cég hosszú távú elképzeléseiről. Az utóbbi időben azonban a korábbiaktól eltérően számos interjút adnak a Cupertinóban dolgozó felső vezetők, és mintha sokkal kevésbé burkolózna a cég a titokzatosság homályába. Nemrég a mesterséges intelligenciával kapcsolatos fejlesztéseikről beszélgettek Steven Levy-vel, a Backchannel szerkesztőjével.

Jól jelzi azt, hogy mennyire nem nyilvános ez a terület az Apple-nél, hogy 2014. július 30-án a Siri „agyátültetést” kapott. Gyakorlatilag teljesen kicserélték a korábbi megoldást egy neurális hálózatokat használó rendszerre. A felhasználók elsőre nem vehettek észre semmit, de a háttérben már egy gépi tanulással és konvolúciós neurális hálózatokkal felvértezett új Siri válaszolgatott a kérdésekre. A változások azonban Eddy Cue szerint megdöbbentőek voltak:

Ez a dolog olyan jelentős ugrás volt, hogy újra el kellett végeznünk az ezzel kapcsolatos teszteket, mert nem voltunk biztosak benne, hogy valaki nem tett-e rossz helyre egy tizedesvesszőt.

A fentiek még az ezzel foglalkozókat is meglephetik. Az Apple annyira a háttérben ügyködött ezeken a fejlesztéseken, hogy a legtöbben úgy gondolták, nem is fordít különösebb figyelmet erre a területre. Egészen a közelmúltig nem vettek fel neves embereket a mesterséges intelligencia területéről, nem voltak a közösség tagjai. A többi játékos viszont azt gondolta, hogy ha jelentős erőfeszítéseket tennének ezen a területen, akkor arról biztosan hallottak volna.

Nos, kiderült, hogy nem azért nem hallottak, mert nem foglalkoznak vele, hanem azért, mert az Apple-től jól megszokott módon a saját útjukat járják. Hogy ez kifizetődő lesz-e hosszú távon, azt egyelőre nem tudhatjuk, de Levy-nek megmutatták, hogy is állnak most ezen a téren, és milyen termékekben használják a technológiát. A szokásos hármassal (Eddy Cue, Craig Federighi, Phil Schiller) valamint két Siri-kutatóval (Tom Gruber, Alex Acero) találkozhatott a cupertinói főhadiszálláson.

Craig Federighi és Alex Acero
Craig Federighi és Alex Acero

Az Apple-féle „agy” nem csak a Siriben található meg. Az iOS-ben például számtalan funkció használja: amikor egy telefonszám nincs benne a névjegyzékben, de a korábbi levelezések alapján kiírja a rendszer, hogy kihez tartozhat. Amikor megtippeli, hogy milyen alkalmazásokat készülünk megnyitni – ez utóbbi nekem például nagyszerűen működik, teljesen hozzászoktam már. Amikor emlékeztetőt kapunk egy időpontról, amit sosem írtunk be a naptárba. Amikor megmutatja az iPhone-unk, hogy hol parkoltuk le a kocsit, vagy amikor a térképen kereséskor egyből feltűnik a hotel, ahová foglaltunk. Ezek mind a gépi tanulás és neurális hálózatok területén végzett fejlesztéseknek köszönhetők.

Sőt, sokkal jobban meghatározzák az egész Apple-ökoszisztémát, mint elsőre gondolnánk. Így szűrik ki például az App Store-csalásokat, és ezzel növelik a készülékek akkumulátoridejét is. Rengeteg visszajelzést kapnak a szoftverek bétaverzióiról, de hogyan szűrik ki, hogy melyek a legrelevánsabbak? Hát így. Így dönti el az Apple Watch is, hogy csak sétálgatunk vagy edzünk. Ezzel ismeri fel az iOS arcokat a képeken, és így készít rövid videókat a fotóinkból. Az Apple szerint több vetélytársuk is rendelkezik ilyen megoldásokkal, de közben egyikük sem védi olyan szinten a személyes adatokat, mint ők.

A mesterséges intelligencia egyébként nem újdonság az Apple számára, már a ’90-es években foglalkoztak a területtel, mégpedig a Newton kézírás-felismerése esetében. Persze elsőre nem értek el túl nagy sikereket – korai mémek születtek a hibákról –, de később sikerült meglepően jó eredményeket elérni. Tulajdonképpen a Newtonban használt megoldások jelentették az iOS kínai karakterfelismerő rendszerének az alapjait, de az Apple Watch watchOS 3-mal érkező új kézírás funkcióját is a gépi tanulással foglalkozó csapat fejlesztette. Phil Schiller szerint:

Az elmúlt öt évben ez a terület nagyot nőtt az Apple-ön belül. Az eszközeink egyre gyorsabban lesznek egyre okosabbak, különösen mióta a saját tervezésű A chipjeinket használjuk. A háttérfolyamatok sokkal okosabbak, gyorsabbak, és minden amivel foglalkozunk, valamiért összeköthető egymással. Ez egyre több gépi tanulási technikára ad lehetőséget, mivel rengeteget tanulhatunk a számunkra elérhető dolgokból.

Eddy Cue
Eddy Cue

Szóval, az Apple igen is komolyan veszi ezt a témát. Egyes szakértők azonban azt mondják, előbb-utóbb elkerülhetetlenül hátrányba fognak kerülni – sőt, akár már most is abban lehetnek, bár a titokzatosságuk miatt ezt nehéz megítélni. Mégpedig azért, mert nem rendelkeznek saját keresőmotorral. A Google a kereséseknek köszönhetően elképesztően sok információhoz jut a felhasználókról, és akkor a különböző szolgáltatásokról nem is beszéltünk. Nem veszik ugyan hasonlóan szigorúan a privát szféra védelmét, mint az Apple, de ez ebben az esetben előnyt jelent.

Levy-nek egyébként meglepő módon azt is elárulta Craig Federighi, hogy mennyi helyet foglal az iPhone-unkon az a dinamikus cache, ami lehetővé teszi a MI-vel kapcsolatos funkciók működését: 200 MB-ot. Itt tárolják az alkalmazáshasználattal, másokkal való kapcsolattartással, egyebekkel kapcsolatos információkat, a régebbi adatokat pedig folyamatosan törlik. Ezek titkosítva vannak, és  teljesen privátok.

Az is érdekes, ahogy az ezzel foglalkozó emberek eloszlanak a cégen belül. Másoktól eltérően nincs egy külön „szentélye” a mesterséges intelligenciával és gépi tanulással foglalkozó csapatnak, sőt, szigorúan véve csapat sincs. A cég különböző területei együttműködnek a kérdésben, az adott problémától függően derül ki, hogy ki is fog foglalkozni az egyedi fejlesztésekkel. Azt Federighi nem árulta el, hogy pontosan hányan vannak („sokan”), de azt igen, hogy nagyon sokszínű a csapat:

Olyan embereket veszünk fel, akik nagyon jók az olyan alapvető területeken, mint a matematika, statisztika, programozás, kriptográfia. Kiderült, hogy ezek a fő elemek nagyszerűen használhatók a gépi tanulás területén. Igaz, hogy manapság tényleg sok embert veszünk fel ezen a konkrét területen, de emellett olyanokat is keresünk, akik tehetségesek a megfelelő alapvető készségek terén.

Eddy Cue azt is elárulta, hogy 20-30 viszonylag kis céget vásároltak meg, elsősorban azért, hogy megszerezzék az ott dolgozó embereket. Olyanokat keresnek, akiknek a felhasználói élmény is kulcsfontosságú. A legutóbbi ilyen szerzemény a seattle-i Turi volt, amihez állítólag 200 millió dollárért jutottak hozzá. A hírek szerint a Turi gépi tanulási rendszere a Google-féle TensorFlow-hoz mérhető. Azt persze nem árulták el, hogy mik a céljaik vele, valószínűleg 2-3 év múlva lesz látható az eredmény, mint a 2013-ban felvásárolt izraeli Cue esetében is. Phil Schiller szerint:

Itt az Apple-nél végtelen hosszú a szuper ötletek listája. A gépi tanulásnak köszönhetően mondhatunk igent olyan dolgokra, amikre az elmúlt években nemet kellett mondani. Részévé vált annak a folyamatnak, melynek során eldöntjük, hogy milyen termékeket készítsünk a jövőben.

Az arcfelismerés az iPhone-on például a gép tanulásnak köszönhető.
Az arcfelismerés az iPhone-on például a gépi tanulásnak köszönhető.

Az is lehet, hogy egy egészen más területen hasznosítják majd, ott, ahol nem is számítunk rá. Erre jó példa az iPad Próhoz Apple Pencil. Hogy jön össze a ceruza és a gépi tanulás? Hát úgy, hogy a tenyerünk érintését a kijelző ennek segítségével szűri ki. Ha ez nem működne tökéletesen, akkor nem lett volna értelme megcsinálni a Pencilt, hiszen egy rossz termék lenne.

Azt valószínűleg sokan tudják, hogy az Apple első mesterséges intelligenciához köthető terméke, a Siri is egy felvásárlás eredménye volt. A projekt gyökerei egy intelligens asszisztensekkel foglalkozó DARPA-programra vezethetők vissza, néhány itteni tudós állt össze és alapított egy céget később, ahol is elkezdték a Siri app fejlesztését. Az alapítókat Steve Jobs győzte meg arról 2010-ben, hogy „adják el magukat” az Apple-nek, ennek első eredménye pedig a 2011-ben az operációs rendszer részeként debütáló Siri lett. A Siri azóta nem csak az asszisztens, akivel beszélgethetünk, hanem számos más funkció alapjául is szolgál.

Tom Gruber volt az eredeti alapítók egyike, és ő az, aki azóta is az Apple-nél dolgozik a Siri-fejlesztőcsapat vezetőjeként (a többiek a megjelenés után elmentek). Élénken emlékszik még, hogy mit mondott neki annak idején Steve Jobs:

Steve azt mondta, hogy egyik pillanatról a másikra egy tesztprojekt, egy alkalmazás helyett több százmillió felhasználóhoz fogunk eljutni, bétatesztelés nélkül. Hirtelen felhasználóink lesznek. Elmondják, hogyan mondanak dolgokat az emberek, mik relevánsak az alkalmazásunk szempontjából. Ez volt az első forradalom. Aztán jöttek a neurális hálózatok.

Siri neurális hálózattá alakítása akkor indult be igazán, amikor jó néhány MI-szakértő érkezett az Apple-höz, köztük Alex Acero. Vagyis ő igazából visszatért, ugyanis már a ’90-es években az Apple-nél dolgozott a beszédfelismerésen, aztán a Microsoft kutatócsoportjába ment át. A Siri megjelenése után döntött úgy, hogy ismét az Apple-nél akar dolgozni:

Nagyon szerettem a Microsoftnál lenni, számtalan tanulmányt adtam ki. De amikor megjelent a Siri, azt mondtam magamnak: itt a lehetőség, hogy valósággá váljanak a neurális hálózatok, többé annál, mint amiről néhány száz ember olvas, olyanná, amit milliók használnak.

Tom Gruber és Alex Acero
Tom Gruber és Alex Acero

Amikor visszatért, az Apple még egy külső cégtől (a Nuance-tól) licencelte a beszédfelismerési technológiát, azóta azonban sajátot fejlesztettek. Federighi elárulta, hogy ezt így szokás a cégnél. Ha kiderül, hogy egy technológia kulcsfontosságú a későbbi termékek szempontjából, akkor elkezdik házon belül fejleszteni, hogy pontosan azt a felhasználói élményt nyújthassák, amit szeretnének. Ezért a Siri esetében beröffentettek egy nagyon durva GPU-farmot, rengeteg adatot dolgoztak fel, majd 2014 júliusában szépen csendben kicserélték Siri agyát. Acero szerint változás azonnal látható volt:

A hibaszázalék az összes nyelv esetében egy vagy két nagyságrenddel csökkent, sok esetben több mint két nagyságrenddel. Ez a gépi tanulásnak köszönhető, és annak, ahogy optimalizáltuk – nem csupán magát az algoritmust, hanem az egész kontextust, a terméket elejétől a végéig.

Ha a keresőmotor hiánya, és a szigorú adatvédelmi elvek miatt hátrányban is van az Apple a mesterséges intelligencia területén, egy valami egészen biztosan előnyt jelent a számukra. Ez pedig az, hogy a termékek fejlesztése során az összes lépés egy kézben van: ők készítik a hardvert (egészen a processzortervezésig) és a szoftvert. A Siri-csapat kéréseinek megfelelően optimalizálhatják az A-processzrok egyes elemeit, sőt, a iPhone tervezésébe is beleszólásuk van. Federighi elárulta:

Nem csak a processzor a lényeg. Arról is szó van, hogy hány mikrofont építünk egy eszközbe, hova helyezzük el azokat. Hogyan finomhangoljuk a hardvert és a mikrofonokat, valamint a szoftvert, ami a hang feldolgozásáért felelős. Mintha egy koncertet adnának ezek a részletek. Ez hihetetlen előnyt nyújt azokkal szemben, akik csak készítenek egy szoftvert, aztán megnézik, mi történik.

A Siri következő állomása – az, hogy tanul a felhasználóktól – tette lehetővé a jelenlegi Apple TV piacra dobását is. Bár sajnos itthon nem érhetők el ezek a funkciók (legalábbis nem egyszerűen), ennek köszönhető az, hogy az Apple TV-n a Siri nem csak konkrét filmekre tud keresni, hanem emberi nyelven elmondott kéréseket is megért: például, hogy mutasson olyan jó thrillereket, amiben Tom Hanks szerepel.

Az iOS 10 megjelenésével végül Siri hangja is át fog alakulni a gépi tanulásnak köszönhetően. Itt szintén egy korábban licencelt megoldást váltanak le. Jelenleg egy hatalmas hangmintából dolgoznak, és a különböző elemeket összefűzve kapjuk meg a jól ismert, kicsit robotszerű hangot. Ezen javít a gépi tanulás, melynek köszönhetően sokkal közelebb kerül a valódi emberi hangsúlyozáshoz és beszédhez a Siri által megszólaltatott hang. Gruber szerint a jobb hang sokkal nagyobb változást hozhat, mint gondolnánk, mert az emberek jobban megbíznak egy jobb minőségű hangban. Ennek köszönhetően többet használják, ami persze segíti a gépi tanulást is – egy öngerjesztő folyamat.

Nem csak ez ösztönözheti a felhasználókat a Siri gyakoribb használatára. Az iOS 10-ben a fejlesztők is lehetőséget kapnak, hogy kiaknázzák az Apple személyi asszisztensében rejlő lehetőségeket. Eddig legfeljebb néhány tucat külső alkalmazás tudta használni a Sirit – egyedi megállapodások alapján –, ami messze elmarad az Amazon-féle Alexa 1000 körüli külső fejlesztőktől származó képességétől. Az Apple szerint nem érdemes összehasonlítani a két rendszert, mivel az Alexa esetében konkrét hangparancsokat kell használnunk a természetes nyelv helyett.

Eddy Cue szerint az is fontos lenne, hogy kicsit jobban kommunikálják a felhasználók felé, hogy már most is rengeteg funkciót tud a Siri, amit nem feltétlenül ismerünk. Erre a saját példáján jött rá:

A lekérdezések száma folyamatosan nő. Szerintem jobb munkát végezhetnénk a képességek kommunikációjával kapcsolatban. Például én nagyon szeretem a sportokat, Sirit pedig megkérdezheted, hogy szerinte ki fog nyerni egy adott meccset, és ő válaszol. Még én sem tudtam, hogy van ilyen funkciónk!

Visszatérve az Apple legnagyobb problémájára: fontosnak tartják az adatvédelmet. A felhasználóik személyes adatait úgy titkosítják, hogy még a cég se férhessen hozzá ezekhez. Egy korábbi Apple-alkalmazott – aki azóta egy MI-vel foglalkozó cégnél dolgozik – elmondta Levy-nek, hogy a gépi tanulásban a legfontosabb az adat. Az Apple-nél éppen ezért olyan volt ezzel foglalkozni, mintha az egyik keze hátra lenne kötve az embernek. Szerinte pont ezért terjedt el a köztudatban az, hogy nem szentelnek különösebben nagy hangsúlyt ennek a területnek.

Az Apple Watch fitneszfunkciói szintén gépi tanulást és mesterséges intelligenciát használnak.
Az Apple Watch fitneszfunkciói szintén gépi tanulást és mesterséges intelligenciát használnak.

Craig Federighi szerint nem ez a helyzet. Pont azon dolgoznak, hogy megmutassák a többieknek, igenis lehet úgy gépi tanulást és mesterséges intelligenciát fejleszteni, hogy közben a felhasználók magánélethez való joga sem sérül. Az alapvető probléma egyértelmű: ha az Apple sem fér hozzá a felhasználói ilyen adataihoz, akkor hogyan tudná azokkal tanítani a mesterséges intelligenciáját?

Az Apple szerint sikerült megoldani a problémát – részben annak köszönhetően, hogy a hardvert és a szoftvert is ők készítik. A legszemélyesebb adatok nem hagyják el a készüléket, végig csak helyben használják fel őket. Így működik például az ajánlott alkalmazások rész, a teljes folyamat és a számítások a készüléken zajlanak. Ugyanez a helyzet a QuickType billentyűzethez szükséges adatokkal, vagy egy beszélgetéssel. A rendszer felismeri a mintázatokat amiket elemeznie kell, a telefonon tárolt 200 MB-os tudásbázis alapján. Federighi beszélt kicsit a működéséről:

Ez egy kompakt, ugyanakkor nagyon részletes tudásbázis, több százezer helyszínnel és bejegyzéssel. Lokalizált változatai vannak, mivel tudjuk, hogy hol vagy. Az Apple összes alkalmazása használja, például a Spotlight, a Térképek vagy a Safari, és segít az automatikus javításban is. Folyamatosan fut a háttérben.

Ez részben meg is oldja a problémát, a tanuláshoz, és ahhoz, hogy a rendszer egyre több szokást fedezzen fel azonban nem elég egyetlen felhasználó viselkedése. Ezt részben – például az iOS 10-ben bemutatkozó fotófelismerés esetében – nyilvánosan elérhető adatbázisokkal hidalta át az Apple. De sok esetben olyan információkról van szó, amit csak a saját felhasználói bázis adhat. Itt az Apple azzal próbálkozik, hogy a begyűjtött adatok semmiféleképpen ne legyenek összeköthetők az egyénekkel.

Ez a módszer az úgynevezett differenciális adatvédelem (differential privacy). Federighi szerint évek óta dolgoznak ezen a módszeren, ami most szintén az iOS 10-ben debütál majd. Nagy vonalakban elmagyarázta Levy-nek, hogy mitől is annyira biztonságos, aki megjegyzi, hogy hirtelen alig tudta követni a folyamatot, annyira bonyolult – pedig ő kriptográfiai szakember, könyvet is írt a témában. A lényeg nagyon leegyszerűsítve az, hogy matematikai zajt tesznek az adatok egyes elemeibe, így az Apple anélkül fedezheti fel a mintázatokat, hogy a konkrét felhasználók kilétét tudná. A differenciális adatvédelem létező fogalom volt korábban is, az Apple azonban a kutatások szintjéről egymilliárd felhasználó szintjére emelte.

Levy a beszámolóját azzal a gondolattal zárja, hogy az egyértelmű, hogy a gépi tanulás megváltoztatta az Apple termékeit, a kérdés az, hogy vajon magát a céget is megváltoztatja-e. Az Apple az a cég, amelyik nagyon szigorúan kézben tartja a felhasználói élményt, vajon hagyják-e, hogy a szoftverek „találjanak ki” egyes megoldásokat? Federighi szerint:

Ez sok belső vita forrása. Ahhoz szoktunk hozzá, hogy nagyon jól végiggondolt, rendszerezett felhasználói élményt nyújtsunk minden szinten, ahol az eszköz kapcsolatban van a felhasználóval. Amikor elkezdesz tanítani egy rendszert az emberi viselkedésből származó rengeteg adattal, az eredmények nem feltétlenül azt mutatják, amit az Apple dizájnerei meghatároztak. Ez az, ami kijön az adatokból.

Phil Schiller szerint ez azonban nem akadályozza meg őket semmiben, továbbra is arra fogják használni a mesterséges intelligenciát és a gépi tanulást, hogy a termékeiket fejlesszék:

Ezek a technikák ugyan egyértelműen hatással vannak arra, hogyan tervezel meg valamit, végül is azért használjuk őket, hogy még jobb termékeket hozzunk létre. A tipikus felhasználó számára a gépi tanulást napi szinten úgy fog megnyilvánulni, hogy mi az, amiért szeret egy Apple-terméket. A legizgalmasabbak azok az esetek, amikor nem is gondolsz rá, egészen addig, amíg már harmadszorra nem látod. Ekkor megállsz egy pillanatra, és azt kérdezed magadtól: »Hogyan is működhet mindez?«

 

Forrás és képek: Backchannel.

Mac akció
Apple Inc. (AAPL)

Ezt már olvastad?

A Sirinek ez is az egyik baja, hogy mindenki a célközönség. Valószínűleg hatékonyabb lenne, ha először jól működő modulokat hoznának létre egy-egy funkcióra szabva.

Miért nem ismeri anyanyelvünket az Apple virtuális asszisztense? ... - Klikk ide!