Vlad Sejnoha beszél a televíziójához. Lehet, hogy ezt más is megteszi, csak éppen az övé hallgat is arra, amit mond. “Dragon (Sárkány) TV! – mondja a képernyőnek Sejnoha. “Keress Meryl Streep-filmeket!” Egy-két másodperc, és legördül egy lista, amelyen az Első szerelemtől az Egyszerűen bonyolultig számos filmcím szerepel. “Dragon TV! Kapcsolj a CNN-re!” – hangzik a következő utasítás, és megjelenik a hírcsatorna.
Sejnoha egy lakás nappalijának látszó helyiségben ül, amely valójában a hangtechnológia vezető cégének, az Apple IPhone 4S virtuális személyi asszisztense, a Siri hangfelismerő rendszerét is kifejlesztő Nuance Communicationsnek egyfajta laboratóriuma. Sejnoha, a cég technológiai főnöke és más vezetők itt tervezik a “felhangosított” jövőt, amelyben már nemcsak okostelefonok és televíziók, gépkocsik és számítógépek reagálnak az emberi hangra, hanem kávéfőzők, hűtőgépek, termosztátok, riasztórendszerek, s egyéb okos berendezések és szerkezetek.
Ezek a rendszerek máris kezdik megváltoztatni az ember és környezete egymásra hatásának módját, valamint a technológiáról alkotott elképzeléseinket. Végül is eddig csak egymással beszéltünk. Mi lesz, ha beszélni kezdünk mindenféle géphez is, és azok – akárcsak a Siri – emberi módon válaszolnak?
Komoly kihívást jelenthetnek majd
Tény, hogy az emberek Thomas Edison fonográfja óta beszélnek gépekbe. Az 1980-as évekre a kereskedelmi beszédfelismerő rendszerek elég fejletté váltak ahhoz, hogy képesek legyenek írott szövegbe áttenni a beszédet. Ma a hangtechnológia sok vállalat ügyfélszolgálatának elengedhetetlen része, igaz, néha őrjítő része.
A verseny azonban most már annak eldöntéséért zajlik,hogy ki tudja először a közénk és technológiánk közé építhető, keresett új közvetítő elemmé tenni a hangot. Az eredmények olyan újításokkal vetekednek, mint a számítógépes egér és a grafikus ikon, és egyes szakértők szerint idővel komoly kihívást jelentenek majd olyan óriásoknak is, mint a Google, mert helyettesíteni tudják a hagyományos keresőmotorokat.
A hangtechnológiában a massachusettsi Burlingtonban működő, az ágazat úttörőjének számító Nuance-é a vezető szerep, amely több mint 40, ezen a területen működő vállalatot olvasztott magába, és jelenleg 7300 embernek ad munkát. Egyike azoknak a cégeknek, amelyek segítettek megtenni a nagy technológiai ugrást a diktálást fogadó programoktól azokhoz a rendszerekhez, amelyek kihámozzák a szavak értelmét, és válaszolnak rájuk.
A Nuance néhány technológiája ma már több mint 50 nyelven beszerezhető. Ügyfélszolgálati rendszerét olyanok cégek alkalmazzák, mint az Air France, a US Airwas, a Deutsche Bank és az ABN Amro. Gépkocsiba épített hangrendszerei megtalálhatók Fordokban, Toyotákban és Nissanokban. A cég hangpostaüzenetet írott szöveggé változtató programját használják egyebek mellett telekommunikációs óriások, köztük a Telefónica, a Vodafone és a Telstra.
“A Microsoft, a Google vagy az Amazon megfelelői egy nagyon szűk technológiai területen” – magyarázta Andrew Rosenberg, a Queens College komputertudomány adjunktusa.
Egy napon felforgathatja a piacot
Mint sok új technológiának, a fejlett hangrendszernek is vannak hátrányos vonásaik. Néhány szakértő aggódik a privát szférába történő behatolás miatt, mások azért, mert attól tartanak, hogy egyre inkább a rabjaivá válunk olyan eszközöknek, mint az okostelefonok.
“Az emberek hajlamosak rá, hogy a beszélő berendezéseknek úgy válaszoljanak, mintha rokonlelkek volnának – érzékeltette Sherry Turkle, a Massachusettsi Műszaki Egyetem (MIT) professzora, aki a tudomány és a technika társadalmi vonatkozásaival foglalkozik. – Nem azt mondom, hogy a hangfelismerés rossz. Csupán arra akarok figyelmeztetni, hogy nem árt óvatosan bánni a tárgyakhoz való kötődésünkkel, mert különben sok darwini gombot nyomhatunk meg a pszichénkben.”
Mindössze egy évtizeddel ezelőtt a hanggal vezérelt virtuális asszisztens inkább a tudományos-fantasztikus irodalom világába tartozott, mintsem hogy üzleti tény lett volna. 2000-ben azonban Paul Ricci, a Xerox korábbi vezetője már azt jósolta, hogy a hangszoftver egy napon úgy felforgathatja a piacot, ahogy az egér és az számítógép képernyőjén megjelenő ikonok tették az 1980-as években.
“Idejében el kellett döntenünk, hogy melyek azok a piacok, amelyeken sikeresen bevezethetjük a technológiát” – húzta alá Ricci, aki ma a Nuance vezérigazgatója.
A Nuance, illetve akkor még a ScanSoft agresszív felvásárlásba kezdett. Megszerezte a Dragon NaturallySpeaking nevű asztali diktálórendszert és tucatnyi, a hangtechnológia különböző területein működő kis céget. Legértékesebb szerzeménye a versenytárs Nuance volt, amely a kaliforniai Menlo Parkban működő Stanfordi Kutatóintézetből (S.R.I.) vált ki. Az egyesült vállalat Nuance néven működött tovább. (Az S.R.I. később kifejlesztette a Sirit, amelyet 2010-ben az Apple vett meg.) A Nuance jövedelme 2011-ben 1,3 milliárd dollár volt, és úgy tűnik, hogy a tőzsde is elégedett a működésével: részvényeinek ára februárban 31,15 dolláros rekordot ért el, ami mintegy a kétszerese a tavaly augusztusi 15,59 árfolyamnak.
Problémákat vet fel
Nem mindenki rajong azonban a hangtechnológiáért. A magánszféra érinthetetlenségének védelmezői amiatt aggódnak, hogy ezután az ember nemcsak digitális nyomot hagy maga után – az internet és más alkalmazások használatával -, hanem hangnyomot is, és ezzel még inkább ki lesz téve az adatlopással foglalkozók támadásának.
Ismét StarTrek. Iránymutatás a múltból a jövőbe ;)