A legnagyobb zajban is képes kiszűrni az emberi beszédet a Google gépagya

A gépek eddig nem voltak különösebben sikeresek abban, hogy különféle beszédhangokat szűrjenek ki nagyobb tömegben – elég csak arra gondolni, hogy mi történik akkor, ha valaki egy házibuli közepén, hangos zene közepette beszél egy virtuális asszisztenshez.

A Google ezen a problémán kíván javítani egy saját megoldásával: olyan mélytanulásos rendszert fejlesztettek, ami képes kiszűrni a beszédet a zajos környezetekben úgy, hogy közben az emberek szájáról is “olvas”. Egészen pontosan vizuális jeleket keres a beszélő arcán, gesztusokat, szájmozgásokat.

Az eredményt egy videón is megnézhetjük, amin két humorista beszélget a harsogó tömegben. A szoftver képes csak az egyik beszédét kiemelni olyan módon, hogy a férfi arcára összpontosít, a hangsávról pedig minden más zavaró hangot leválaszt. A feladatot akkor is sikeresen teljesíti, ha az előadó arca részben el van takarva saját kezével, vagy a mikrofonjával.

A Google jövőben számos termékében tervezi majd a technológia felhasználását: a Hangouts és Duo nevű csetprogramokban a videóhívásokat fejlesztené így, aminek köszönhetően érthetőbbé válnának azok a csoportos beszélgetések, amelyekben a résztvevők zajos helyszíneken jelentkeznek be.

Leave a Reply