AI KLAUSĪJOS CILVĒKU BALSIS. TAD TAS RADĪJA VIŅU SEJAS.

Send

Vai esat kādreiz izveidojis garīgu tēlu no personas, kuru nekad neesat redzējis, balstoties tikai uz viņa balsi? Mākslīgais intelekts (AI) tagad to var izdarīt, ģenerējot personas sejas digitālu attēlu, atsaucei izmantojot tikai īsu audio klipu.

Neironu tīklu - datoru, kas "domā" līdzīgi kā cilvēka smadzenes - ar nosaukumu Speech2Face, zinātnieki apmācīja miljoniem izglītojošu video no interneta, kas parādīja vairāk nekā 100 000 dažādu cilvēku runājošu.

No šīs datu kopas Speech2Face uzzināja asociācijas starp balss norādēm un noteiktām cilvēka sejas fiziskajām īpašībām, pētnieki rakstīja jaunā pētījumā. Pēc tam AI izmantoja audio klipu, lai modelētu fotoreālistisku seju, kas atbilstu balsij.

Rezultāti tika publicēti tiešsaistē 23. maijā pirmsdruka arXiv, un tie nav salīdzinoši pārskatīti.

Par laimi, AI (vēl) precīzi nezina, kā izskatās konkrēts indivīds, pamatojoties tikai uz viņu balsi. Neironu tīkls runā atpazina dažus marķierus, kas norādīja uz dzimumu, vecumu un etnisko piederību, iezīmēm, kuras kopīgi daudziem cilvēkiem, ziņo pētījuma autori.

"Tādējādi modelis radīs tikai vidēja izskata sejas," rakstīja zinātnieki. "Tas neradīs konkrētu personu attēlus."

AI jau ir parādījis, ka tas var radīt neskaidri precīzas cilvēku sejas, lai gan tās kaķu interpretācija, atklāti sakot, ir nedaudz drausmīga.

Speech2Face ģenerētās sejas - visas saskaras ar priekšpusi un ar neitrālām izteiksmēm - precīzi neatbilda cilvēkiem, kas atrodas aiz balsīm. Bet saskaņā ar pētījumu attēliem parasti bija jāatspoguļo pareizais indivīdu vecuma diapazons, etniskā izcelsme un dzimums.

Tomēr algoritma interpretācijas nebija tālu no perfektajām. Speech2Face demonstrēja "jauktu sniegumu", saskaroties ar valodas variācijām. Piemēram, kad AI noklausījās kāda Āzijas vīrieša, kurš runā ķīniešu valodā, audio klipu, programma izveidoja Āzijas sejas attēlu. Tomēr, kad tas pats vīrietis runāja angliski citā audioklipā, AI radīja baltā cilvēka seju, ziņoja zinātnieki.

Algoritms arī parādīja dzimumu novirzes, zemas balsis saistot ar vīriešu sejām un augstas skaņas ar sieviešu sejām. Un tā kā apmācības datu kopa atspoguļo tikai izglītojošus videoklipus no YouTube, tā "nepārstāv vienlīdzīgi visus pasaules iedzīvotājus", rakstīja pētnieki.

Citas bažas par šo video datu kopu radās, kad kāda persona, kas bija parādījusies YouTube videoklipā, bija pārsteigta, uzzinot, ka viņa līdzība ir iekļauta pētījumā, ziņoja Slate. Niks Sulivivans, interneta drošības kompānijas Cloudflare kriptogrāfijas vadītājs Sanfrancisko, negaidīti pamanīja savu seju kā vienu no piemēriem, ko izmanto Speech2Face apmācīšanai (un kuru algoritms bija diezgan reproducējis).

Sullivans nebija piekritis parādīties pētījumā, taču saskaņā ar Šīfera teikto šajā datu kopā esošie YouTube videoklipi tiek plaši uzskatīti par pieejamiem pētniekiem, neiegūstot papildu atļaujas.

Send