Glavni Inovirati Googleova nova AI pretvaranja teksta u govor toliko je dobra da se kladimo da je ne možete prepoznati od stvarnog čovjeka

Googleova nova AI pretvaranja teksta u govor toliko je dobra da se kladimo da je ne možete prepoznati od stvarnog čovjeka

Vaš Horoskop Za Sutra

Možete li prepoznati razliku između računalnog govora generiranog umjetnom inteligencijom i stvarnog, živog ljudskog bića? Možda ste oduvijek mislili da možete. Možda su vam drage Alexa i Siri, ali vjerujete da nikada ne biste pomiješali nijednu od njih sa stvarnom ženom.

Stvari će postati puno zanimljivije. Googleovi inženjeri marljivo rade na stvaranju sustava pretvaranja teksta u govor tzv Tacotron 2 . Prema a papir objavili su ovog mjeseca, sustav prvo kreira spektrogram teksta, vizualni prikaz kako govor treba zvučati. Ta se slika stavlja kroz Googleov postojeći algoritam WaveNet, koji koristi sliku za stvaranje izuzetno prirodnog zvuka ljudskog govora.

kim wayans suprug kevin knotts

Koristeći ovu metodu, istraživači izvještavaju: 'Naš model postiže prosječnu ocjenu mišljenja (MOS) od 4,53 usporedivu s MOS od 4,58 za profesionalno snimljeni govor.' (Prosječna ocjena mišljenja je telekomunikacijski pojam koji mjeri koliko nešto zvuči stvarno.)

Kao što pokazuju Googleovi audio uzorci, Tacotron 2 može iz konteksta otkriti razliku između imenice 'pustinja' i glagola 'pustinja', kao i imenice 'sadašnji' i glagola 'sadašnji', te u skladu s tim promijeniti svoj izgovor. Može staviti naglasak na velike riječi i primijeniti odgovarajuću fleksibilnost kada postavlja pitanje, a ne daje izjavu.

A može stvoriti tekst koji zvuči toliko slično ljudskom govoru da je teško ili nemoguće znati razliku. Ako želite vidjeti koliko je teško, idite na Google stranica audio uzoraka i pomaknite se do zadnjeg skupa uzoraka pod nazivom 'Tacotron 2 ili Human?' Tamo ćete pronaći Tacotron 2 i stvarnu osobu koja izgovara rečenice poput: 'Ta je djevojka napravila video o ružu za Ratove zvijezda.'

UPOZORENJE SPOILERA: Da biste se testirali, poslušajte uzorke i pogodite koji je to prije nego što pročitate ostatak ove kolumne.

Pa koji su uzorci pretvaranje teksta u govor, a koji stvarni ljudski glas? Googleovi inženjeri ne govore, ali ostavili su vrlo velik trag. Svaki od uzoraka .wav datoteke ima naziv datoteke koji sadrži ili izraz 'gen' ili 'gt.' Na temelju rada, velika je vjerojatnost da 'gen' ukazuje na govor generiran Tacotronom 2, a 'gt' je stvarni ljudski govor. ('GT' vjerojatno znači 'temeljna istina', pojam strojnog učenja koji u osnovi znači 'stvarna stvar'.)

Pod pretpostavkom da je to točno, evo odgovora na test:

koliko godina ima karen fairchild

'Ta je djevojka snimila video o Star Wars ružu za usne.'

Uzorak 1: Pravi čovjek

Uzorak 2: Tacotron 2

'Doktorirala je sociologiju na Sveučilištu Columbia.'

Uzorak 1: Tacotron 2

Uzorak 2: Pravi čovjek

'George Washington bio je prvi predsjednik Sjedinjenih Država.'

Uzorak 1: Tacotron 2

Uzorak 2: Pravi čovjek

neto vrijednost elizabeth berkley 2016

'Previše sam zauzet za romantiku.'

Uzorak 1: Pravi čovjek

Uzorak 2: Tacotron 2

Koliko ste dobili u pravu? I biste li zaista mogli razlikovati ili ste jednostavno morali pogoditi?