Obsah:
- Jak hluboké učení vytváří lidské hlasy
- Opětovné vytvoření hlasu neznělé osoby
- Vyvažování negativních použití syntetizátorů umělé inteligence
Video: Dame Tu cosita ñ (Listopad 2024)
V roce 2017 Amyotrofická laterální skleróza (ALS), devastující neurologická porucha, okradla Pat Quinna, zakladatele slavné Ice Bucket Challenge, o jeho schopnost mluvit.
Díky pokroku ve strojovém učení a hlubokém učení se algoritmy umělé inteligence staly velmi dobrými v napodobování lidí. Ale zatímco mnoho prominentních vývojů ve vesmíru bylo negativních, napodobovací síla AI byla pro Quinna sílou pozitivní změny.
„Většina lidí, kteří žijí s ALS (také známou jako motorická neuronová choroba), je paralyzovaná a neschopná komunikovat s ničím jiným než umělým hlasem„ počítače “, říká Oskar Westerdal, spoluzakladatel projektu Revoice, iniciativa, jejímž cílem je pomáhat pacientům ALS, jako je Quinn..
Abychom znovu vytvořili Quinnův hlas, Project Revoice spolupracoval s Lyrebirdem, jednou z mála společností, které používají AI klonování hlasu člověka - skupina, která také zahrnuje Google WaveNet a Voicery, startér podporovaný Y kombinátorem, který používá AI k vytváření syntetizovaných hlasových nahrávek.
Jak hluboké učení vytváří lidské hlasy
Za těmito aplikacemi jsou algoritmy pro hluboké učení, což je populární odvětví umělé inteligence, které prohledává velké sady dat pro postřehy a vzory, které nelze zachytit tradičním softwarem založeným na pravidlech. Když trénujete hlasový syntetizér hlasu s dostatečným počtem zvukových záznamů, vytvoří se digitální model, který představuje hlas osoby a může generovat nové hlasové vzorky.
Před nástupem technologie syntézy hlasu s umělou inteligencí museli pacienti ALS používat obecné digitální hlasy, které nebyly jejich vlastní. Jiné technologie by mohly spojit předem zaznamenané věty s hlasem pacienta, ale výsledky byly příliš umělé a vyžadovaly desítky hodin hlasových záznamů, aby byly minimální.
Na druhé straně aplikace pro hluboké učení vyžadují mnohem méně dat a poskytují lepší výsledky. „To, čeho může Lyrebird dosáhnout za pouhých pár hodin zvuku, je pozoruhodné - dává lidem kompletní klon digitálního hlasu, takže mohou říkat, co chtějí, “ říká Westerdal.
Opětovné vytvoření hlasu neznělé osoby
Jednou z limitů aplikací pro hluboké učení je jejich závislost na vysoce kvalitních vzorcích dat pro trénování jejich neuronových sítí. Problém s pacienty ALS spočívá v tom, že jakmile ztratí hlas, není možné nahrávat hlasové vzorky. Naštěstí měl Quinn hodiny zaznamenaných klíčových sdělení a rozhovorů.
„Největší výzvou byla kvalita. Tato technologie je zcela závislá na tom, že máme konzistentní, vysoce kvalitní nahrávky, které také sledují přesný skript - takže jsme museli pracovat se zvukovým studiem, abychom ručně„ remasterovali “a přepisovali všechny linie dialogu, které jsme našli Pat, “říká Westerdal.
"Byli jsme trochu vystrašení, že bychom nebyli schopni poskytnout skvělou kvalitu pro vytvoření Patova hlasu, " říká Jose Sotelo, spoluzakladatel Lyrebird. „Protože se nám nepodařilo získat čisté nahrávky, není konečná kvalita umělého hlasu dokonalá. Myslíme si, že s čistými nahrávkami můžeme udělat mnohem lepší práci.“
Výsledky stále zní trochu nepřirozeně a synteticky. Ale pro Quinna, který ke komunikaci používal obecný hlas, byl rozdíl dramatický. „Poté, co jsem slyšel můj hlas prostřednictvím této nové technologie, byl jsem odfouknut! Pro pacienty, kteří věděli, že mohou mít svůj vlastní hlas poté, co jej ALS odstraní, změní to způsob, jakým lidé žijí s ALS, “ říká.
Quinn doporučuje, aby pacienti ALS zaznamenali své hlasy dříve, než bude příliš pozdě. „Po opětovném vyslechnutí vlastního hlasu potřebuji pacienty ALS, aby věděli, že záznam jejich hlasu je neuvěřitelně důležitý, “ říká.
Vyvažování negativních použití syntetizátorů umělé inteligence
Začátkem tohoto roku spustila aplikace FakeApp, aplikace na výměnu obličejů s umělou inteligencí, útok na falešná pornografická videa představující celebrity a politiky. Existují obavy, že aplikace jako FakeApp a Lyrebird ohlašují nový věk falešných zpráv, podvodů a padělání.
Etická stránka na Lyrebirdově webu dříve uznala, že tato technologie může „potenciálně mít nebezpečné následky, jako jsou klamavé diplomaty, podvody a obecněji jakýkoli jiný problém způsobený krádeží identity někoho jiného“.
Abychom toho dosáhli, je na webových stránkách společnosti několik syntetických nahrávek vytvořených pomocí hlasů Donalda Trumpa a Baracka Obamy.
@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) 4. září 2017
Příběh Quinna by mohl pomoci objasnit pozitivní aspekty odvětví, které přijalo vloupání pro potenciálně strašidelné a neetické použití jeho aplikací. „Je důležité, aby si lidé uvědomili jasnou stránku této technologie, “ připomíná Lyrebird's Sotelo.
Kromě lékařského použití mohou aplikace syntetizátoru AI sloužit i jiným produktivním cílům. Voicery poskytuje značkám přizpůsobené digitalizované hlasy založené na algoritmech AI. Google také experimentuje s WaveNet a poskytuje uživatelům přirozenějšího zážitku uživatelům svých zařízení podporujících Google Assistant. Mezi další oblasti, kde je tato technologie užitečná, patří automatizace zvukových knih nebo snadnější kopírování hlasu ve filmech.
Etické a právní překážky nepochybně vyvstanou a debaty budou pokračovat. Ale pro Quinna je AI síla k dobrému. „Nechci znít jako počítač, “ říká. "Chci znít jako já."