Основен Иновация Новият ИИ на Google за преобразуване на текст в реч е толкова добър, че се обзалагаме, че не можете да го разберете от истински човек

Новият ИИ на Google за преобразуване на текст в реч е толкова добър, че се обзалагаме, че не можете да го разберете от истински човек

Вашият Хороскоп За Утре

Можете ли да кажете разликата между генерираната от ИИ компютърна реч и истинското живо живо същество? Може би винаги си мислил, че можеш. Може би обичате Алекса и Сири, но вярвате, че никога няма да объркате нито един от тях с истинска жена.

Нещата са на път да станат много по-интересни. Инженерите на Google усилено са създали система за преобразуване на текст в реч, наречена Такотрон 2 . Според a хартия те публикуваха този месец, системата първо създава спектрограма на текста, визуално представяне на това как трябва да звучи речта. Това изображение се поставя чрез съществуващия алгоритъм на Google WaveNet, който използва изображението, за да произведе изключително естествена звучаща човешка реч.

Пернел Робъртс възраст при смъртта

Използвайки този метод, изследователите съобщават: 'Нашият модел постига среден резултат на мнение (MOS) от 4,53, сравним с MOS от 4,58 за професионално записана реч.' (Средната оценка на мнението е телекомуникационен термин, който измерва колко вярно в живота звучи нещо.)

Както демонстрират аудио пробите на Google, Tacotron 2 може да открие от контекста разликата между съществителното „пустиня“ и глагола „пустиня“, както и съществителното „настояще“ и глагола „присъстващ“ и съответно да променя произношението си. Той може да постави акцент върху думи с главни букви и да приложи правилното наклонение, когато задава въпрос, вместо да прави изявление.

И може да генерира текст, който звучи толкова подобно на човешката реч, че е трудно или невъзможно да се разбере разликата. Ако искате да видите колко е трудно, посетете Google страница за аудио проби и превъртете надолу до последния набор от проби, озаглавен „Tacotron 2 or Human?“ Там ще намерите Tacotron 2 и реално лице, което казва изречения като „Това момиче направи видео за червилото на Междузвездни войни“.

СПОЙЛЕР ПРЕДУПРЕЖДЕНИЕ: За да се тествате, изслушайте пробите и познайте кое е кое, преди да прочетете останалата част от тази колона.

И така, кои проби са преобразуване на текст в реч и кои са истински човешки глас? Инженерите на Google не казват, но са оставили много голяма следа. Всеки от образците на .wav файл има име на файл, съдържащо или термина „gen“ или „gt.“ Въз основа на статията е много вероятно „gen“ да показва реч, генерирана от Tacotron 2, а „gt“ е истинска човешка реч. („GT“ вероятно означава „истината на земята“, термин за машинно обучение, който в основата си означава „истинската сделка“.)

Ако приемем, че това е правилно, ето отговорите на теста:

на колко години е мат франко

'Това момиче направи видео за червилото на Междузвездни войни.'

Пример 1: Истински човек

Проба 2: Такотрон 2

„Тя получи докторска степен по социология в Колумбийския университет“.

Проба 1: Такотрон 2

Пример 2: Истински човек

„Джордж Вашингтон беше първият президент на САЩ“.

Проба 1: Такотрон 2

Пример 2: Истински човек

нетната стойност на Елизабет Бъркли за 2016 г

'Прекалено съм зает за романтика.'

Пример 1: Истински човек

Проба 2: Такотрон 2

Колко получихте правилно? И наистина ли бихте могли да различите разликата, или просто трябваше да познаете?