0

Искусственный интеллект научился имитировать человеческий голос

Искусственный интеллект научился имитировать человеческий голос
Компания Baidu представила обновленную систему преобразования печатного текста в человеческую речь Deep Voice. Новая версия умеет быстро создавать цифровые копии голосов людей, а также менять женский тембр на мужской и наоборот. Чтобы синтезировать голос, ей необходимо изучить записи с речью реальных людей, учитывая манеру произношения.

Deep Voice работает на основе машинного обучения: она «тренировалась» на звуковой записи, длящейся более 800 часов и включающей в себя около 2400 разных голосов. Для эффективной работы нейросети нужно около 100 пятисекундных звуковых сигналов, при этом она может обмануть системы распознавания голоса с помощью всего десяти пятисекундных семплов.

Система конвертирует текст в фонемы - самые маленькие единицы речи. После этого система преобразует фонемы в звуки, используя сеть для синтеза речи. Например, слово «Hello» система преобразует в «(тишина, HH), (HH, EH), (EH, L), (L, OW), (OW, тишина)», после чего Deep Voice произносит слово.

Оба шага работают благодаря машинному обучению и не требуют вмешательства человека. Однако система не может определять, какие звуки находятся под ударением и как долго их произносить. Этим занимаются люди, переставляя звуки и фонемы, тем самым передавая выразительность речи.

Новая версия Deep Voice довольно точно способна имитировать тембр и интонации голоса, что делает производимые им звуки неотличимыми от настоящих, и, по мнению создателей, система найдет широкое применение в совершенно разных областях. Например, она может быть использована для создания персонализированных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того, нейросеть облегчит жизнь тем, кто по каким-то причинам утратил возможность говорить. Интересно, что Deep Voice умеет менять голос, делая его мужским вместо женского или добавляя ему иностранный акцент.

Первая версия системы была разработана в начале 2017 года. В мае 2017 года вышла Deep Voice 2 со способностью копировать голоса людей с учетом особенностей произношения. Для создания копии системе было достаточно изучить получасовую запись человеческого голоса. 20 февраля 2018 года Baidu опубликовала технический документ, рассказывающий о паре новых методов обучения. Первый метод занимает больше времени, но синтезированная речь получается более похожей на человеческую. Второй работает быстро, но от этого страдает качество.

В блоге компания рассказала, что сейчас на обучение алгоритма уходит не более получаса. За это время система изучает образцы голоса говорящего и учится их имитировать. На сайте GitHub можно прослушать аудиофайлы с демонстрацией возможностей Deep Voice. Для сравнения компания опубликовала примеры клонированной речи, воссозданной на примере 5, 10, 20, 50 и 100 образцов. После 5 и 10 образцов алгоритм воспроизводит речь не слишком отчетливо. По мере обучения синтезированная речь становится все более правдоподобной. Но, как отмечает The Register, пока имитацию можно отличить от оригинала по низкому качеству звука и шумам.

По словам представителей компании, о рисках технологии пока говорить рано — алгоритм еще не умеет синтезировать речь со 100%-ной точностью. Однако в будущем Baidu планирует защитить систему от использования в преступных целях.

Также по теме