Синтез речи

Синтез речи из текста настолько плавно, и в то же время прочно, вошел в нашу жизнь, что мы порой и не знаем, что слушаем не живого человека, а компьютерный голос. Это происходит благодаря технологии Text to Speech (TTS), позволяющей формировать речевой сигнал (речь, голос) из текстовой или цифровой информации.

В настоящее время существует несколько довольно качественных голосовых машин для преобразования текста в речь. Машины представляют собой OLE объект. Соответственно для того, чтобы использовать такой объект, на вашем компьютере должна быть установлена хотя бы одна из таких машин.

Синтезаторы речи имеют свои стандартыв настоящее время основными версиями Speech API являются SAPI4 и SAPI5. Обе эти библиотеки несовместимы, но друг другу не мешают и могут работать на одном компьютере. Соответственно для программ, которые поддерживают обе библиотеки, рекомендуется установить и одну и вторую, тогда выбор голосовых движков у вас будет больше. Как правило, в операционных системах Windows XP, Vista и 7 уже есть предустановленные библиотеки SAPI5, поэтому останется установить только SAPI4, если вам это необходимо. Однако, возможны и такие случаи, когда требуется установка и SAPI5.

Удобство технологии синтеза речи состоит в том, что информация воспроизводится именно в том виде, в каком она хранится. Это позволяет существенно экономить время и ресурсы на записи звуковых файлов. Но, в силу того, что это все-таки машина, в воспроизведении зачастую присутствует оттенок искусственности – неправильные ударения, неверная интонация. В зависимости от компании-разработчика, эта проблема решается детальной настройкой голосовой машины, или установкой дополнительных корректирующих программ, идущих в комплекте.

Машины речевого синтеза различаются между собой качеством и скоростью синтеза, голосами дикторов и гибкостью настройки. Ниже представлены голосовые машины, позволяющие осуществлять синтез голоса на русском языке:

  • Прежде всего, это, конечно, voicefabric.ru от Центра Речевых Технологий. На сегодняшний день это один из лучших российских сервисов синтеза речи.
  • Сакрамент. Движок был одним из первых для русского языка, и уже технически устарел и проигрывает по звучанию более новым продуктам. Поддерживает русский язык и требует установки множества дополнительных программ и отдельных движков для работы. Эту голосовую машину вы можете приобрести, обратившись в нашу компанию, вместе с программой Call Office.
  • Фестиваль. Более новая версия, поддерживает русский язык, однако скорость генерации текста на русской существенно ниже, чем на английском.
  • Vocalizer 5. Примерная дата выпуска 2008 год. В русской версии голос – «Милена». Из минусов выделяют невозможность настройки интонаций. Из плюсов – простоту установки.
  • Acapela TTS for Windows. Последователь устаревшей машины Digalo, обновленный в конце 2008 года. Для русского языка имеются синтезаторы «Николай» и «Алёна». Есть возможность протестировать машину он-лайн на сайте компании, но это требует установки TTS Infovox Desktop 2.2 на ваш компьютер.
  • Loquendo TTS– пожалуй, самые свежие голосовые синтезаторы для русского языка «Ольга» (2008 год) и «Дмитрий» (середина 2009 года). Так же есть возможность протестировать работу он-лайн. Имеется своя программная оболочка для работы с голосом Loquendo TTS 7 Director.

Чаще других для синтеза используются продукты Loquendo, Vocalizer и Acapela, что говорит об их качестве. Примеры работы этих голосовых движков можно прослушать в блоге bloxpot.com.

В программе Call Office синтез речи используется при формировании сообщения для абонентов, как в автоответчике, так и при обзвоне.