Синтез речи из текста настолько плавно, и в то же время прочно, вошел в нашу жизнь, что мы порой и не знаем, что слушаем не живого человека, а компьютерный голос. Это происходит благодаря технологии Text to Speech (TTS), позволяющей формировать речевой сигнал (речь, голос) из текстовой или цифровой информации.
В настоящее время существует несколько довольно качественных голосовых машин для преобразования текста в речь. Машины представляют собой OLE объект. Соответственно для того, чтобы использовать такой объект, на вашем компьютере должна быть установлена хотя бы одна из таких машин.
Синтезаторы речи имеют свои стандарты - в настоящее время основными версиями Speech API являются SAPI4 и SAPI5. Обе эти библиотеки несовместимы, но друг другу не мешают и могут работать на одном компьютере. Соответственно для программ, которые поддерживают обе библиотеки, рекомендуется установить и одну и вторую, тогда выбор голосовых движков у вас будет больше. Как правило, в операционных системах Windows XP, Vista и 7 уже есть предустановленные библиотеки SAPI5, поэтому останется установить только SAPI4, если вам это необходимо. Однако, возможны и такие случаи, когда требуется установка и SAPI5.
Удобство технологии синтеза речи состоит в том, что информация воспроизводится именно в том виде, в каком она хранится. Это позволяет существенно экономить время и ресурсы на записи звуковых файлов. Но, в силу того, что это все-таки машина, в воспроизведении зачастую присутствует оттенок искусственности – неправильные ударения, неверная интонация. В зависимости от компании-разработчика, эта проблема решается детальной настройкой голосовой машины, или установкой дополнительных корректирующих программ, идущих в комплекте.
Машины речевого синтеза различаются между собой качеством и скоростью синтеза, голосами дикторов и гибкостью настройки. Ниже представлены голосовые машины, позволяющие осуществлять синтез голоса на русском языке:
Чаще других для синтеза используются продукты Loquendo, Vocalizer и Acapela, что говорит об их качестве. Примеры работы этих голосовых движков можно прослушать в блоге
В программе Call Office синтез речи используется при формировании сообщения для абонентов, как в автоответчике, так и при обзвоне.