2

Я работаю над программным проектом и изучаю продукты преобразования текста в речь. Кто-нибудь знает, каково современное состояние систем преобразования текста в речь? В идеале речь должна быть неотличима от носителей американского или английского языка. Я ищу продукты с SDK или API, которые я могу легко подключить.

Просто чтобы прояснить и повторить мой вопрос - я не ищу такие вещи, как бесплатная программа Microsoft для преобразования текста в речь, я ищу высококачественный профессиональный продукт.

2 ответа2

4

Лучшие голоса для преобразования текста в речь я слышал до сих пор по брендингу.
Голоса Акапела http://www.acapela-group.com/text-to-speech-interactive-demo.html
Cepstral http://cepstral.com/demos/
ATT натуральный http://www2.research.att.com/~ttsweb/tts/demo.php
Nuance RealSpeak Voices http://www.nuance.com/vocalizer5/flash/index.html
Версии Microsoft
L & H & True голос, находясь внизу, если они не улучшили его в последнее время.

(не уверен, где его разместить) Cereproc http://www.cereproc.com/support/live_demo

Я считаю, что английские голоса типа "Великобритания" могут звучать "лучше" с моей американской точки зрения, чем "американские" голоса. Либо акцент скрывает больше проблем, либо я недостаточно знаю о фальсификациях и нюансах Великобритании, чтобы критиковать их.

Все это будет работать в системе Windows, используя SAPI 4 & 5.
Голоса - это не все, что нужно, хотя для идеального голоса хорошая программа со словарями, редактированием произношения и обычной настройкой голоса для конкретных слов будет очень нужна, если вы хотите приблизиться к звучанию настоящего человека.

Это место http://www.nextup.com/TextAloud/SpeechEngine/voices.html содержит множество примеров, которые вы можете услышать о голосах. Это была хорошая подборка разных голосов.

Лучшие из лучших голосов, которые они говорят (я их еще не слышал), не работают только с системой, они работают только через отдельную программу для голоса. Программа и голос нужны и работают вместе. Я еще не нашел это.

1

Я не эксперт по синтезаторам речи, но я думаю, что лучшее решение, вероятно, зависит от множества факторов. Например:

  • Вы ищете аппаратное или программное решение?
  • Есть ли ограничение на объем памяти или ресурсоемкость? Есть ли соображения пропускной способности?
  • Вам нужна индивидуальная интеграция?
  • Как вы определяете качество? Естественность важнее, понятность или последовательность? Т.е. каскадный синтез обычно производит наиболее естественные / звучащие человеком голоса, так как он сделан из коротких записанных фрагментов реальных человеческих голосов. Тем не менее, он также производит очень отчетливые сбои, когда различные записи соединяются вместе, чего нет у полностью синтетических голосов.
  • Какой тип голоса вы ищете? Большинство программ синтеза речи, кажется, имеют более реалистичные мужские голоса, чем женские. Также, как американец, голоса с иностранными (например, австрийскими или британскими) акцентами звучат для меня более естественно, чем простые американские голоса.
  • Точно так же некоторые речевые механизмы производят речь с естественным звучанием в широком диапазоне конфигураций, в то время как другие могут иметь более низкое общее качество, но могут производить очень реалистичную речь в конкретной конфигурации.
  • Еще одно соображение, относящееся к конкретному приложению, - это разнообразие текста ввода, который вы ожидаете получить. Потому что программы синтеза речи в конкретной области могут быть наиболее реалистичными, поскольку они создаются на основе реальных предварительных записей целых слов или фраз. Но это может использоваться только тогда, когда вводимый текст поступает из определенного домена, который может быть легко реализован (например, система, которая считывает время кино или расписание автобусов и т.д.). Если входной домен достаточно мал, лучше всего нанять голосового актера, чтобы записать все необходимые фразы и предложения.
  • Хотите ли вы клонировать голос конкретного человека для этого приложения? CereProc - это одна компания, которая специализируется на этом типе синтеза голоса, и они достигли довольно невероятных результатов, которые действительно отражают индивидуальность целевой личности.
  • Хотя все предыдущие рассуждения касаются главным образом выходного голоса, синтаксический анализ текста также является основным компонентом синтеза речи, поскольку многим синтезаторам речи трудно справляться с различными типами знаков препинания и числовых представлений (дроби, проценты, деньги, показатели степени, так далее.). Так что вам также следует подумать о том, как выбранный вами речевой движок будет обрабатывать сложные токенизации.

Если у вас есть такие деньги, чтобы потратить, я бы посмотрел на некоторые из ведущих брендов, таких как Acapela, Cepestral, AT & T, CereProc, RealSpeak и т.д., Чтобы они точно знали ваши требования к проекту и предложили вам или, по крайней мере, продемонстрируйте каждого из них перед основными заинтересованными сторонами этого проекта, используя некоторый фактический исходный текст, который необходимо обработать для окончательной заявки.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .