DWS Speak Writer v3.5 - преобразовать голос в текст (русский)

31.10.2019 AHSSOFT Поделиться... 11 4.6/5.0 (5)

Добавили блок DWS Audio!

Народ давно просил, чтобы вместе с переводом голоса в текст, мы добавили и обратную возможность - перевод текста в речь на русском языке.

Не знаю для чего это им было нужно, ибо, языковых пакетов, которые переводят текст в голос на русском полно, но мы пошли навстречу и добавили модуль DWS Audio в программный комплекс. Данный модуль мы оснастили всем необходимым для удобного создания аудиокниг из их печатных версий.

Теперь вам не нужно хранить и таскать с места на место тонны аудиофайлов, достаточно хранить обработанный DWS Audio текстовый хэш любой электронной книги (который "весит" почти также, как и сама книга в текстовом варианте), а программа создаст для вас аудиокнигу со всеми возможностями за 30 секунд! Да-да, 30 секунд в .mp3 256 Kb/s с поддержкой авторских правок, сносок, глав и прочей информации для проигрывателей аудио-книг.

Мы проанализировали отзывы на популярных книжных сайтах и отобрали голоса 8-ми самых рейтинговых чтецов аудиокниг (6 мужчин и 2 женщины). На основе их голосов наш модуль и создает эти хэши. В итоге, вы слушаете аудиокнигу голосом, который очень похож на вашего любимого чтеца, с соблюдением его оригинальной манеры произношения, интонации и скорости чтения. Вы должны выбрать один, или несколько голосов заранее, до создания хэша. Какие голоса вы выберите, такие и будут доступны для прослушивания в конечной аудиокниге.

Режим создания хэша как всегда упрощен до минимума. Указываете папку с файлами текстовых книг в любом формате (.fb2, .epub, .txt и любых прочих), указываете папку для выхода и сохранения хэшей, отмечаете голоса для данных хэшей и нажимаете кнопку "Начать". На выходе получаете обработанные нейро-алгоритмом готовые файлы, из которых можете создавать аудиокниги по тому же принципу (указать папку с хэшами и указать каталог для временного хранения аудио-данных).

Мы тестировали этот модуль совместно с ребятами книжного портала 96F.RU (96f.ru). Более пятидесяти тысяч их книг обработали за неделю и выдали им хэши, чтобы они могли раздавать аудиокниги своим посетителям. Для клиентов их портала модуль DWS Audio абсолютно бесплатен.

Ввели Cortana на русском языке

Дополнили двиг новой возможностью работы с мобильными устройствами. Теперь Cortana для Windows 10, Windows Phone 8.1 и Windows 10 Mobile понимает русский язык и говорит также на русском языке.

Для возможности включения русской Cortana на мобильном устройстве, подключите свой телефон к ПК через USB кабель, откройте менеджер DWS и там увидите свой телефон. Рядом с ним установите галочку - использовать русский язык в Cortana. А Кортана на ПК уже автоматически использует русский язык в новой версии.

Не забываем, что Кортана будет говорить на русском на вашем windows смартфоне, только, когда вы подключены к интернету, мобильному, или по Wi-Fi (в десктопной версии подключения к сети не требуется). Также помните, что при этом расходуется ваш интернет-трафик, примерно 1 Мб на 200 стандартных слов.

Ссылки на загрузку модулей программы как всегда доступны тут:

1. DWSSpeakWriter - Файлы Neuro Алгоритма
2. DWSSpeakWriter - Файлы БД обучения
3. DWSSpeakWriter - Файлы Настроек Распознавания

Новый режим для радио

Ввели новую фишку для распознавания радио (из онлайн вещания, или записанного файла). Теперь, в программе можно выбрать: распознавать только голос ведущих между песнями, либо наоборот - распознать только песни и пропускать голос ведущих.

Прорыв в распознавании голоса из файлов: 8-ми кратная скорость распознавания

Наконец-то дошли руки оптимизировать алгоритм перевода речи в текст из видеофайлов и аудиофайлов. Совместными усилиями с Сергеем (neurosoftik) мы изменили алгоритм распознавания голоса из файлов таким образом, что теперь русский голос в текст преобразуется на 8-ми кратной скорости! Если у вас есть файл с фильмом на 1 час, то новая версия создаст из него текстовый файл за 7 с половиной минут!

Додумались до этого мы уже давно, программа создаёт 8 потоков перцептрона, и получает из файла сразу 8 частей звука по 2-4 секунды длительности (после анализа на паузы между словами) и в итоге, происходит распознавание, вместо одного текущего фрагмента звука, сразу 8 фрагментов. Но, сложность была в распределении нагрузки, даже в один поток перцептрона, программа очень сильно нагружает ресурсы машины, а 8 потоков вообще убивали даже сильнейшие компы.

Но, мы с Сержем упёрлись рогом, притащив даже улиссу, и после изнурительных обсчётов, все-таки смогли обойти множественную инициализацию при распознавании для 8-ми потоков нейро-импенданса. Теперь входящие синапсы инициализируются, как и раньше, - единожды, а потоки копируют готовые экземпляры в память и ждут входных данных, что позволяет избежать лишней нагрузки, которая является основной, именно, в момент прочтения условий и ветвлений синапсов.

Провели эксперименты с различным количеством потоков: 8, оптимальное число для соотношения: скорость/точность/мощность системы. Прирост затрат на распознавание составил не более 12% от исходного, односкоростного режима.

Видео распознавания русской речи в текст из музыкального клипа

Что умеет текущая версия 3.5.3:

диктовать русским голосом в любой текстовый редактор (Microsoft Word, Блокнот и т.д.);
управлять компьютером при помощи русских фраз (можно использовать готовые профили для часто-используемых программ, а также, создавать свои команды для любой программы на вашем компьютере);
распознавать русский голос в текст, при очень сильном зашумлении звука (из фильмов, музыкальных файлов, телепередач и т.д.);
автоматически проверять синтаксис и орфографию в распознанном тексте;
автоматически определять песни и музыку при переводе голоса в текст, и форматировать их в четверостишие (как тексты песен);
софт поддерживает пакетную обработку файлов (можно указать любое число видеофайлов, или музыкальных файлов на компьютере, для распознавания в них голоса в текст);
dws speak writer определяет тематику полученного текста и классифицирует сохранённые файлы по ней;
программа умеет создавать блоки обзоров из распознанного текста и автоматически постить их на группы сайтов по определённой тематике (сайты могут быть как ваши, так и из базы программы для бесплатного размещения обзоров в сети, в данный момент, в базе программы более 2000 сайтов для постинга);
двсспик умеет регистрировать аккаунты в социальных сетях и постить в них мини-очерки, из текстов, полученных при распознавании (можно указать логины и пароли от, уже имеющихся, аккаунтов), поддерживаются социальные сети: twitter, вконтакте, facebook, яру, мэйлру, google+, blogspot);
в программу встроен модуль управления e-mail при помощи русского голоса (можно автоматически открыть почтовую программу, создать письмо, продиктовав его текст, и отправить на указанный голосом адрес, или лист рассылки);
есть модуль управления голосом вашими микро-блогами и социальными сетями (можно голосом открыть интерфейс в программе, в котором выбирать нужный ресурс, прослушивать новые сообщения из него, и голосом диктовать ответы на любое сообщение, или группу сообщений) эта функция поддерживает более 60 популярных соц. сетей и микро-блогов.

Русская версия речи в текст:

Наконец-то, появилась возможность напрямую диктовать с микрофона в Microsoft Word русским голосом, или в любой другой текстовый редактор, которым Вы предпочитаете пользоваться на своём ПК. Также, можно диктовать в стандартный поток, что позволит использовать распознавание голоса в ваших программах без обходных путей, как было раньше.

Закончили внедрение и симбионизацию с фишками Сержа (neurosoftik), теперь В можете насладиться в полной мере всей мощью комбинированных интернет технологий. Прога пишет обзорные статьи и составляет новости из распознанных текстов, и тут же постит их по вашим правилам на сайты в сети. neurosoftik также добавил нам два интерфейса с полностью голосовым управлением: создание и отправка e-mail, и получение новых сообщений из ваших соцов, и ответ на них голосом.

Английская версия DWSSpeakWriter для распознавания голоса

Для любителей поглумиться, оставляем поддержку английской речи в распознавалке. Там новизны никакой, всё уже ~~украдено~~ написано до нас :) Да, единственное нововведение в английском движке программы: подключили проверку орфографии и синтаксиса через движок офиса 2010 и офиса 365.

P.S.

Пароль от архива к новой версии

Самый свежий релиз программы всегда доступен здесь: Скачать новый DWS Speak Writer

Ну, и как всегда, если Вы начинающий нейро-программист, то добро пожаловать в наши ряды, получай программу и все библиотеки бесплатно, от вас требуется расписать синопсы Альдера или Нонжена и прислать нам. В ответ, Вы получите наши почет и уважение, ну и конечно же доступ к программным модулям.