AHS-Soft ® :: Нейро-программирование :: Синапсы: Роена, Альдера, Нонжена
AHS-SOFT

AHS-SOFT


Автор поста AHSSOFT

DWS Speak Writer v3.5 - преобразовать голос в текст (русский)

31.10.2019 AHSSOFT Поделиться... 11 4.6/5.0 (5)

DWS Speak Writer v3.5 - преобразовать голос в текст (русский)

Добавили блок DWS Audio!

Народ давно просил, чтобы вместе с переводом голоса в текст, мы добавили и обратную возможность - перевод текста в речь на русском языке.

Не знаю для чего это им было нужно, ибо, языковых пакетов, которые переводят текст в голос на русском полно, но мы пошли навстречу и добавили модуль DWS Audio в программный комплекс. Данный модуль мы оснастили всем необходимым для удобного создания аудиокниг из их печатных версий.

Теперь вам не нужно хранить и таскать с места на место тонны аудиофайлов, достаточно хранить обработанный DWS Audio текстовый хэш любой электронной книги (который "весит" почти также, как и сама книга в текстовом варианте), а программа создаст для вас аудиокнигу со всеми возможностями за 30 секунд! Да-да, 30 секунд в .mp3 256 Kb/s с поддержкой авторских правок, сносок, глав и прочей информации для проигрывателей аудио-книг.

Мы проанализировали отзывы на популярных книжных сайтах и отобрали голоса 8-ми самых рейтинговых чтецов аудиокниг (6 мужчин и 2 женщины). На основе их голосов наш модуль и создает эти хэши. В итоге, вы слушаете аудиокнигу голосом, который очень похож на вашего любимого чтеца, с соблюдением его оригинальной манеры произношения, интонации и скорости чтения. Вы должны выбрать один, или несколько голосов заранее, до создания хэша. Какие голоса вы выберите, такие и будут доступны для прослушивания в конечной аудиокниге.

Режим создания хэша как всегда упрощен до минимума. Указываете папку с файлами текстовых книг в любом формате (.fb2, .epub, .txt и любых прочих), указываете папку для выхода и сохранения хэшей, отмечаете голоса для данных хэшей и нажимаете кнопку "Начать". На выходе получаете обработанные нейро-алгоритмом готовые файлы, из которых можете создавать аудиокниги по тому же принципу (указать папку с хэшами и указать каталог для временного хранения аудио-данных).

Мы тестировали этот модуль совместно с ребятами книжного портала 96F.RU (96f.ru). Более пятидесяти тысяч их книг обработали за неделю и выдали им хэши, чтобы они могли раздавать аудиокниги своим посетителям. Для клиентов их портала модуль DWS Audio абсолютно бесплатен.

Ввели Cortana на русском языке

Дополнили двиг новой возможностью работы с мобильными устройствами. Теперь Cortana для Windows 10, Windows Phone 8.1 и Windows 10 Mobile понимает русский язык и говорит также на русском языке.

Для возможности включения русской Cortana на мобильном устройстве, подключите свой телефон к ПК через USB кабель, откройте менеджер DWS и там увидите свой телефон. Рядом с ним установите галочку - использовать русский язык в Cortana. А Кортана на ПК уже автоматически использует русский язык в новой версии.

Не забываем, что Кортана будет говорить на русском на вашем windows смартфоне, только, когда вы подключены к интернету, мобильному, или по Wi-Fi (в десктопной версии подключения к сети не требуется). Также помните, что при этом расходуется ваш интернет-трафик, примерно 1 Мб на 200 стандартных слов.

Ссылки на загрузку модулей программы как всегда доступны тут:

Новый режим для радио

Ввели новую фишку для распознавания радио (из онлайн вещания, или записанного файла). Теперь, в программе можно выбрать: распознавать только голос ведущих между песнями, либо наоборот - распознать только песни и пропускать голос ведущих.

Прорыв в распознавании голоса из файлов: 8-ми кратная скорость распознавания

Наконец-то дошли руки оптимизировать алгоритм перевода речи в текст из видеофайлов и аудиофайлов. Совместными усилиями с Сергеем (neurosoftik) мы изменили алгоритм распознавания голоса из файлов таким образом, что теперь русский голос в текст преобразуется на 8-ми кратной скорости! Если у вас есть файл с фильмом на 1 час, то новая версия создаст из него текстовый файл за 7 с половиной минут!

Додумались до этого мы уже давно, программа создаёт 8 потоков перцептрона, и получает из файла сразу 8 частей звука по 2-4 секунды длительности (после анализа на паузы между словами) и в итоге, происходит распознавание, вместо одного текущего фрагмента звука, сразу 8 фрагментов. Но, сложность была в распределении нагрузки, даже в один поток перцептрона, программа очень сильно нагружает ресурсы машины, а 8 потоков вообще убивали даже сильнейшие компы.

Но, мы с Сержем упёрлись рогом, притащив даже улиссу, и после изнурительных обсчётов, все-таки смогли обойти множественную инициализацию при распознавании для 8-ми потоков нейро-импенданса. Теперь входящие синапсы инициализируются, как и раньше, - единожды, а потоки копируют готовые экземпляры в память и ждут входных данных, что позволяет избежать лишней нагрузки, которая является основной, именно, в момент прочтения условий и ветвлений синапсов.

Провели эксперименты с различным количеством потоков: 8, оптимальное число для соотношения: скорость/точность/мощность системы. Прирост затрат на распознавание составил не более 12% от исходного, односкоростного режима.

Видео распознавания русской речи в текст из музыкального клипа

Что умеет текущая версия 3.5.3:

  • диктовать русским голосом в любой текстовый редактор (Microsoft Word, Блокнот и т.д.);
  • управлять компьютером при помощи русских фраз (можно использовать готовые профили для часто-используемых программ, а также, создавать свои команды для любой программы на вашем компьютере);
  • распознавать русский голос в текст, при очень сильном зашумлении звука (из фильмов, музыкальных файлов, телепередач и т.д.);
  • автоматически проверять синтаксис и орфографию в распознанном тексте;
  • автоматически определять песни и музыку при переводе голоса в текст, и форматировать их в четверостишие (как тексты песен);
  • софт поддерживает пакетную обработку файлов (можно указать любое число видеофайлов, или музыкальных файлов на компьютере, для распознавания в них голоса в текст);
  • dws speak writer определяет тематику полученного текста и классифицирует сохранённые файлы по ней;
  • программа умеет создавать блоки обзоров из распознанного текста и автоматически постить их на группы сайтов по определённой тематике (сайты могут быть как ваши, так и из базы программы для бесплатного размещения обзоров в сети, в данный момент, в базе программы более 2000 сайтов для постинга);
  • двсспик умеет регистрировать аккаунты в социальных сетях и постить в них мини-очерки, из текстов, полученных при распознавании (можно указать логины и пароли от, уже имеющихся, аккаунтов), поддерживаются социальные сети: twitter, вконтакте, facebook, яру, мэйлру, google+, blogspot);
  • в программу встроен модуль управления e-mail при помощи русского голоса (можно автоматически открыть почтовую программу, создать письмо, продиктовав его текст, и отправить на указанный голосом адрес, или лист рассылки);
  • есть модуль управления голосом вашими микро-блогами и социальными сетями (можно голосом открыть интерфейс в программе, в котором выбирать нужный ресурс, прослушивать новые сообщения из него, и голосом диктовать ответы на любое сообщение, или группу сообщений) эта функция поддерживает более 60 популярных соц. сетей и микро-блогов.

Русская версия речи в текст:

DWSSpeakWriter (RUS)

Наконец-то, появилась возможность напрямую диктовать с микрофона в Microsoft Word русским голосом, или в любой другой текстовый редактор, которым Вы предпочитаете пользоваться на своём ПК. Также, можно диктовать в стандартный поток, что позволит использовать распознавание голоса в ваших программах без обходных путей, как было раньше.

Закончили внедрение и симбионизацию с фишками Сержа (neurosoftik), теперь В можете насладиться в полной мере всей мощью комбинированных интернет технологий. Прога пишет обзорные статьи и составляет новости из распознанных текстов, и тут же постит их по вашим правилам на сайты в сети. neurosoftik также добавил нам два интерфейса с полностью голосовым управлением: создание и отправка e-mail, и получение новых сообщений из ваших соцов, и ответ на них голосом.

Английская версия DWSSpeakWriter для распознавания голоса

DWSSpeakWriter (ENG)

Для любителей поглумиться, оставляем поддержку английской речи в распознавалке. Там новизны никакой, всё уже украдено написано до нас :) Да, единственное нововведение в английском движке программы: подключили проверку орфографии и синтаксиса через движок офиса 2010 и офиса 365.

P.S.

Пароль от архива к новой версии

Самый свежий релиз программы всегда доступен здесь: Скачать новый DWS Speak Writer

Ну, и как всегда, если Вы начинающий нейро-программист, то добро пожаловать в наши ряды, получай программу и все библиотеки бесплатно, от вас требуется расписать синопсы Альдера или Нонжена и прислать нам. В ответ, Вы получите наши почет и уважение, ну и конечно же доступ к программным модулям.



ДОБАВИТЬ КОММЕНТАРИЙ
AHSSOFT AHSSOFT

Почти закончил переезд на этот двиг, скоро выложу здесь все старые комменты к этой ветке на я.ру.

AHSSOFT AHSSOFT

Аленка кстати помогла с рутиной - за что ей огромный респект!

X6RU.RU X6RU.RU

Это самая лучшая новость за последние три месяца. Респект, наконец то - я так давно теребил тебя чтобы ты доделал этот двиг - он мне просто как воздух нужен.

Варик i Варик i

Отличная новость Ал. Давно пора было это сделать - а то в зашумленных фильмах твой предыдущий модуль уже ошибался часто. И супер то, что с киберлюсей подружил эту версию.

AHSSOFT AHSSOFT

С киберлюсей он ещё не до конца сопряжен. Немного доработаю его еще в дальнейшем. Пока все силы бросил на фильтры шума и обучение синтаксису.

B2.BY B2.BY

Эл, тоннель начал поддтормаживать - запустил анализ маха, если найдет чего, отправлю тебе. Проверь что там в блоке само-очистки Альхена, может утечки пошли из-за пересечения цифрового рубежа.

ANDROMAN ANDROMAN

Ты подтормаживаешь. Уже вчера все работают над этим. Проблема не в пересечении рубежа, а в увеличении блока инициализации в память. Я предупреждал Сержа (neurosoftik) что нельзя объединенные базы обучать, надо делить по римбам - но он отмахивался, типа когда еще наберем предельный порог данных.

neurosoftik neurosoftik

Правильно отмахивался - когда ты ныл мне про пределы, тогда не было модуля распознавания голоса с онлайн радио, а теперь смотрю 8 линий юзают без остановки распознавание радио, конечно стартовый блок разросся.

Надо радио было вынести в отельную индивидуальную ветвь и подгружать синапсы к ней каждому по своему каналу. Сейчас будем чистить радио, благо сразу додумались модулям компрены асхинов назначть, теперь хоть отловить можно ветви обучения и разделить их.

AHSSOFT AHSSOFT

Ладно, хватит тут тыкать друг в друга. Да, не продумали, что онлайн радио будут юзать так много, но решение есть и без этого. Можем принудительно разрывать блок каждые 2 часа например, и возобновлять его снова - тогда стартовые модули не будут увеличиваться так.

Но есть шанс получить смещение целостности данных конечно для клиента, поэтому в одиночку не буду такое решение принимать - отправил запрос всем 8-ми распознавальщикам радио, жду, что ответят.

X6RU.RU X6RU.RU

Да это не проблема, вы тут муть обдумываете. Вы что не видите реальную проблему комплекса - разрядность заканчивается у штампов сравнения. Вы не следите наверное за количеством отпечатков новых слогов и пара-образований, а они приближаются к порогу разрядности комплекса.

Эл, я понимаю, что комплекс получал базовые разряды много лет назад и ты не думал, что он проживет в таком виде столько лет, что достигнет предела, но этот дедлайн близко теперь. Что бум делать?

AHSSOFT AHSSOFT

Дм не мути народ, я разрядность в самом модуле стартовом исправлю в любой момент, никому даже обновляться не придется.


Заголовок: Загрузить изображения

HTML или Текст:

Закрепить в топе  ::  Картинка поста: Картинка 1 Картинка 2 Картинка 3 Картинка 4 Картинка 5 Картинка 6 Картинка 7 Картинка 8 Картинка 9 Картинка 10 Картинка 11 Картинка 12 Картинка 13 Картинка 14 Картинка 15 Картинка 16 Картинка 17 Картинка 18 Картинка 19 Картинка 20

Комментарий: