патент

№ RU 218617

МПК G10L21/00

Интеллектуальное высокопроизводительное устройство распознавания речи для глухих и слепоглухих, содержащее микрофоны

Авторы:

Кулешов Денис Сергеевич

Правообладатель:

Общество с ограниченной ответственностью "Сенсор-Тех"

Номер заявки

2022133467

Дата подачи заявки

20.12.2022

Опубликовано

02.06.2023

Страна

Как управлять
интеллектуальной собственностью

Подробнее

Чертежи

Реферат

[58]

Полезная модель относится к ассистивным устройствам, предназначенным для использования людьми с ограниченными возможностями по слуху, слуху и зрению, а именно к массиву микрофонов, используемых автономно или в конструкциях указанных устройств. Суть полезной модели в том, что массив микрофонов для устройства распознавания речи для глухих и слепоглухих, выполненный в конструктивном единстве и включающий блок автозапуска процессов, командно-телеметрический модуль, модуль распознавания речи, модуль управления микрофонами, модуль вывода текстовой информации на дисплей Брайля и блок контроля, проверяющий работоспособность указанных модулей и блока захвата звука и блока управления устройством, дополнительно содержит четыре микрофона для захвата звука и четыре микрофона для шумоподавления, а встроенный компьютер снабжен блоком подстройки, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности. Полезная модель обеспечивает достижение технического результата, заключающегося в повышении распознавания речи.

Формула изобретения

Интеллектуальное высокопроизводительное устройство распознавания речи для глухих и слепоглухих, содержащее микрофоны, выполненное в конструктивном единстве и включающее блок автозапуска процессов, командно-телеметрический модуль, модуль распознавания речи, модуль управления микрофонами, модуль вывода текстовой информации на дисплей Брайля и блок контроля, проверяющий работоспособность указанных модулей и блока захвата звука и блока управления устройством, отличающееся тем, что содержит четыре микрофона для захвата звука и четыре микрофона для шумоподавления, а встроенный компьютер снабжен блоком подстройки, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности.

Описание

[1]

[2]

Микрофонный массив - устройство, состоящее из группы микрофонов, каждый из которых направлен в определенную сторону, при этом работают они как единое целое и захватывают звуковой сигнал из разных точек помещения. Микрофонные массивы широко используются в разных областях, где необходимо организовать дистанционную запись и качественную передачу звука.

[3]

Широкое применение получили микрофонные массивы в ассистивных устройствах для слабослышащих, неслышащих и слепоглухих.

[4]

Так, применение массива микрофон в устройстве для аудиовизуальной навигации слепоглухих людей раскрыто в RU 192148 (G10L 21/10, дата публикации 05.09.2019). Согласно полезной модели, массив состоит из по меньшей мере 3-х микрофонов, вычислительный модуль выполнен с возможностью получения данных с массива микрофонов в виде звуковых кадров, считывающийся таким образом, чтобы обеспечивалась аппаратная синхронизация считывания звука со всех каналов. Однако конструктивные особенности микрофонного массива не описаны в полной мере.

[5]

Из уровня техники известен слуховой аппарат, включающий массив микрофонов из пяти направленных микрофонов, в результате чего слабослышащий человек может понимать того, кто говорит прямо напротив него. Фоновый шум, исходящий из других направлений, подавляется массивом (см. EP 1025744 A1, 09.08.2000, G02C 11/06; H04R 25/00). Электрические выходные сигналы микрофонов подаются по меньшей мере на один канал передачи, принадлежащий уху. Предусмотрены средства для получения двух выходных сигналов массива из выходных сигналов микрофонов, причем массив имеет два основных направления чувствительности, проходящих под углом друг к другу, и каждое из которых связано с выходным сигналом массива. Каждый выходной сигнал массива подается на свой тракт передачи, принадлежащий одному уху слабослышащего человека.

[6]

Недостатком известного решения является то, что в устройстве не использована технология формирования луча для повышения соотношения сигнал/шум.

[7]

Известно, что шумоподавление применительно к слуховым аппаратам означает ослабление нежелательных сигналов и усиление полезных сигналов. Желаемые сигналы обычно представляют собой речь, которую пользователь слухового аппарата пытается понять. Нежелательными сигналами могут быть любые окружающие звуки, которые мешают основному говорящему. Этими нежелательными звуками могут быть другие динамики, шум ресторана, музыка, шум уличного движения и т.д.

[8]

Применительно к слуховым аппаратам применяют три основных принципа шумоподавления: формирование направленного луча, спектральное вычитание, усиление речи на основе высоты тона. Целью формирования луча в слуховом аппарате является создание иллюзии «тоннельного слуха», при котором слушатель слышит то, на что он смотрит, но не слышит звуки, доносящиеся с других направлений. Если он посмотрит в направлении желаемого звука - например, на кого-то, с кем он разговаривает, - тогда другие отвлекающие звуки, например, другие говорящие, будут ослаблены. Затем формирователь луча отделяет желаемый сигнал цели «онлайн» (прямая видимость) от нежелательных сигналов «автономных» источников помех, так что цель может быть усилена, в то время как генератор помех ослабляется.

[9]

Кроме того, в данном устройстве отсутствует функция подстройки для определения речевых и звуковых сигналов с помощью встроенного компьютера, а также наличие возможности обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме с помощью встроенного компьютера.

[10]

Массив микрофонов является встраиваемым устройством и не может использоваться автономно.

[11]

Предлагаемое решение является улучшенной доработкой массива микрофонов заявителя, используемого в портативном устройстве распознавания речи и звуковых сигналов (см. RU 198673, 21.07.2020, G10L 21/00), выполненного в конструктивном единстве и включающего корпус, микрофонную решетку с модулем фильтрации шумов, блок памяти распознанной речи, аккумулятор с зарядным устройством, блок вывода информации на дисплей и блок преобразования речи. Устройство содержит плату светодиодов, выполненных с возможностью их видимости через прорези в крышке корпуса, закрытых стеклом; одноплатный компьютер, на платформу которого установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звуков, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска , а также блок распознания звуков и блок управления устройством, связанные через модули с блоком автозапуска процессов. Данное устройство отличается тем, что корпус включает крышку и дно, на дне которого монтируются платы микрофонной решетки, одноплатного компьютера, аккумулятора, платы кнопок и зарядно-разрядного устройства, скрепленные между собой. А также тем, что электрическое соединение плат и аккумулятора выполнено проводами, содержит платы для измерения напряжения аккумулятора и индикации текущего состояния устройства, содержит разъем HDMI для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом, LAN разъем для проводного подключения к сети Интернет и разъем для зарядки аккумулятора, для передачи распознанного текста или управления устройством используется дисплей мобильного телефона или экран монитора и тем, что для передачи распознанного текста или управления устройством используется дисплей Брайля.

[12]

Благодаря указанной конструкции портативное устройство распознает не только речь, но и иные звуки. Информация о распознанных звуках поступает в преобразованном виде - в виде печатного текста или рельефно-точечного шрифта Брайля на дисплей. Кроме печатного уведомления, устройство световым направлением от светодиодов сообщает пользователю об источнике звука.

[13]

Вместе с тем в указанном решении не использована технология формирования луча для повышения соотношения сигнал/шум, а также отсутствует функция подстройки для определения речевых и звуковых сигналов, что ухудшает распознавание речи. Данное решение принято за ближайший аналог.

[14]

Задача, на решение которой направлена настоящая полезная модель, заключается в создании интеллектуального высокопроизводительного массива микрофонов для распознавания речи и звуковых сигналов, повышающего качество в части распознавания речи собеседника за счет использования технологии формирования луча для повышения соотношения сигнал/шум и введения функции подстройки для определения речевых и звуковых сигналов.

[15]

Решение поставленных задач обеспечило достижение технического результата, заключающегося в повышении распознавания речи по сравнению с ближайшим аналогом.

[16]

Достижение технического результата стало возможным благодаря тому, что в интеллектуальном массиве микрофонов предложено применить технологию формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего с использованием четырех микрофонов в массиве для захвата звука и четырех микрофонов для шумоподавления. Данную полезную модель отличает также наличие встроенного компьютера с блоком подстройки для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет, который связан с блоком управления устройством, а также с блоками автозапуска процессов и проверки работоспособности.

[17]

При этом общими признаками с ближайшим аналогом являются выполнение устройства в конструктивном единстве и наличие следующих блоков и модулей: модуля автозапуска процессов, командно-телеметрического модуля, модуля распознавания речи, модуля управления микрофонами, модуля вывода текстовой информации на дисплей Брайля и блока контроля, проверяющего работоспособность указанных модулей и блока захвата звука и блока управления устройством.

[18]

Интеллектуальный высокопроизводительный массив микрофонов для устройства распознавания речи для глухих и слепоглухих раскрыт на следующих иллюстрирующих материалах, где:

[19]

Фиг. 1 - общий вид интеллектуального высокопроизводительного массива микрофонов;

[20]

Фиг. 2 - вид массива спереди;

[21]

Фиг. 3 - вид массива сбоку;

[22]

Фиг. 4 - вид на плату ПММиК_МР сверху и снизу:

[23]

Фиг. 5 - принцип работы алгоритма формирования луча для повышения соотношения сигнал шум;

[24]

Фиг. 6 - вид на плату ПССК_МР сверху и снизу;

[25]

Фиг. 7 - структурная схема массива микрофонов;

[26]

Фиг. 8 - схема взаимодействия плат и ПО массива микрофонов.

[27]

На фиг. 1 представлен заявленный интеллектуальный высокопроизводительный массив микрофонов, выполненный в виде законченной технологичной сборки плат без использования проводов и кабелей. В состав устройства входят: плата массива микрофонов и контроллера модуля распознавания (ПММИК_МР) 1 с интерфейсом для подключения индикации 4; плата сопряжения с компьютером модуля распознавания (ПССК_МР) 2; плата разъемов модуля распознавания (ПР_МР) 3 с интерфейсами для подключения внешних периферийных устройств через интерфейсы: HDMI 8 для подключения внешнего дисплея, USB разъем для подключения дисплея Брайля проводным способом 7, LAN разъем для проводного подключения к сети Интернет 6, разъем для зарядки аккумулятора 10, а также разъем для подключения внешнего микрофона 9 и разъем для подключения выносного пульта 11.

[28]

На фиг. 2 и 3 показаны особенности размещения и соединения между собой платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 и платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с помощью межплатных разъемов 17 и 21; платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 и платы разъемов модуля распознавания (ПР_МР) 3 с помощью межплатных разъемов 22 и 23.

[29]

На фиг. 4 показано конструктивное исполнение платы массива микрофонов и контроллера модуля распознавания (ПММиК_МР) 1 с интерфейсом для подключения индикации 4 и размещенными на ней микросхемой захвата звука (МЗЗ) 15, микросхема памяти 16, командно-телеметрический контроллер 12, межплатным разъемом 17, кольцом светодиодов 13 и кнопками 14.

[30]

Новым является использование технологии формирования луча для повышения соотношения сигнал/шум и выделения направления на говорящего использует четыре микрофона для захвата звука 19 и четыре микрофона для шумоподавления 18. Алгоритм обработки сигналов с массива микрофонов по технологии формирования луча позволяет ослабить нежелательные сигналы и усилить полезные сигналы, что повышает качество распознавания речи и иных звуков заключается в выделении направления на говорящего с последующим увеличением соотношения сигнал/шум за счет приведения шумовых и полезных сигналов с каждого микрофона решетки к единой фазе и сложения амплитуд полезных сигналов с вычитанием шумовых составляющих. Суть технологии формирования луча, представленной на фиг. 5, заключается в записи звука на пространственно разнесенную решетку микрофонов, за счет чего сигнал от источника сигнала приходит к каждому микрофону со своим сдвигом по времени t_i. Так как взаимное расположение микрофонов в решетке известно можно выделить совпадающие конфигурации полезного сигнала на каждом микрофоне и сдвиг фаз t_i между ними, за счет чего, зная скорость распространения звука в воздухе, можно определить направление на говорящего и компенсировать разность фаз за счет сдвига сигналов на известные величины t_i и провести суммирование сигналов. При этом сигнал, пришедший от постороннего источника сигнала/помехи с другого направления (шум), будет иметь существенно меньшее усиление, обратно пропорциональное количеству микрофонов в решетке из-за отличающихся фаз сигнала с другого направления.

[31]

На фиг. 6 изображен состав платы сопряжения с компьютером модуля распознавания (ПССК_МР) 2 с встроенным компьютером (ВК) 5, на котором реализованы функции блока подстройки 29 для определения речевых и звуковых сигналов, обработки данных и передачи на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме, передача распознанного текста через сеть Интернет. Использование блока подстройки 29 помогает повысить точность работы системы захвата речи и экономит ресурсы системы и передаваемого траффика за счет использования технологии детектирования голоса, основанного на использовании нейросети, обученной определять голос и отличать его от постороннего шума (в случае, если вместо речи раздаются только посторонние звуки). В отличии от решений голосового детектора, использующего частотную фильтрацию, данный способ не отбрасывает звуки вне заданного частотного диапазона, а ищет предобученные паттерны речи в частотном спектре, захваченным микрофоном.

[32]

Также в составе служебного программного обеспечения, встроенного ПК установлены блок автозапуска процессов, находящийся во взаимосвязи с командно-телеметрическим модулем, модулем захвата звука, модулем управления микрофонами, модулем вывода текстовой информации на дисплей Брайля; блок контроля над работоспособностью указанных модулей и блоком запуска, а также блок распознания звука и блок управления устройством, связанные с блоком автозапуска процессов. Кроме того, на плате размещены четырехпортовый USB хаб 23, звуковая карта PCM 20 для захвата звука с внешнего микрофона. Кроме того, на плате имеются разъемы HDMI 8 для подключения внешнего дисплея, межплатные разъемы 21 и 22.

[33]

На структурной электрической схеме фиг. 7 представлена схема электрических соединений между платами ПММиК_МР 1, ПССК_МР 2 с встроенным компьютером (ВК) 5, ПР_МР 3 осуществленных с помощью межплатных соединителей 17, 21, 22 и 23. На схеме также отображены типы интерфейсов, число использованных линий, напряжения питания, служебные преобразователи напряжений.

[34]

С точки зрения совместной работы всех плат как единого целого логика следующая: после включения с использованием кнопок 14 и контроллера 12, подается питание на встроенный компьютер 5. После загрузки функционального и служебного программного обеспечения происходит непрерывный захват звука с микрофонов 18 и 19, который поступает в микросхему захвата звука 15 с настройками сохраненными в микросхеме памяти 16, откуда обработанный звук поступает в одноплатный ПК, где осуществляется процедура распознавания, подстройки для определения речевых и звуковых сигналов, обработка данных и передача на смартфон или планшет для дальнейшего вывода в текстовой или тактильной форме или передача распознанного текста через сеть Интернет.

[35]

Для управления настройками и функциями устройства используются команды от кнопок 14, которые обрабатывает контроллер 12 и отправляет команды на выполнение для встроенного компьютера 5. Кроме того, для вывода информации о состоянии устройства, контроллер 12 управляет индикацией через интерфейс подключения индикации 4. Для обеспечения работоспособности подключаемой внешней периферии, подключаемой через интерфейсы 6, 7, 8, 9, 10, дополнительно задействованы микросхемы 20, 23, данные с которых поступают на встроенный компьютер 5. Все связи и сигналы обеспечиваются через межплатные разъемы без использования кабелей, чем достигаются высокие технологичные показатели полезной модели.

[36]

Электропитание устройства может осуществляется как от аккумулятора из состава портативного устройства, так и от стандартного блока питания с выходным напряжением 5В, подключенного к бытовой сети электропитания с напряжением 220 В и частотой 50 Гц, причем при наличии подключенного аккумулятора будет происходить заряд через массив микрофонов.

[37]

В массиве микрофонов дополнительно к штатным для портативного устройства программно-аппаратным средствам (блок преобразования, блок памяти, блок вывода текстовой информации, клавиатура, дисплей и др.), реализующим стандартные функции передачи информации и ее обработки на платформу встроенного компьютера 5 установлены также с возможностью автоматического запуска при загрузке компьютера командно-телеметрический модуль 24, модуль распознавания речи 25, специализированный модуль ядра 26 для работы с микросхемой захвата звука 15, модуль вывода текстовой информации на дисплей Брайля 27, блок контроля над работоспособностью всех основных процессов 28, а также блок подстройки 29, модуль клиента для работы сервером 30, модуль взаимодействия с приложениями для смартфона или планшета 31.

[38]

Автозапуск всех процессов осуществляется с помощью блока 32.

[39]

Обеспечивают функционал интеллектуального массива микрофонов блоки захвата звука 33 и блок управления устройством 34.

[40]

Блок захвата звука 33 реализует захват звука с платы массива микрофонов и контроллера (ПММиК) 1 с помощью модуля ядра 26, детектирование начала и окончания голосовой активности, отправку звука на модуль распознавания речи 25 с использованием блока подстройки 29, вывод результата распознавания речи на внешний дисплей и дисплей Брайля с помощью модуля 27, отправлять на внешние устройства с помощью блока управления 34, на смартфоны и планшеты с помощью модуля 31 или на сервер для общения через сеть Интернет через модуль 30, а также вводить текст ответа пользователя с помощью дисплея Брайля или клавиатуры или со стороны сервера через сеть Интернет.

[41]

Реализация детектора голосовой активности известна из уровня техники и выглядит следующим образом:

[42]

- преобразование звукового сигнала в частотную область;

[43]

- подавление высокочастотных шумов в сигнале;

[44]

- подавление шумов в захваченном сигнале в области низких частот;

[45]

- анализ очищенного звукового сигнала на предмет наличия речи.

[46]

Распознавание речи может быть реализовано с помощью любой облачной платформы распознавания речи.

[47]

Для отображения текстовой информации может быть использован любой экран с подключением по HDMI и/или дисплей Брайля.

[48]

Блок управления устройством 34 реализует возможность управления устройством через Bluetooth Low Energy по профилю GATT, позволяет подключать устройство к сети Wi-Fi, запускать на нем проигрывание сигнала режима поиска и публикует по Bluetooth Low Energy рассылку с результатами распознавания речи. Таким образом блок 34 настраивает и управляет модулями 24, 25, 26, 27, 30 и 31, а также блоком 29.

[49]

В интерфейсе устройства может выводиться список всех распознанных фраз, уровень заряда аккумулятора, уровень чувствительности микрофона, статус наличия или отсутствия в данный момент активного источника звука, состояние активных подключений.

[50]

На фиг. 8 схематично показана функциональная схема работы программного обеспечения предложенного портативного устройства, включающего 6 модулей 24, 25, 26, 27, 30 и 31 и пять блоков 28, 29, 32, 33 и 34. Блок автозапуска процессов 32, установленный на платформе встроенного компьютера 5 инициализирует командно-телеметрический модуль 24, модуль распознавания речи 25, модуль ядра 26 и модуль вывода текстовой информации на дисплей Брайля 27 и блоки подстройки 29 и управления устройством 34. Блок подстройки 29 инициализирует при необходимости блок захвата звука 33 и подстраивает его. Блок 28 проверяет работоспособность указанных модулей 24, 25, 26, 27, 30 и 31 и подстройки 29 и управления устройством 34 и при необходимости дает команду на повторный запуск через блок запуска 32. Обеспечивающие функционал устройства блок подстройки 29 и блок управления устройством 34 связаны напрямую, а также через модули 24, 25, 30, 31 с блоками автозапуска процессов 32 и проверки работоспособности 28.

[51]

Устройство используют следующим образом.

[52]

Через массив микрофонов, блок захвата звука, модуль распознавания речи, одноплатного компьютера, блок памяти и модуля вывода текстовой информации на дисплей Брайля, результаты распознавания речи и звуковых сигналы моментально передаются на дисплей, подключенный через HDMI вход, в том числе на дисплей мобильных телефонов и/или дисплея Брайля, в виде текста, который осведомляет пользователя обо всем происходящем вокруг него. Данный текст можно пролистывать, а можно возвращаться к нужным моментам. Также имеется возможность ввода текста ответа пользователя с помощью дисплея Брайля или подключенной через USB клавиатуры. Более того, светодиодной подсветкой всегда указывается направление стороны, с которой расположен источник звука, что позволяет пользователю своевременно на него отреагировать. Дополнительно устройство оснащено светодиодами, для более быстрого и удобного понимания расположения источника звука - они подсвечивают данное направление. Для удобства пользования устройство включает четыре кнопки управления, которые отвечают за включение, изменение размера шрифта, пролистывание текста на экране и сброс подключения мобильного телефона.

[53]

Полезная модель может быть реализована использованием указанного устройства людьми, являющимися инвалидами по слуху или по слуху и зрению.

[54]

В первом случае, пользователь включает устройство, подключает дисплей, например, мобильный телефон беспроводным образом, через Bluetooth или экран монитора через HDMI-выход. Затем на отображенном интерфейсе экрана выбирает актуальные для себя настройки чувствительности микрофонной решетки. Во время работы пользователь в режиме реального времени будет получать информацию о том, что происходит вокруг - устройство автоматически будет преобразовывать речь и звуковые сигналы в текст на дисплее. Светодиоды визуально укажут направление источника звука, чтобы быстро отреагировать. И дополнительно направление на источник звука может быть указано словесно на дисплее или экране. Также имеется возможность набора ответа пользователем с дефектами речи с помощью клавиатуры, подключенной в порт USB устройства.

[55]

Во втором случае, специальном для людей с ограниченными возможностями и по слуху, и по зрению, пользователь подключает к устройству дисплей Брайля беспроводным способом через Bluetooth или проводным способом через вход USB. Все распознанные звуковые сигналы и речь, а также направление источника звука будут моментально обработаны в текст и переданы на дисплей Брайля, тем самым позволяя пользователю свободно ориентироваться и воспринимать информацию от окружающих людей и предметов. Также имеется возможность набора ответа пользователем с дефектами речи с помощью дисплея Брайля.

[56]

Как показали проведенные эксперименты, предлагаемое устройство примерно в 2 раза лучше распознает речь, чем ближайший аналог.

[57]

Система формирования луча была протестирована на тестовых экземплярах устройства распознавания речи ближайшего аналога. В результате испытаний уровень подавления шумов вне диаграммы направленности составил -12 дБ. Также был проверен блок подстройки, который дал прирост точности распознавания на 16%, быстродействия системы на 5% и снизил количество бесполезного (не содержащего речь) сигнала для распознавания при типовом использовании на 30%.

Как компенсировать расходы
на инновационную разработку

Подробнее

Похожие патенты

Интеллектуальное высокопроизводительное устройство распознавания речи для глухих и слепоглухих, содержащее микрофоны

Смена аккаунта

Доступно только для юрлиц

Доступно только
для юрлиц