Desarrollo de soluciones de reconocimiento de voz sin conexión.

2020-07-25 14:38:38

Introducción al desarrollo de soluciones de reconocimiento de voz fuera de línea


 


La tecnología de reconocimiento automático de voz ASR (reconocimiento de voz automático) se basa en la tecnología de reconocimiento de lista de palabras clave. En cada proceso de reconocimiento, el contenido de voz hablado por el usuario se convierte en funciones de voz a través del espectro de frecuencia, y los elementos de la lista de palabras clave se corresponden uno por uno, y la mejor coincidencia se utiliza como resultado del reconocimiento. Por ejemplo, en una aplicación de teléfono móvil, el contenido de esta lista de palabras clave es el nombre de la persona en la guía telefónica / el comando de menú del teléfono / el nombre de la canción en la tarjeta T, etc. No importa cuál sea el contenido de esta lista, el usuario solo necesita establecer el registro correspondiente. El contenido del elemento correspondiente a reconocer se puede pasar al motor de reconocimiento en forma de caracteres.


El motor de reconocimiento no se preocupa por el contenido de las palabras clave en la lista de palabras clave, que pueden ser cadenas de caracteres chinos, como comandos, nombres de personas, nombres de canciones, instrucciones de operación, etc.


El número máximo de palabras que se pueden admitir para cada palabra clave está limitado a 30 palabras desde una perspectiva de algoritmo. Pero a partir de la situación real, cuando los usuarios dicen más de 8 palabras de una sola vez, casi seguro tendrán errores tipográficos / faltantes / palabras múltiples / hipo / pausas, etc. Estas situaciones afectarán seriamente el reconocimiento y causarán reconocimiento. error. Por lo tanto, en general, si desea obtener un efecto de reconocimiento ideal, se recomienda que el número de palabras de cada palabra clave no sea demasiado largo para evitar afectar el efecto.


 


La importancia más importante de la tecnología ASR es proporcionar una interfaz de usuario basada en la voz que no tenga botones ni ratones, lo que hace que la operación del producto por parte del usuario sea más natural, más rápida y más conveniente que el control manual.Puede usarse para electrodomésticos inteligentes, ropa inteligente y juguetes inteligentes activados por voz. Y muchos otros campos.


En la actualidad, el precio de las soluciones de reconocimiento de voz en línea es relativamente alto, el período de acceso al producto es complicado y largo, y el tiempo de respuesta se ve afectado por la red. Esta solución proporciona reconocimiento de voz sin conexión de voz humana no específica basada en una gran cantidad de bases de datos de voz. Esta solución tiene ventajas de costo, acceso simple, ciclo corto, velocidad de respuesta de identificación rápida (dentro de 0,5 segundos) y no es necesario conectarse a la red. La solución general es madura, estable y confiable, lo que permite a los productos tradicionales actualizar rápidamente la función de voz inteligente.


 


La tecnología de reconocimiento de voz sin conexión es una tecnología basada en el reconocimiento de la lista de palabras clave. Solo necesita configurar una lista de palabras clave para que sean reconocidas, y las palabras clave pronunciadas por el usuario pueden reconocerse a través del sistema de reconocimiento de voz, sin ninguna capacitación de grabación para el usuario.


Fácil sin conexión a internet.


Darse cuenta del control de voz


 


Aplicación de mercado:


Luces de voz inteligentes, juguetes inteligentes, electrodomésticos (ventiladores eléctricos, campanas extractoras, aires acondicionados), masajeadores de ojos, masajeadores de cuello, altavoces inteligentes y muchos otros productos.


 


Ventajas del programa:


La tasa de reconocimiento es superior al 95%, reconocimiento preciso dentro de una distancia de 3M


Soporta 32 idiomas, admite múltiples idiomas menores


No es necesario conectarse a Internet, identificación fuera de línea, respuesta rápida


Admite transmisión de comentarios de voz, aumenta el entretenimiento interactivo


Rendimiento de alto costo, arquitectura SOC, códec integrado


Alta estabilidad, chip de grado industrial


Diseño de instrucciones flexible, sin necesidad de grabación del cliente.


Tiempo de desarrollo corto y soporte técnico en funcionamiento.


 


parámetro técnico:


El rango de voltaje de trabajo puede ser 3.3 ~ 5.5V


El nivel mejorado de pin dedicado de entrada MIC es 26dB, la ganancia total máxima es 65dB


Salida PWM de audio diferencial, directamente altavoces de 1W / 8Ω


Salida de señal 2 PWM, se puede utilizar para atenuar LED


Proporciona interfaz I2C / UART y protocolo de comunicación personalizado, que se puede utilizar para módulos externos y comunicación con MCU externo


 


 


método de cooperación:


Proporcione un plan de diseño completo para el reconocimiento de voz, los clientes pueden diseñar funciones de acuerdo con sus propias necesidades, nuestra empresa es responsable del desarrollo de la parte de control de voz y del acoplamiento con el control principal del cliente


Autorización de chip: los clientes desarrollan aplicaciones ellos mismos, producen PCB y compran los componentes correspondientes para la producción.Nuestra compañía proporciona chips, rutas de referencia relacionadas y comandos de reconocimiento de voz.


 


caso de éxito:


1. luz de voz inteligente


2. electrodomésticos inteligentes


3. masajeador de salud


4. Control central inteligente


 


Módulo de reducción de ruido de voz:


Elimine eficazmente el ruido ambiental y mejore la eficiencia de reconocimiento en entornos ruidosos.


Adecuado para productos con movimiento mecánico, como ventiladores, calentadores, campanas extractoras, robots de barrido, etc.


 


 


Todos los ingenieros de desarrollo pueden consultar y comprender.