La voz se encuentra con la visión: cómo los modelos omni-modales habilitan el dictado por voz multimodal
Del reconocimiento de voz solo con audio al audio + visión + texto: el cambio de paradigma que llevó al dictado por voz de "transcribe lo que dije" a "escribe lo que quise decir, donde lo quise decir".
TL;DR
El dictado por voz multimodal significa que el sistema usa el habla más el contexto local para decidir en qué deben convertirse las palabras. Loqua es una herramienta de dictado por voz consciente del contexto para Mac: escucha tu voz, lee el contexto local del destino y escribe texto adaptado a la app. Esta introducción explica por qué importa el dictado por voz consciente de la pantalla sin entrar en toda la arquitectura.
Loqua es una herramienta de dictado por voz consciente del contexto para Mac. El cambio importante es pasar de la transcripción a una escritura consciente del destino: la misma frase hablada debe convertirse en texto distinto en Slack, Cursor, GitHub, Apple Notes y un editor de código.
Esta es la versión introductoria de nuestro planteamiento sobre voice + vision ai. La investigación abierta en audio, lenguaje y sistemas multimodales le da al campo un vocabulario útil, pero el stack de producción de Loqua es trabajo original entrenado y optimizado internamente para el dictado en Mac.
Del cambio de la transcripción al contexto
El reconocimiento de voz solo con audio responde a una pregunta: ¿qué palabras dijo el usuario? El dictado plantea una segunda pregunta: ¿en qué deben convertirse esas palabras en el cursor? Esa segunda pregunta es la razón por la que existe el dictado por voz multimodal. Una transcripción puede ser precisa y aun así ser incorrecta para el destino.
Cuando dictas en un editor de código, importan la puntuación, los identificadores, los comentarios y el texto seleccionado. Cuando dictas en el correo, importan el tono y la forma del párrafo. Cuando dictas en una app de tareas, importan el responsable y la fecha límite. El dictado por voz consciente de la pantalla convierte esas pistas visibles en restricciones para la escritura.
Por qué el contexto de pantalla cambia el dictado
La misma frase puede significar cosas distintas según la app. "Add a guard before fetch profile" debe convertirse en texto adyacente a código en un IDE, en una tarea en Linear y en una petición sencilla en Slack. El audio por sí solo no puede elegir de forma fiable entre esas formas.
La capa de contexto de Loqua lee señales locales como la app activa, el texto seleccionado, el texto adyacente visible y el tipo de campo de destino. No necesita un relato completo de captura de pantalla. Necesita evidencia local suficiente para preservar identificadores, decidir si estás insertando o editando y elegir la forma de salida adecuada.
Lo que cambia en el cursor
if (!user.isLoggedIn) { return redirect('/signin');}La salida cambia porque cambia el destino. Ese es el valor práctico del omni model dictation como categoría de producto: el contexto toma decisiones de escritura que una transcripción no puede.
El límite de privacidad
El contexto de pantalla es lo bastante potente como para necesitar un límite claro. La ruta de contexto de Loqua es local-first por defecto. La app activa, el texto seleccionado y el contenido visible cercano se usan para dar forma al enunciado actual, no para crear un registro general de la pantalla.
Para conocer todo el límite, consulta privacidad por diseño con una arquitectura híbrida. La versión corta: el audio y el contexto de pantalla se tratan como señales locales sensibles, y las funciones opcionales en la nube no reciben contenido bruto de la pantalla circundante.
¿Quieres profundizar?
- Dentro de nuestro stack de voz omni-modal — el pipeline de instrucciones multimodales, MoE y streaming.
- Construyendo un listener que ve lo que tú ves — cómo el contexto multimodal resuelve la ambigüedad del reconocimiento de voz.
- Sonidos con significado — AED, audio captioning y la próxima frontera.
Lecturas adicionales
Para el contexto de la literatura, empieza con Whisper para reconocimiento de voz robusto, LLaVA para visual instruction tuning, e ImageBind para alineación cross-modal. Esos enlaces explican el campo; no son una afirmación de procedencia sobre Loqua.
Preguntas frecuentes
Prueba Loqua hoy
Gratis para empezar. Nativo en Mac. Creado por investigadores de algoritmos que lo usan todos los días.
Download for Mac