Engineering

La voz se encuentra con la visión: cómo los modelos omni-modales habilitan el dictado por voz multimodal

Del reconocimiento de voz solo con audio al audio + visión + texto: el cambio de paradigma que llevó al dictado por voz de "transcribe lo que dije" a "escribe lo que quise decir, donde lo quise decir".

TL;DR

El dictado por voz multimodal significa que el sistema usa el habla más el contexto local para decidir en qué deben convertirse las palabras. Loqua es una herramienta de dictado por voz consciente del contexto para Mac: escucha tu voz, lee el contexto local del destino y escribe texto adaptado a la app. Esta introducción explica por qué importa el dictado por voz consciente de la pantalla sin entrar en toda la arquitectura.

Loqua es una herramienta de dictado por voz consciente del contexto para Mac. El cambio importante es pasar de la transcripción a una escritura consciente del destino: la misma frase hablada debe convertirse en texto distinto en Slack, Cursor, GitHub, Apple Notes y un editor de código.

Esta es la versión introductoria de nuestro planteamiento sobre voice + vision ai. La investigación abierta en audio, lenguaje y sistemas multimodales le da al campo un vocabulario útil, pero el stack de producción de Loqua es trabajo original entrenado y optimizado internamente para el dictado en Mac.

Del cambio de la transcripción al contexto

El reconocimiento de voz solo con audio responde a una pregunta: ¿qué palabras dijo el usuario? El dictado plantea una segunda pregunta: ¿en qué deben convertirse esas palabras en el cursor? Esa segunda pregunta es la razón por la que existe el dictado por voz multimodal. Una transcripción puede ser precisa y aun así ser incorrecta para el destino.

Cuando dictas en un editor de código, importan la puntuación, los identificadores, los comentarios y el texto seleccionado. Cuando dictas en el correo, importan el tono y la forma del párrafo. Cuando dictas en una app de tareas, importan el responsable y la fecha límite. El dictado por voz consciente de la pantalla convierte esas pistas visibles en restricciones para la escritura.

Por qué el contexto de pantalla cambia el dictado

La misma frase puede significar cosas distintas según la app. "Add a guard before fetch profile" debe convertirse en texto adyacente a código en un IDE, en una tarea en Linear y en una petición sencilla en Slack. El audio por sí solo no puede elegir de forma fiable entre esas formas.

La capa de contexto de Loqua lee señales locales como la app activa, el texto seleccionado, el texto adyacente visible y el tipo de campo de destino. No necesita un relato completo de captura de pantalla. Necesita evidencia local suficiente para preservar identificadores, decidir si estás insertando o editando y elegir la forma de salida adecuada.

Lo que cambia en el cursor

Tú dices
"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"
Loqua escribe (en VS Code)
if (!user.isLoggedIn) {
  return redirect('/signin');
}
Tú dices (las mismas palabras)
"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"
Loqua escribe (en Linear)
Add auth guard before profile fetch. If user is not logged in, redirect to sign-in instead of fetching profile.

La salida cambia porque cambia el destino. Ese es el valor práctico del omni model dictation como categoría de producto: el contexto toma decisiones de escritura que una transcripción no puede.

El límite de privacidad

El contexto de pantalla es lo bastante potente como para necesitar un límite claro. La ruta de contexto de Loqua es local-first por defecto. La app activa, el texto seleccionado y el contenido visible cercano se usan para dar forma al enunciado actual, no para crear un registro general de la pantalla.

Para conocer todo el límite, consulta privacidad por diseño con una arquitectura híbrida. La versión corta: el audio y el contexto de pantalla se tratan como señales locales sensibles, y las funciones opcionales en la nube no reciben contenido bruto de la pantalla circundante.

¿Quieres profundizar?

Lecturas adicionales

Para el contexto de la literatura, empieza con Whisper para reconocimiento de voz robusto, LLaVA para visual instruction tuning, e ImageBind para alineación cross-modal. Esos enlaces explican el campo; no son una afirmación de procedencia sobre Loqua.

Preguntas frecuentes

¿Qué cuenta como contexto de pantalla para Loqua?
El contexto de pantalla son señales locales alrededor del destino de dictado actual: app activa, texto seleccionado, texto visible cercano, tipo de archivo, posición del cursor y forma del campo. Loqua usa estas pistas para decidir si tu frase hablada debe convertirse en prosa, una tarea, un prompt o texto adyacente a código.
¿Loqua envía capturas de pantalla a algún sitio?
La ruta de contexto es local-first por defecto. Loqua usa señales derivadas de la pantalla para dar forma al enunciado actual y no necesita enviar el contenido bruto de pantalla a funciones opcionales en la nube. Consulta el artículo de privacidad para conocer todos los límites.
¿Cómo afecta el contexto a la latencia?
El contexto se recoge en paralelo con el reconocimiento de voz. Eso significa que la evidencia del destino suele estar lista cuando hay que renderizar el texto final. La arquitectura está diseñada para una interacción de clase 200ms en vez de una llamada lenta de postprocesado.
¿Por qué importa la voz más la visión para el código?
El código está lleno de identificadores, mayúsculas/minúsculas, sintaxis y regiones seleccionadas que no se pueden recuperar solo a partir del sonido. Si el modelo puede ver un identificador visible cerca del cursor, puede preservar ese nombre en lugar de escribir una transcripción genérica.
¿Es esto un agente que actúa sobre mi pantalla?
No. Este artículo trata sobre dictado, no sobre control autónomo de pantalla. Loqua usa contexto local para escribir mejor texto en el cursor. No navega por tus apps ni realiza acciones a menos que uses explícitamente otra herramienta para ello.
¿Dónde puedo leer sobre la arquitectura en profundidad?
Empieza con Dentro de nuestro stack de voz omni-modal para el pipeline de instrucciones multimodales, luego lee Construyendo un listener que ve lo que tú ves para la desambiguación, y Sonidos con significado para la dirección de audio no verbal en fase de prototipo.

Prueba Loqua hoy

Gratis para empezar. Nativo en Mac. Creado por investigadores de algoritmos que lo usan todos los días.

Download for Mac

Más del Blog de Loqua

engineering
Dictado por voz omni-modal: comprensión multimodal, MoE y salida de texto en streaming
engineering
Reconocimiento de voz multimodal: construyendo un listener que ve lo que tú ves
engineering
Dictado con detección de eventos de audio: sonidos con significado más allá de las palabras
productivity
El stack de productividad por voz: 9 herramientas que realmente usamos para escribir, lanzar y pensar
how-to
Cómo dictar código en Mac: una guía completa para Cursor, VS Code y Claude Code