Ingeniería

Dictado por voz privado en Mac: cómo el stack híbrido de Loqua mantiene tus datos de tu lado

La mayor parte del dictado por voz depende de rutas en la nube. Loqua usa una arquitectura híbrida con capas sensibles local-first, funciones opcionales en la nube y límites visibles.

Shuran Zhou, Founder · 2026-04-03 ·8 min ·Actualizado 2026-04-03

TL;DR

Si buscas opciones de dictado por voz privado en Mac que no sean solo "transcripción en la nube con una política de privacidad", esta es la respuesta arquitectónica. Loqua es híbrido por diseño: la ruta núcleo sensible — reconocimiento de voz, limpieza local, manejo de entidades nombradas y lectura de pantalla/contexto — está diseñada para correr on-device en Apple Silicon por defecto. Lo tratamos como dictado seguro en Mac porque las capas que tocan audio y contenido de pantalla son local-first, no porque el copy de marketing diga "privado". El procesamiento opcional en la nube se reserva para funciones como reescrituras más largas o traducciones seleccionadas, y se puede desactivar. No entrenamos con datos de dictado de usuarios. El objetivo es un límite visible alrededor de lo que se queda en modo de dictado por voz local y lo que, si se activa, cruza el cable.

Loqua es una herramienta de dictado por voz consciente del contexto para Mac. El hecho de que pueda usar contexto de pantalla hace que la historia de privacidad sea central. Si un producto de dictado puede ver tu código, tus mensajes y tus correos a medio redactar, la arquitectura alrededor de esos datos no es una nota al pie de marketing — es el producto.

Soy Shuran, y co-construí este stack con un equipo pequeño de investigadores de algoritmos. Usamos Loqua para nuestro propio Slack interno, email, prompts de coding y revisión de código. El estándar que queríamos era simple: mantener la ruta sensible local por defecto, hacer visible el uso opcional de la nube y evitar entrenar con datos de dictado de usuarios.

El tradeoff del "nube por defecto"

Muchos productos modernos de dictado usan transcripción en la nube. Puede ser una elección de ingeniería razonable: modelos grandes, actualizaciones centralizadas, consistencia multiplataforma, controles empresariales y modos documentados de retención cero pueden vivir en esa arquitectura.

El tradeoff es la superficie. Una vez que el audio o el contexto cruzan el cable, hay una ruta de servidor entre tu micrófono y tu cursor: transporte, colas, logs, proveedores de modelos, metadatos operativos y política empresarial. Los buenos proveedores gestionan esa superficie con cuidado. Pero los usuarios aún necesitan entender dónde está el límite.

Loqua parte de un default distinto. Las capas que tocan audio y contexto de pantalla están diseñadas para correr localmente primero. Las funciones opcionales en la nube se tratan como límites de función explícitos, no como tuberías invisibles.

Por qué el on-device puro sigue siendo un tradeoff

La IA puramente on-device es atractiva, y para el dictado rutinario es el default correcto. Pero las afirmaciones absolutas se vuelven frágiles. Algunas tareas de cola larga — reescrituras muy largas, traducción de idiomas distantes, transformación de dominios raros — pueden beneficiarse de modelos en la nube más grandes. Las actualizaciones de modelos, los reportes de crash, las verificaciones de licencia y la entrega de funciones también crean puntos de contacto con la red en muchos productos.

Así que evitamos la versión-eslogan de la privacidad. La respuesta útil no es "nube mala" ni "magia local". Es una arquitectura híbrida con defaults claros, controles explícitos y un producto que sigue funcionando cuando las funciones de nube están desactivadas.

Qué significa híbrido en Loqua

Aquí está la arquitectura, dicha sin rodeos:

Capa	Dónde corre por defecto	Por qué
Reconocimiento de voz (Capa 1)	On-device, Apple Neural Engine	Presupuesto de latencia; sensibilidad del audio
Inteligencia de lenguaje — limpieza de muletillas, NER, formateo básico (Capa 2)	On-device	Latencia; el vocabulario es tuyo
Contexto multimodal — lectura de pantalla (Capa 3)	On-device	El contenido de pantalla nunca sale de tu máquina
Post-procesamiento en la nube — solo cuando das opt-in	Nube gestionada por Loqua, cifrada con TLS	Reescrituras long-form, ciertas traducciones

Las tres capas núcleo — las que tocan audio y contenido de pantalla — están diseñadas para correr on-device por defecto. Puedes usar Loqua en modo offline para la experiencia núcleo de dictado.

La nube se reserva para casos específicos, opt-in. Cuando se usa: el tráfico de nube va cifrado con TLS; el procesamiento en la nube es de retención cero (la petición se procesa y se descarta); y el usuario puede desactivar la nube por completo desde Ajustes. No entrenamos con datos de usuarios en ningún momento — ni con tráfico de nube, ni con uso on-device.

Cada límite, visible

El principio: si una pieza de tus datos cruza un límite, deberías saberlo sin leer el EULA. Así hacemos visible cada límite:

Indicador en la barra de menús. Cuando Loqua está grabando, el icono de la barra de menús se pone rojo. Cuando se está usando la nube para un enunciado en particular, el indicador es visiblemente distinto (un pequeño overlay de icono de nube). Ves, en tiempo real, si algo está saliendo de tu máquina.
Panel de Ajustes → Privacidad. Lista exactamente qué llamadas a la nube están activadas, con un toggle para cada una. La traducción puede estar activada mientras la reescritura long-form está desactivada, o al revés.
Manejo del audio. El audio no se envía a la nube en la ruta núcleo de dictado por defecto. Las funciones opcionales en la nube son explícitas y se pueden desactivar.
Manejo del contenido de pantalla. El contenido de pantalla leído por la capa de contexto multimodal nunca cruza el cable. Aunque actives la reescritura en la nube, solo va el texto que se está reescribiendo — no la pantalla circundante.
Logs. Los logs locales de depuración no incluyen contenido dictado. Los logs del lado nube no incluyen audio ni transcripciones.

El AED y el procesamiento de contexto multimodal se quedan locales bajo el mismo límite. El trabajo de prototipo descrito en sonidos con significado trata el audio no verbal como una señal local y opt-in, y el listener multimodal descrito en cómo construir un listener que ve lo que tú ves usa contexto de pantalla para el enunciado actual en lugar de crear un log general de pantalla.

Tradeoffs algorítmicos a baja latencia

Correr las capas núcleo on-device mientras se mantiene el dictado responsivo en Macs de consumo es el trabajo de ingeniería más difícil de este stack. Tres cosas lo hicieron factible:

Selección agresiva de operadores para el Neural Engine. No todos los operadores transformer corren eficientemente en el Neural Engine de Apple. Elegimos tipos de capa, variantes de attention y esquemas de cuantización que se mantienen en la ruta rápida. La documentación de Core ML de Apple mapea el conjunto de operadores soportado; salirse de ahí puede ser caro.
Reconocimiento de voz streaming-first. La salida empieza antes de que el enunciado completo se finalice. Las variantes no-streaming pueden mejorar la precisión por enunciado pero se sienten más lentas.
Pipeline paralelo. La capa de contexto corre en paralelo con el reconocimiento de voz. Para cuando la capa de lenguaje está lista para formatear la salida, el contexto de destino ya se ha leído localmente.

El tradeoff: los presupuestos de parámetros son ajustados. Cada capa local es más pequeña que un modelo de nube no restringido por el térmico del laptop. Lo compensamos con datos de entrenamiento específicos para la tarea, fine-tuning cuidadoso y un scope estrecho Mac-first. Los benchmarks internos apuntan actualmente a respuesta de clase 200 ms, alto reconocimiento de vocabulario técnico y un WER bajo de un solo dígito en las condiciones soportadas; los describimos como objetivos internos hasta que exista una página pública de benchmark.

Qué garantizamos

La lista dura:

No entrenamos con datos de usuarios. Ni con audio. Ni con transcripciones. Ni con texto procesado en la nube. Para ninguna versión futura del modelo.
No se sube audio a menos que des opt-in. Default: sin audio a la nube. Las funciones opcionales en la nube son explícitas y por función.
Retención cero en datos procesados en la nube. La petición se procesa y se descarta inmediatamente. No hay "soft-delete de 30 días" — no hay copia que eliminar.
TLS para todo el tráfico de nube. Práctica estándar pero la decimos por completitud.
Modo offline. Un único toggle en Ajustes desactiva todas las llamadas a la nube. Loqua sigue funcionando usando solo las capas on-device.
Sin hooks de navegador. Sin tracking cross-app. Loqua lee el contexto de la app activa solo para el dictado actual. Entre dictados, la capa de contexto multimodal está inactiva.
El Diccionario Personal se queda local. Tu vocabulario personalizado vive en un archivo local. No se sincroniza con ninguna nube y no es visible para nosotros.

Tus controles

La privacidad solo es útil si el usuario tiene controles fáciles de encontrar. Desde el panel Ajustes -> Privacidad puedes:

Desactivar las llamadas opcionales a la nube
Activar o desactivar la reescritura long-form en la nube
Activar o desactivar la traducción en la nube
Excluir aplicaciones específicas de Loqua por completo
Revocar el permiso de micrófono en Ajustes del Sistema de macOS
Revocar el permiso de Accessibility en Ajustes del Sistema de macOS

Para flujos regulados o sensibles a seguridad, usa el modo offline completo y haz tu propia revisión de cumplimiento. No presentamos un post de blog como asesoramiento legal o de cumplimiento HIPAA; el límite del producto es técnico, y los requisitos formales de cumplimiento deberían evaluarse a través del canal de políticas adecuado.

Lecturas adicionales

Documentación de Apple Core ML — para el runtime on-device que Loqua usa.
Resumen de las funciones de privacidad de Apple — para el modelo más amplio de privacidad de Mac sobre el que Loqua construye.
Nuestras notas complementarias: arquitectura de tres modelos y voz y visión: dictado omni-modal.

Si tienes un requisito específico de privacidad o seguridad del dictado por voz que no abordamos aquí, escríbenos. Somos un equipo pequeño y preferimos responder tu pregunta directamente antes que dejarte adivinar a partir de un documento de política genérico. Esa es la versión corta de por qué Loqua se construye primero como un producto de dictado por voz privado en Mac y después como un producto con funciones en la nube.

Preguntas frecuentes

¿Se envía audio a la nube alguna vez?

No por defecto. El reconocimiento de voz corre on-device en Apple Silicon. El audio se envía a la nube solo si activas explícitamente una función en la nube que lo requiera (actualmente: ciertas reescrituras long-form y algunos pares de traducción). Puedes desactivar todas las llamadas en la nube en Ajustes → Privacidad.

¿Loqua entrena con mi dictado o mi audio?

No. Ni con audio, ni con transcripciones, ni con texto procesado en la nube. Para ninguna versión futura del modelo. Usamos conjuntos de datos de entrenamiento cuidadosamente curados que no incluyen contenido de usuarios.

¿Puedo correr Loqua totalmente sin conexión?

Sí. Desactiva todas las llamadas en la nube en Ajustes → Privacidad. La experiencia núcleo de dictado — reconocimiento de voz, contexto multimodal, NER, formateo consciente de la app — corre enteramente on-device. Pierdes las funciones opcionales en la nube (reescrituras long-form, ciertas traducciones) y ganas un stack sin superficie de red.

¿Qué se registra en logs?

Los logs locales de depuración incluyen información diagnóstica (tiempo de carga del modelo, mediciones de latencia, trazas de error) pero no incluyen tu contenido dictado. Los logs del lado nube no incluyen audio ni transcripciones — solo metadatos de petición opacos para fiabilidad del servicio.

¿Y GDPR / CCPA?

Estamos diseñados para cumplir. Como la mayor parte del procesamiento es on-device y el procesamiento en la nube es de retención cero, normalmente no hay datos personales que sometan solicitudes de acceso o eliminación. Para los detalles relevantes de tu jurisdicción, ver nuestra política de privacidad o escríbenos.

¿Puedo usar Loqua en flujos regulados tipo HIPAA?

No trates este post como asesoramiento legal o de cumplimiento HIPAA. Loqua se puede ejecutar con las funciones opcionales en la nube desactivadas para flujos sensibles, pero los despliegues regulados deberían revisarse a través de tu proceso de cumplimiento y cualquier acuerdo requerido.

Prueba Loqua hoy

Gratis para empezar. Nativa de Mac. Hecha por investigadores de algoritmos que la usan a diario.

Descargar

Más del Blog de Loqua

Cómo hacerlo

Cómo dictar código en Mac: una guía completa para Cursor, VS Code y Claude Code

Comparativa

Loqua vs Wispr Flow: una alternativa a Wispr Flow Mac-first para contexto, código y privacidad

Engineering

Reconocimiento de voz multimodal: construyendo un listener que ve lo que tú ves

Engineering

Detección de eventos de audio en el dictado: sonidos con significado más allá de las palabras

Productividad

Stack de productividad por voz: 9 herramientas que usamos de verdad para escribir, lanzar y pensar