Dictado por voz privado en Mac: cómo el stack híbrido de Loqua mantiene tus datos de tu lado
La mayor parte del dictado por voz depende de rutas en la nube. Loqua usa una arquitectura híbrida con capas sensibles local-first, funciones opcionales en la nube y límites visibles.
TL;DR
Si buscas opciones de dictado por voz privado en Mac que no sean solo "transcripción en la nube con una política de privacidad", esta es la respuesta arquitectónica. Loqua es híbrido por diseño: la ruta núcleo sensible — reconocimiento de voz, limpieza local, manejo de entidades nombradas y lectura de pantalla/contexto — está diseñada para correr on-device en Apple Silicon por defecto. Lo tratamos como dictado seguro en Mac porque las capas que tocan audio y contenido de pantalla son local-first, no porque el copy de marketing diga "privado". El procesamiento opcional en la nube se reserva para funciones como reescrituras más largas o traducciones seleccionadas, y se puede desactivar. No entrenamos con datos de dictado de usuarios. El objetivo es un límite visible alrededor de lo que se queda en modo de dictado por voz local y lo que, si se activa, cruza el cable.
Loqua es una herramienta de dictado por voz consciente del contexto para Mac. El hecho de que pueda usar contexto de pantalla hace que la historia de privacidad sea central. Si un producto de dictado puede ver tu código, tus mensajes y tus correos a medio redactar, la arquitectura alrededor de esos datos no es una nota al pie de marketing — es el producto.
Soy Shuran, y co-construí este stack con un equipo pequeño de investigadores de algoritmos. Usamos Loqua para nuestro propio Slack interno, email, prompts de coding y revisión de código. El estándar que queríamos era simple: mantener la ruta sensible local por defecto, hacer visible el uso opcional de la nube y evitar entrenar con datos de dictado de usuarios.
El tradeoff del "nube por defecto"
Muchos productos modernos de dictado usan transcripción en la nube. Puede ser una elección de ingeniería razonable: modelos grandes, actualizaciones centralizadas, consistencia multiplataforma, controles empresariales y modos documentados de retención cero pueden vivir en esa arquitectura.
El tradeoff es la superficie. Una vez que el audio o el contexto cruzan el cable, hay una ruta de servidor entre tu micrófono y tu cursor: transporte, colas, logs, proveedores de modelos, metadatos operativos y política empresarial. Los buenos proveedores gestionan esa superficie con cuidado. Pero los usuarios aún necesitan entender dónde está el límite.
Loqua parte de un default distinto. Las capas que tocan audio y contexto de pantalla están diseñadas para correr localmente primero. Las funciones opcionales en la nube se tratan como límites de función explícitos, no como tuberías invisibles.
Por qué el on-device puro sigue siendo un tradeoff
La IA puramente on-device es atractiva, y para el dictado rutinario es el default correcto. Pero las afirmaciones absolutas se vuelven frágiles. Algunas tareas de cola larga — reescrituras muy largas, traducción de idiomas distantes, transformación de dominios raros — pueden beneficiarse de modelos en la nube más grandes. Las actualizaciones de modelos, los reportes de crash, las verificaciones de licencia y la entrega de funciones también crean puntos de contacto con la red en muchos productos.
Así que evitamos la versión-eslogan de la privacidad. La respuesta útil no es "nube mala" ni "magia local". Es una arquitectura híbrida con defaults claros, controles explícitos y un producto que sigue funcionando cuando las funciones de nube están desactivadas.
Qué significa híbrido en Loqua
Aquí está la arquitectura, dicha sin rodeos:
| Capa | Dónde corre por defecto | Por qué |
|---|---|---|
| Reconocimiento de voz (Capa 1) | On-device, Apple Neural Engine | Presupuesto de latencia; sensibilidad del audio |
| Inteligencia de lenguaje — limpieza de muletillas, NER, formateo básico (Capa 2) | On-device | Latencia; el vocabulario es tuyo |
| Contexto multimodal — lectura de pantalla (Capa 3) | On-device | El contenido de pantalla nunca sale de tu máquina |
| Post-procesamiento en la nube — solo cuando das opt-in | Nube gestionada por Loqua, cifrada con TLS | Reescrituras long-form, ciertas traducciones |
Las tres capas núcleo — las que tocan audio y contenido de pantalla — están diseñadas para correr on-device por defecto. Puedes usar Loqua en modo offline para la experiencia núcleo de dictado.
La nube se reserva para casos específicos, opt-in. Cuando se usa: el tráfico de nube va cifrado con TLS; el procesamiento en la nube es de retención cero (la petición se procesa y se descarta); y el usuario puede desactivar la nube por completo desde Ajustes. No entrenamos con datos de usuarios en ningún momento — ni con tráfico de nube, ni con uso on-device.
Cada límite, visible
El principio: si una pieza de tus datos cruza un límite, deberías saberlo sin leer el EULA. Así hacemos visible cada límite:
- Indicador en la barra de menús. Cuando Loqua está grabando, el icono de la barra de menús se pone rojo. Cuando se está usando la nube para un enunciado en particular, el indicador es visiblemente distinto (un pequeño overlay de icono de nube). Ves, en tiempo real, si algo está saliendo de tu máquina.
- Panel de Ajustes → Privacidad. Lista exactamente qué llamadas a la nube están activadas, con un toggle para cada una. La traducción puede estar activada mientras la reescritura long-form está desactivada, o al revés.
- Manejo del audio. El audio no se envía a la nube en la ruta núcleo de dictado por defecto. Las funciones opcionales en la nube son explícitas y se pueden desactivar.
- Manejo del contenido de pantalla. El contenido de pantalla leído por la capa de contexto multimodal nunca cruza el cable. Aunque actives la reescritura en la nube, solo va el texto que se está reescribiendo — no la pantalla circundante.
- Logs. Los logs locales de depuración no incluyen contenido dictado. Los logs del lado nube no incluyen audio ni transcripciones.
El AED y el procesamiento de contexto multimodal se quedan locales bajo el mismo límite. El trabajo de prototipo descrito en sonidos con significado trata el audio no verbal como una señal local y opt-in, y el listener multimodal descrito en cómo construir un listener que ve lo que tú ves usa contexto de pantalla para el enunciado actual en lugar de crear un log general de pantalla.
Tradeoffs algorítmicos a baja latencia
Correr las capas núcleo on-device mientras se mantiene el dictado responsivo en Macs de consumo es el trabajo de ingeniería más difícil de este stack. Tres cosas lo hicieron factible:
- Selección agresiva de operadores para el Neural Engine. No todos los operadores transformer corren eficientemente en el Neural Engine de Apple. Elegimos tipos de capa, variantes de attention y esquemas de cuantización que se mantienen en la ruta rápida. La documentación de Core ML de Apple mapea el conjunto de operadores soportado; salirse de ahí puede ser caro.
- Reconocimiento de voz streaming-first. La salida empieza antes de que el enunciado completo se finalice. Las variantes no-streaming pueden mejorar la precisión por enunciado pero se sienten más lentas.
- Pipeline paralelo. La capa de contexto corre en paralelo con el reconocimiento de voz. Para cuando la capa de lenguaje está lista para formatear la salida, el contexto de destino ya se ha leído localmente.
El tradeoff: los presupuestos de parámetros son ajustados. Cada capa local es más pequeña que un modelo de nube no restringido por el térmico del laptop. Lo compensamos con datos de entrenamiento específicos para la tarea, fine-tuning cuidadoso y un scope estrecho Mac-first. Los benchmarks internos apuntan actualmente a respuesta de clase 200 ms, alto reconocimiento de vocabulario técnico y un WER bajo de un solo dígito en las condiciones soportadas; los describimos como objetivos internos hasta que exista una página pública de benchmark.
Qué garantizamos
La lista dura:
- No entrenamos con datos de usuarios. Ni con audio. Ni con transcripciones. Ni con texto procesado en la nube. Para ninguna versión futura del modelo.
- No se sube audio a menos que des opt-in. Default: sin audio a la nube. Las funciones opcionales en la nube son explícitas y por función.
- Retención cero en datos procesados en la nube. La petición se procesa y se descarta inmediatamente. No hay "soft-delete de 30 días" — no hay copia que eliminar.
- TLS para todo el tráfico de nube. Práctica estándar pero la decimos por completitud.
- Modo offline. Un único toggle en Ajustes desactiva todas las llamadas a la nube. Loqua sigue funcionando usando solo las capas on-device.
- Sin hooks de navegador. Sin tracking cross-app. Loqua lee el contexto de la app activa solo para el dictado actual. Entre dictados, la capa de contexto multimodal está inactiva.
- El Diccionario Personal se queda local. Tu vocabulario personalizado vive en un archivo local. No se sincroniza con ninguna nube y no es visible para nosotros.
Tus controles
La privacidad solo es útil si el usuario tiene controles fáciles de encontrar. Desde el panel Ajustes -> Privacidad puedes:
- Desactivar las llamadas opcionales a la nube
- Activar o desactivar la reescritura long-form en la nube
- Activar o desactivar la traducción en la nube
- Excluir aplicaciones específicas de Loqua por completo
- Revocar el permiso de micrófono en Ajustes del Sistema de macOS
- Revocar el permiso de Accessibility en Ajustes del Sistema de macOS
Para flujos regulados o sensibles a seguridad, usa el modo offline completo y haz tu propia revisión de cumplimiento. No presentamos un post de blog como asesoramiento legal o de cumplimiento HIPAA; el límite del producto es técnico, y los requisitos formales de cumplimiento deberían evaluarse a través del canal de políticas adecuado.
Lecturas adicionales
- Documentación de Apple Core ML — para el runtime on-device que Loqua usa.
- Resumen de las funciones de privacidad de Apple — para el modelo más amplio de privacidad de Mac sobre el que Loqua construye.
- Nuestras notas complementarias: arquitectura de tres modelos y voz y visión: dictado omni-modal.
Si tienes un requisito específico de privacidad o seguridad del dictado por voz que no abordamos aquí, escríbenos. Somos un equipo pequeño y preferimos responder tu pregunta directamente antes que dejarte adivinar a partir de un documento de política genérico. Esa es la versión corta de por qué Loqua se construye primero como un producto de dictado por voz privado en Mac y después como un producto con funciones en la nube.
Preguntas frecuentes
Prueba Loqua hoy
Gratis para empezar. Nativo de Mac. Hecho por investigadores de algoritmos que lo usan cada día.
Download for Mac