Engenharia

Ditado por voz privado no Mac: como a stack híbrida de digitação por voz do Loqua mantém seus dados do seu lado

A maior parte do ditado por voz depende de caminhos em nuvem. O Loqua usa uma arquitetura híbrida com camadas sensíveis local-first, recursos opcionais em nuvem e limites visíveis.

Resumo

Se você procura opções de ditado por voz privado no Mac que não sejam apenas "transcrição em nuvem com uma política de privacidade", esta é a resposta arquitetural. O Loqua é híbrido por desenho: o caminho central sensível — reconhecimento de fala, limpeza local, tratamento de entidades nomeadas e leitura de tela/contexto — é projetado para rodar no dispositivo em Apple Silicon por padrão. Tratamos isso como ditado seguro no Mac porque as camadas que tocam áudio e conteúdo de tela são local-first, não porque o texto de marketing diz "privado". Processamento opcional em nuvem fica reservado para recursos como reescritas mais longas ou traduções selecionadas, e pode ser desativado. Não treinamos com dados de ditado dos usuários. O objetivo é uma fronteira visível entre o que fica no modo de digitação por voz local e o que, se habilitado, atravessa a rede.

O Loqua é uma ferramenta de digitação por voz com consciência de contexto para Mac. O fato de ele poder usar contexto de tela torna a história de privacidade central. Se um produto de ditado consegue ver seu código, suas mensagens e seus emails meio rascunhados, a arquitetura ao redor desses dados não é uma nota de rodapé de marketing - é o produto.

Sou Shuran, e construí esta stack com um pequeno time de pesquisadores de algoritmos. Usamos o Loqua no nosso próprio Slack interno, email, prompts de código e code review. O padrão que queríamos era simples: manter o caminho sensível local por padrão, tornar o uso opcional de nuvem visível e evitar treinamento em dados de ditado dos usuários.

A troca do cloud-default

Muitos produtos modernos de ditado usam transcrição em nuvem. Isso pode ser uma escolha de engenharia razoável: modelos grandes, atualizações centralizadas, consistência multiplataforma, controles enterprise e modos documentados de retenção zero de dados podem viver nessa arquitetura.

A troca é área de superfície. Quando áudio ou contexto atravessa a rede, passa a existir um caminho de servidor entre seu microfone e seu cursor: transporte, filas, logs, provedores de modelo, metadados operacionais e política corporativa. Bons fornecedores gerenciam essa superfície com cuidado. Mas os usuários ainda precisam entender onde fica a fronteira.

O Loqua começa de outro padrão. As camadas que tocam áudio e contexto de tela são projetadas para rodar localmente primeiro. Recursos opcionais em nuvem são tratados como fronteiras explícitas de recurso, não encanamento invisível.

Por que pure on-device ainda é uma troca

IA totalmente no dispositivo é atraente e, para ditado rotineiro, é o padrão certo. Mas afirmações absolutas ficam frágeis. Algumas tarefas long-tail - reescritas muito longas, tradução para idiomas distantes, transformação de domínios raros - podem se beneficiar de modelos maiores em nuvem. Atualizações de modelo, relatórios de crash, checagens de licença e entrega de recursos também criam pontos de contato de rede em muitos produtos.

Por isso evitamos a versão slogan da privacidade. A resposta útil não é "nuvem ruim" ou "local mágico". É uma arquitetura híbrida com padrões claros, controles explícitos e um produto que continua funcionando quando recursos de nuvem são desativados.

O que híbrido significa no Loqua

A arquitetura, em termos diretos:

CamadaOnde roda por padrãoPor quê
Reconhecimento de fala (Camada 1)No dispositivo, Apple Neural EngineOrçamento de latência; sensibilidade do áudio
Inteligência de linguagem — limpeza de vícios, NER, formatação básica (Camada 2)No dispositivoLatência; o vocabulário é seu
Contexto multimodal — leitura de tela (Camada 3)No dispositivoConteúdo da tela nunca sai da sua máquina
Pós-processamento em nuvem — apenas com seu opt-inNuvem gerenciada pelo Loqua, criptografada por TLSReescritas longas, certas traduções

As três camadas centrais — as que tocam áudio e conteúdo de tela — são projetadas para rodar no dispositivo por padrão. Você pode usar o Loqua em modo offline para a experiência central de ditado.

A nuvem fica reservada para casos específicos, com opt-in. Quando é usada: o tráfego de nuvem é criptografado por TLS; o processamento em nuvem tem retenção zero (a solicitação é processada e descartada); e o usuário pode desativar totalmente a nuvem em Ajustes. Não treinamos com dados de usuário em nenhum momento — nem em tráfego de nuvem, nem em uso on-device.

Cada limite, visível

O princípio: se uma parte dos seus dados atravessa uma fronteira, você deve saber disso sem ler o EULA. É assim que tornamos cada limite visível:

  • Indicador na barra de menus. Quando o Loqua está gravando, o ícone da barra de menus fica vermelho. Quando a nuvem está sendo usada para uma fala específica, o indicador muda visivelmente (um pequeno overlay de ícone de nuvem). Você vê, em tempo real, se algo está saindo da sua máquina.
  • Painel Ajustes → Privacidade. Lista exatamente quais chamadas de nuvem estão habilitadas, com toggles para cada uma. Tradução pode estar ligada enquanto reescrita longa está desligada, ou vice-versa.
  • Tratamento de áudio. Áudio não é enviado para a nuvem no caminho padrão de ditado central. Recursos opcionais em nuvem são explícitos e podem ser desativados.
  • Tratamento de conteúdo de tela. Conteúdo de tela lido pela camada de contexto multimodal nunca atravessa a rede. Mesmo se você habilitar reescrita em nuvem, só o texto que será reescrito vai — não a tela ao redor.
  • Logging. Logs locais de debug não incluem conteúdo ditado. Logs no lado da nuvem não incluem áudio nem transcrições.

AED e processamento de contexto multimodal permanecem locais sob a mesma fronteira. O trabalho de protótipo descrito em sons com significado trata áudio não verbal como um sinal local e opt-in, e o listener multimodal descrito em construindo um ouvinte que vê o que você vê usa contexto de tela para a fala atual em vez de criar um log geral de tela.

Tradeoffs algorítmicos em baixa latência

Executar as camadas centrais no dispositivo mantendo o ditado responsivo em Macs de consumo é o trabalho de engenharia mais difícil desta stack. Três coisas tornaram isso viável:

  • Seleção agressiva de operadores para o Neural Engine. Nem todo operador de transformer roda com eficiência no Neural Engine da Apple. Escolhemos tipos de camada, variantes de attention e esquemas de quantização que permanecem no caminho rápido. A documentação do Core ML da Apple mapeia o conjunto de operadores suportados; sair dele pode custar caro.
  • Reconhecimento de fala streaming-first. A saída começa antes de a fala completa ser finalizada. Variantes não streaming podem melhorar a precisão por fala, mas parecem mais lentas.
  • Pipeline paralelo. A camada de contexto roda em paralelo com o reconhecimento de fala. Quando a camada de linguagem está pronta para formatar a saída, o contexto de destino já foi lido localmente.

A troca: os orçamentos de parâmetros são apertados. Cada camada local é menor que um modelo em nuvem sem restrições térmicas de laptop. Compensamos com dados de treinamento específicos por tarefa, fine-tuning cuidadoso e um escopo Mac-first estreito. Benchmarks internos hoje miram resposta na classe de 200 ms, alto reconhecimento de vocabulário técnico e WER baixo de um dígito em condições suportadas; descrevemos isso como metas internas até existir uma página pública de benchmark.

O que garantimos

A lista dura:

  • Sem treinamento em dados de usuário. Não em áudio. Não em transcrições. Não em texto processado na nuvem. Não para nenhuma versão futura de modelo.
  • Sem upload de áudio salvo opt-in. Padrão: sem áudio em nuvem. Recursos de nuvem com opt-in são explícitos e por recurso.
  • Retenção zero em dados processados na nuvem. A solicitação é processada e descartada imediatamente. Não existe "soft-delete de 30 dias" — não existe cópia para apagar.
  • TLS para todo tráfego de nuvem. Prática padrão, mas declarada por completude.
  • Modo offline. Um único toggle em Ajustes desativa todas as chamadas de nuvem. O Loqua continua funcionando usando apenas as camadas on-device.
  • Sem hooks de navegador. Sem rastreamento entre apps. O Loqua lê o contexto do app ativo apenas para o ditado atual. Entre ditados, a camada de contexto multimodal fica ociosa.
  • Dicionário Pessoal fica local. Seu vocabulário personalizado vive em um arquivo local. Ele não sincroniza com nenhuma nuvem e não é visível para nós.

Seus controles

Privacidade só é útil se o usuário tiver controles fáceis de encontrar. No painel Ajustes -> Privacidade, você pode:

  • Desativar chamadas opcionais de nuvem
  • Ligar ou desligar reescrita longa em nuvem
  • Ligar ou desligar tradução em nuvem
  • Excluir apps específicos do Loqua por completo
  • Revogar permissão de microfone nos Ajustes do Sistema do macOS
  • Revogar permissão de Acessibilidade nos Ajustes do Sistema do macOS

Para fluxos regulamentados ou sensíveis à segurança, use o modo offline completo e faça sua própria revisão de compliance. Não apresentamos um post de blog como aconselhamento jurídico ou de conformidade HIPAA; a fronteira do produto é técnica, e requisitos formais de compliance devem ser avaliados pelo canal de política adequado.

Leitura complementar

Se você tem um requisito específico de privacidade ou segurança em digitação por voz que não abordamos aqui, envie um email. Somos um time pequeno e preferimos responder diretamente à sua pergunta a deixar você adivinhar a partir de um documento genérico de política. Essa é a versão curta de por que o Loqua foi construído primeiro como um produto de ditado por voz privado para Mac e depois como um produto com recursos em nuvem.

Perguntas frequentes

O áudio é enviado para a nuvem em algum momento?
Não por padrão. O reconhecimento de fala roda no dispositivo em Apple Silicon. Áudio só é enviado para a nuvem se você habilitar explicitamente um recurso de nuvem que exija isso (atualmente: certas reescritas longas e alguns pares de tradução). Você pode desativar todas as chamadas de nuvem em Ajustes → Privacidade.
O Loqua treina com meu ditado ou meu áudio?
Não. Nem com áudio, nem com transcrições, nem com texto processado na nuvem. Nem para qualquer versão futura de modelo. Usamos conjuntos de dados de treinamento cuidadosamente curados que não incluem conteúdo de usuários.
Posso rodar o Loqua totalmente offline?
Sim. Desligue todas as chamadas de nuvem em Ajustes → Privacidade. A experiência central de ditado — reconhecimento de fala, contexto multimodal, NER, formatação sensível ao app — roda inteiramente no dispositivo. Você perde os recursos opcionais de nuvem (reescritas longas, certas traduções) e ganha uma stack sem superfície de rede.
O que é registrado em logs?
Logs locais de debug incluem informações diagnósticas (tempo de carregamento do modelo, medições de latência, rastros de erro), mas não incluem o conteúdo que você ditou. Logs no lado da nuvem não incluem áudio nem transcrições — apenas metadados opacos de solicitação para confiabilidade do serviço.
E GDPR / CCPA?
Fomos projetados para cumprir. Como a maior parte do processamento é no dispositivo e o processamento em nuvem tem retenção zero, normalmente não há dados pessoais sujeitos a pedidos de acesso ou exclusão. Para detalhes relevantes à sua jurisdição, veja nossa política de privacidade ou envie um email.
Posso usar o Loqua em fluxos regulamentados no estilo HIPAA?
Não trate este post como aconselhamento jurídico ou de conformidade HIPAA. O Loqua pode ser usado com recursos opcionais de nuvem desativados em fluxos sensíveis, mas implantações regulamentadas devem passar pelo seu processo de compliance e por quaisquer acordos exigidos.

Experimente a Loqua hoje

Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.

Baixar para Mac

Mais no Blog da Loqua

Como fazer
Como ditar código no Mac: guia completo para Cursor, VS Code e Claude Code
Comparativo
Loqua vs Wispr Flow: uma alternativa ao Wispr Flow pensada para Mac, contexto, código e privacidade
Engenharia
Reconhecimento de voz multimodal: construindo um ouvinte que vê o que você vê
Engenharia
Detecção de eventos de áudio em ditado: sons com significado além das palavras
Produtividade
Stack de produtividade por voz: 9 ferramentas que realmente usamos para escrever, entregar e pensar