Ditado por voz privado no Mac: como a stack híbrida de digitação por voz do Loqua mantém seus dados do seu lado
A maior parte do ditado por voz depende de caminhos em nuvem. O Loqua usa uma arquitetura híbrida com camadas sensíveis local-first, recursos opcionais em nuvem e limites visíveis.
Resumo
Se você procura opções de ditado por voz privado no Mac que não sejam apenas "transcrição em nuvem com uma política de privacidade", esta é a resposta arquitetural. O Loqua é híbrido por desenho: o caminho central sensível — reconhecimento de fala, limpeza local, tratamento de entidades nomeadas e leitura de tela/contexto — é projetado para rodar no dispositivo em Apple Silicon por padrão. Tratamos isso como ditado seguro no Mac porque as camadas que tocam áudio e conteúdo de tela são local-first, não porque o texto de marketing diz "privado". Processamento opcional em nuvem fica reservado para recursos como reescritas mais longas ou traduções selecionadas, e pode ser desativado. Não treinamos com dados de ditado dos usuários. O objetivo é uma fronteira visível entre o que fica no modo de digitação por voz local e o que, se habilitado, atravessa a rede.
O Loqua é uma ferramenta de digitação por voz com consciência de contexto para Mac. O fato de ele poder usar contexto de tela torna a história de privacidade central. Se um produto de ditado consegue ver seu código, suas mensagens e seus emails meio rascunhados, a arquitetura ao redor desses dados não é uma nota de rodapé de marketing - é o produto.
Sou Shuran, e construí esta stack com um pequeno time de pesquisadores de algoritmos. Usamos o Loqua no nosso próprio Slack interno, email, prompts de código e code review. O padrão que queríamos era simples: manter o caminho sensível local por padrão, tornar o uso opcional de nuvem visível e evitar treinamento em dados de ditado dos usuários.
A troca do cloud-default
Muitos produtos modernos de ditado usam transcrição em nuvem. Isso pode ser uma escolha de engenharia razoável: modelos grandes, atualizações centralizadas, consistência multiplataforma, controles enterprise e modos documentados de retenção zero de dados podem viver nessa arquitetura.
A troca é área de superfície. Quando áudio ou contexto atravessa a rede, passa a existir um caminho de servidor entre seu microfone e seu cursor: transporte, filas, logs, provedores de modelo, metadados operacionais e política corporativa. Bons fornecedores gerenciam essa superfície com cuidado. Mas os usuários ainda precisam entender onde fica a fronteira.
O Loqua começa de outro padrão. As camadas que tocam áudio e contexto de tela são projetadas para rodar localmente primeiro. Recursos opcionais em nuvem são tratados como fronteiras explícitas de recurso, não encanamento invisível.
Por que pure on-device ainda é uma troca
IA totalmente no dispositivo é atraente e, para ditado rotineiro, é o padrão certo. Mas afirmações absolutas ficam frágeis. Algumas tarefas long-tail - reescritas muito longas, tradução para idiomas distantes, transformação de domínios raros - podem se beneficiar de modelos maiores em nuvem. Atualizações de modelo, relatórios de crash, checagens de licença e entrega de recursos também criam pontos de contato de rede em muitos produtos.
Por isso evitamos a versão slogan da privacidade. A resposta útil não é "nuvem ruim" ou "local mágico". É uma arquitetura híbrida com padrões claros, controles explícitos e um produto que continua funcionando quando recursos de nuvem são desativados.
O que híbrido significa no Loqua
A arquitetura, em termos diretos:
| Camada | Onde roda por padrão | Por quê |
|---|---|---|
| Reconhecimento de fala (Camada 1) | No dispositivo, Apple Neural Engine | Orçamento de latência; sensibilidade do áudio |
| Inteligência de linguagem — limpeza de vícios, NER, formatação básica (Camada 2) | No dispositivo | Latência; o vocabulário é seu |
| Contexto multimodal — leitura de tela (Camada 3) | No dispositivo | Conteúdo da tela nunca sai da sua máquina |
| Pós-processamento em nuvem — apenas com seu opt-in | Nuvem gerenciada pelo Loqua, criptografada por TLS | Reescritas longas, certas traduções |
As três camadas centrais — as que tocam áudio e conteúdo de tela — são projetadas para rodar no dispositivo por padrão. Você pode usar o Loqua em modo offline para a experiência central de ditado.
A nuvem fica reservada para casos específicos, com opt-in. Quando é usada: o tráfego de nuvem é criptografado por TLS; o processamento em nuvem tem retenção zero (a solicitação é processada e descartada); e o usuário pode desativar totalmente a nuvem em Ajustes. Não treinamos com dados de usuário em nenhum momento — nem em tráfego de nuvem, nem em uso on-device.
Cada limite, visível
O princípio: se uma parte dos seus dados atravessa uma fronteira, você deve saber disso sem ler o EULA. É assim que tornamos cada limite visível:
- Indicador na barra de menus. Quando o Loqua está gravando, o ícone da barra de menus fica vermelho. Quando a nuvem está sendo usada para uma fala específica, o indicador muda visivelmente (um pequeno overlay de ícone de nuvem). Você vê, em tempo real, se algo está saindo da sua máquina.
- Painel Ajustes → Privacidade. Lista exatamente quais chamadas de nuvem estão habilitadas, com toggles para cada uma. Tradução pode estar ligada enquanto reescrita longa está desligada, ou vice-versa.
- Tratamento de áudio. Áudio não é enviado para a nuvem no caminho padrão de ditado central. Recursos opcionais em nuvem são explícitos e podem ser desativados.
- Tratamento de conteúdo de tela. Conteúdo de tela lido pela camada de contexto multimodal nunca atravessa a rede. Mesmo se você habilitar reescrita em nuvem, só o texto que será reescrito vai — não a tela ao redor.
- Logging. Logs locais de debug não incluem conteúdo ditado. Logs no lado da nuvem não incluem áudio nem transcrições.
AED e processamento de contexto multimodal permanecem locais sob a mesma fronteira. O trabalho de protótipo descrito em sons com significado trata áudio não verbal como um sinal local e opt-in, e o listener multimodal descrito em construindo um ouvinte que vê o que você vê usa contexto de tela para a fala atual em vez de criar um log geral de tela.
Tradeoffs algorítmicos em baixa latência
Executar as camadas centrais no dispositivo mantendo o ditado responsivo em Macs de consumo é o trabalho de engenharia mais difícil desta stack. Três coisas tornaram isso viável:
- Seleção agressiva de operadores para o Neural Engine. Nem todo operador de transformer roda com eficiência no Neural Engine da Apple. Escolhemos tipos de camada, variantes de attention e esquemas de quantização que permanecem no caminho rápido. A documentação do Core ML da Apple mapeia o conjunto de operadores suportados; sair dele pode custar caro.
- Reconhecimento de fala streaming-first. A saída começa antes de a fala completa ser finalizada. Variantes não streaming podem melhorar a precisão por fala, mas parecem mais lentas.
- Pipeline paralelo. A camada de contexto roda em paralelo com o reconhecimento de fala. Quando a camada de linguagem está pronta para formatar a saída, o contexto de destino já foi lido localmente.
A troca: os orçamentos de parâmetros são apertados. Cada camada local é menor que um modelo em nuvem sem restrições térmicas de laptop. Compensamos com dados de treinamento específicos por tarefa, fine-tuning cuidadoso e um escopo Mac-first estreito. Benchmarks internos hoje miram resposta na classe de 200 ms, alto reconhecimento de vocabulário técnico e WER baixo de um dígito em condições suportadas; descrevemos isso como metas internas até existir uma página pública de benchmark.
O que garantimos
A lista dura:
- Sem treinamento em dados de usuário. Não em áudio. Não em transcrições. Não em texto processado na nuvem. Não para nenhuma versão futura de modelo.
- Sem upload de áudio salvo opt-in. Padrão: sem áudio em nuvem. Recursos de nuvem com opt-in são explícitos e por recurso.
- Retenção zero em dados processados na nuvem. A solicitação é processada e descartada imediatamente. Não existe "soft-delete de 30 dias" — não existe cópia para apagar.
- TLS para todo tráfego de nuvem. Prática padrão, mas declarada por completude.
- Modo offline. Um único toggle em Ajustes desativa todas as chamadas de nuvem. O Loqua continua funcionando usando apenas as camadas on-device.
- Sem hooks de navegador. Sem rastreamento entre apps. O Loqua lê o contexto do app ativo apenas para o ditado atual. Entre ditados, a camada de contexto multimodal fica ociosa.
- Dicionário Pessoal fica local. Seu vocabulário personalizado vive em um arquivo local. Ele não sincroniza com nenhuma nuvem e não é visível para nós.
Seus controles
Privacidade só é útil se o usuário tiver controles fáceis de encontrar. No painel Ajustes -> Privacidade, você pode:
- Desativar chamadas opcionais de nuvem
- Ligar ou desligar reescrita longa em nuvem
- Ligar ou desligar tradução em nuvem
- Excluir apps específicos do Loqua por completo
- Revogar permissão de microfone nos Ajustes do Sistema do macOS
- Revogar permissão de Acessibilidade nos Ajustes do Sistema do macOS
Para fluxos regulamentados ou sensíveis à segurança, use o modo offline completo e faça sua própria revisão de compliance. Não apresentamos um post de blog como aconselhamento jurídico ou de conformidade HIPAA; a fronteira do produto é técnica, e requisitos formais de compliance devem ser avaliados pelo canal de política adequado.
Leitura complementar
- Documentação do Apple Core ML — para o runtime on-device que o Loqua usa.
- Visão geral dos recursos de privacidade da Apple — para o modelo mais amplo de privacidade no Mac sobre o qual o Loqua se apoia.
- Nossas notas complementares: arquitetura de três modelos e voz encontra visão: ditado omnimodal.
Se você tem um requisito específico de privacidade ou segurança em digitação por voz que não abordamos aqui, envie um email. Somos um time pequeno e preferimos responder diretamente à sua pergunta a deixar você adivinhar a partir de um documento genérico de política. Essa é a versão curta de por que o Loqua foi construído primeiro como um produto de ditado por voz privado para Mac e depois como um produto com recursos em nuvem.
Perguntas frequentes
Experimente a Loqua hoje
Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.
Baixar para Mac