Voz encontra visão: como modelos omni-modais liberam a digitação por voz multimodal
Do ASR apenas com áudio para áudio + visão + texto — a mudança de paradigma que transformou a digitação por voz de "transcreva o que eu disse" em "escreva o que eu quis dizer, onde eu quis dizer".
TL;DR
Digitação por voz multimodal significa que o sistema usa fala mais contexto local para decidir no que as palavras devem se transformar. A Loqua é uma ferramenta de digitação por voz ciente de contexto para Mac: ela escuta sua voz, lê o contexto local do destino e escreve texto adaptado ao app. Esta introdução explica por que a digitação por voz ciente da tela importa sem entrar na arquitetura completa.
A Loqua é uma ferramenta de digitação por voz ciente de contexto para Mac. A mudança importante é sair da transcrição e ir para uma escrita ciente do destino: a mesma frase falada deve virar textos diferentes no Slack, Cursor, GitHub, Apple Notes e em um editor de código.
Esta é a versão introdutória do nosso pensamento sobre voz + visão em IA. Pesquisas abertas em áudio, linguagem e sistemas multimodais dão ao campo um vocabulário útil, mas a stack de produção da Loqua é um trabalho original, treinado e otimizado internamente para ditado no Mac.
A mudança da transcrição para o contexto
ASR apenas com áudio responde a uma pergunta: quais palavras o usuário disse? Ditado faz uma segunda pergunta: no que essas palavras devem se transformar no cursor? Essa segunda pergunta é o motivo de existir digitação por voz multimodal. Uma transcrição pode estar correta e ainda assim estar errada para o destino.
Quando você dita em um editor de código, pontuação, identificadores, comentários e texto selecionado importam. Quando você dita em um email, tom e formato dos parágrafos importam. Quando você dita em um app de tarefas, responsável e prazo importam. A digitação por voz ciente da tela transforma essas pistas visíveis em restrições para a escrita.
Por que o contexto da tela muda o ditado
A mesma frase pode significar coisas diferentes dependendo do app. "Add a guard before fetch profile" deve virar texto próximo de código em uma IDE, uma tarefa no Linear e um pedido simples no Slack. Só o áudio não consegue escolher com confiabilidade entre esses formatos.
A camada de contexto da Loqua lê sinais locais como app ativo, texto selecionado, texto visível ao redor e tipo do campo de destino. Ela não precisa de uma narrativa completa da captura de tela. Precisa de evidência local suficiente para preservar identificadores, decidir se você está inserindo ou editando e escolher o formato certo de saída.
O que muda no cursor
if (!user.isLoggedIn) { return redirect('/signin');}A saída muda porque o destino muda. Esse é o valor prático do ditado com modelo omni como categoria de produto: o contexto toma decisões de escrita que uma transcrição não consegue tomar.
O limite de privacidade
O contexto da tela é poderoso o bastante para exigir um limite claro. O caminho de contexto da Loqua é local-first por padrão. O app ativo, o texto selecionado e o conteúdo visível por perto são usados para moldar a fala atual, não para criar um registro geral da tela.
Para ver o limite completo, leia privacidade por design com arquitetura híbrida. A versão curta: áudio e contexto de tela são tratados como sinais locais sensíveis, e recursos opcionais em nuvem não recebem o conteúdo bruto ao redor na tela.
Quer se aprofundar?
- Por dentro da nossa stack de voz omni-modal — o pipeline de instruções multimodais, MoE e streaming.
- Construindo um ouvinte que vê o que você vê — como o contexto multimodal resolve ambiguidades de ASR.
- Sons com significado — AED, legendagem de áudio e a próxima fronteira.
Leituras adicionais
Para contexto de literatura, comece com Whisper para reconhecimento de fala robusto, LLaVA para ajuste de instruções visuais e ImageBind para alinhamento entre modalidades. Esses links explicam o campo; não são uma declaração de proveniência sobre a Loqua.
Perguntas frequentes
Experimente a Loqua hoje
Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.
Baixar para Mac