Engenharia

Voz encontra visão: como modelos omni-modais liberam a digitação por voz multimodal

Do ASR apenas com áudio para áudio + visão + texto — a mudança de paradigma que transformou a digitação por voz de "transcreva o que eu disse" em "escreva o que eu quis dizer, onde eu quis dizer".

Shuran Zhou, Founder · 2026-04-08 ·3 min ·Atualizado em 2026-04-08

TL;DR

Digitação por voz multimodal significa que o sistema usa fala mais contexto local para decidir no que as palavras devem se transformar. A Loqua é uma ferramenta de digitação por voz ciente de contexto para Mac: ela escuta sua voz, lê o contexto local do destino e escreve texto adaptado ao app. Esta introdução explica por que a digitação por voz ciente da tela importa sem entrar na arquitetura completa.

A Loqua é uma ferramenta de digitação por voz ciente de contexto para Mac. A mudança importante é sair da transcrição e ir para uma escrita ciente do destino: a mesma frase falada deve virar textos diferentes no Slack, Cursor, GitHub, Apple Notes e em um editor de código.

Esta é a versão introdutória do nosso pensamento sobre voz + visão em IA. Pesquisas abertas em áudio, linguagem e sistemas multimodais dão ao campo um vocabulário útil, mas a stack de produção da Loqua é um trabalho original, treinado e otimizado internamente para ditado no Mac.

A mudança da transcrição para o contexto

ASR apenas com áudio responde a uma pergunta: quais palavras o usuário disse? Ditado faz uma segunda pergunta: no que essas palavras devem se transformar no cursor? Essa segunda pergunta é o motivo de existir digitação por voz multimodal. Uma transcrição pode estar correta e ainda assim estar errada para o destino.

Quando você dita em um editor de código, pontuação, identificadores, comentários e texto selecionado importam. Quando você dita em um email, tom e formato dos parágrafos importam. Quando você dita em um app de tarefas, responsável e prazo importam. A digitação por voz ciente da tela transforma essas pistas visíveis em restrições para a escrita.

Por que o contexto da tela muda o ditado

A mesma frase pode significar coisas diferentes dependendo do app. "Add a guard before fetch profile" deve virar texto próximo de código em uma IDE, uma tarefa no Linear e um pedido simples no Slack. Só o áudio não consegue escolher com confiabilidade entre esses formatos.

A camada de contexto da Loqua lê sinais locais como app ativo, texto selecionado, texto visível ao redor e tipo do campo de destino. Ela não precisa de uma narrativa completa da captura de tela. Precisa de evidência local suficiente para preservar identificadores, decidir se você está inserindo ou editando e escolher o formato certo de saída.

O que muda no cursor

Você diz

"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

A Loqua escreve (no VS Code)

if (!user.isLoggedIn) {
return redirect('/signin');
}

Você diz (as mesmas palavras)

"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

A Loqua escreve (no Linear)

Adicionar guarda de autenticação antes de buscar o perfil. Se o usuário não estiver logado, redirecionar para o login em vez de buscar o perfil.

A saída muda porque o destino muda. Esse é o valor prático do ditado com modelo omni como categoria de produto: o contexto toma decisões de escrita que uma transcrição não consegue tomar.

O limite de privacidade

O contexto da tela é poderoso o bastante para exigir um limite claro. O caminho de contexto da Loqua é local-first por padrão. O app ativo, o texto selecionado e o conteúdo visível por perto são usados para moldar a fala atual, não para criar um registro geral da tela.

Para ver o limite completo, leia privacidade por design com arquitetura híbrida. A versão curta: áudio e contexto de tela são tratados como sinais locais sensíveis, e recursos opcionais em nuvem não recebem o conteúdo bruto ao redor na tela.

Quer se aprofundar?

Por dentro da nossa stack de voz omni-modal — o pipeline de instruções multimodais, MoE e streaming.
Construindo um ouvinte que vê o que você vê — como o contexto multimodal resolve ambiguidades de ASR.
Sons com significado — AED, legendagem de áudio e a próxima fronteira.

Leituras adicionais

Para contexto de literatura, comece com Whisper para reconhecimento de fala robusto, LLaVA para ajuste de instruções visuais e ImageBind para alinhamento entre modalidades. Esses links explicam o campo; não são uma declaração de proveniência sobre a Loqua.

Perguntas frequentes

O que conta como contexto de tela para a Loqua?

Contexto de tela significa sinais locais ao redor do alvo atual de ditado: app ativo, texto selecionado, texto visível por perto, tipo de arquivo, posição do cursor e formato do campo. A Loqua usa essas pistas para decidir se sua frase falada deve virar prosa, tarefa, prompt ou texto próximo de código.

A Loqua envia capturas de tela para algum lugar?

O caminho de contexto é local-first por padrão. A Loqua usa sinais derivados da tela para moldar a fala atual e não precisa enviar o conteúdo bruto ao redor na tela para recursos opcionais em nuvem. Veja o artigo de privacidade para o limite completo.

Como o contexto afeta a latência?

O contexto é coletado em paralelo com o reconhecimento de fala. Isso significa que a evidência do destino geralmente já está pronta quando o texto final precisa ser renderizado. A arquitetura foi desenhada para interação na faixa de 200 ms, não para uma chamada lenta de pós-processamento.

Por que voz mais visão importa para código?

Código é cheio de identificadores, capitalização, sintaxe e regiões selecionadas que não podem ser recuperados apenas pelo som. Se o modelo consegue ver um identificador perto do cursor, ele pode preservar esse nome em vez de escrever uma transcrição genérica.

Isso é um agente que atua na minha tela?

Não. Este artigo é sobre ditado, não sobre controle autônomo da tela. A Loqua usa contexto local para escrever melhor no cursor. Ela não navega pelos seus apps nem executa ações, a menos que você use explicitamente outra ferramenta para esse fim.

Onde devo ler a arquitetura mais profunda?

Comece por Por dentro da nossa stack de voz omni-modal para o pipeline de instruções multimodais, depois leia Construindo um ouvinte que vê o que você vê para desambiguação, e Sons com significado para a direção de áudio não verbal em estágio de protótipo.

Experimente a Loqua hoje

Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.

Baixar

Mais no Blog da Loqua

Engenharia

Digitação por voz omni-modal: entendimento multimodal, MoE e saída de texto em streaming

Engenharia

Reconhecimento de voz multimodal: construindo um ouvinte que vê o que você vê

Engenharia

Detecção de eventos de áudio em ditado: sons com significado além das palavras

Produtividade

Stack de produtividade por voz: 9 ferramentas que realmente usamos para escrever, entregar e pensar

Como fazer

Como ditar código no Mac: guia completo para Cursor, VS Code e Claude Code