Detecção de eventos de áudio em ditado: sons com significado além das palavras
Uma nota em estágio de protótipo sobre como áudio não verbal poderia enriquecer o ditado sem quebrar privacidade nem fluxo.
Resumo
Detecção de eventos de áudio em ditado ainda está em estágio de protótipo no Loqua. O Loqua é uma ferramenta nativa de digitação por voz para Mac, e nosso foco entregue hoje são palavras, contexto e saída sensível ao app. Estamos pesquisando se áudio não verbal, como risadas, pausas, campainhas ou suspiros, pode virar contexto estruturado opcional sem tornar o ditado ruidoso ou invasivo.
Este post é deliberadamente mais tentativo do que nossas outras notas de engenharia. Sons com significado não é um recurso lançado. É uma direção inicial de pesquisa: a compreensão de som em digitação por voz consegue capturar sinais não verbais úteis preservando o fluxo calmo do ditado?
A lacuna do áudio não verbal
Sistemas de digitação por voz geralmente descartam tudo que não é palavra. Isso faz sentido para transcrição limpa, mas perde informação. Em uma reunião, uma risada pode marcar concordância ou tensão. Em um diário, uma pausa longa pode importar. Em fluxos de acessibilidade, uma campainha, timer ou bebê chorando pode ser contexto útil.
Pense em como uma transcrição típica de ditado fica depois de uma reunião de uma hora. As palavras estão lá, mas o ritmo foi achatado: a pausa longa antes de alguém discordar, a risada baixa que suavizou um feedback duro, o momento de silêncio depois de uma pergunta difícil. Uma pessoa que revisa a transcrição preenche isso pela memória. Um colega que não pôde participar não recebe sinal nenhum. Detecção de eventos de áudio em ditado é uma forma de devolver um pouco dessa textura ao registro escrito, sem pedir que o usuário a narre.
O risco é óbvio: nem todo som deve virar texto. A maior parte do áudio de fundo é irrelevante. Parte dele é privada. Parte é ambígua. Detecção de eventos de áudio em ditado só faz sentido se for opcional, local-first e conservadora sobre quando um som muda a saída escrita.
AED vs audio captioning
Audio event detection (AED) responde a uma pergunta compacta: que evento aconteceu e aproximadamente quando? Audio captioning escreve uma descrição em linguagem natural de uma cena sonora. Para ditado, AED costuma bastar. Uma tag como "risada" ou "campainha" pode ser um marcador; uma legenda completa pode ser verbosa demais.
| Técnica | Saída | Encaixe em ditado |
|---|---|---|
| AED | Rótulo de evento + timestamp | Marcadores de reunião, lembretes, pistas de acessibilidade |
| Audio captioning | Frase descrevendo a cena | Diário, notas de mídia, fluxos de revisão |
| Pistas de emoção/prosódia | Sinal afetivo tentativo | Só é útil com forte controle do usuário |
Por que tendemos a AED primeiro
Uma tag de AED falha de forma discreta. Se o modelo rotula algo como "aplausos" e não era, o usuário vê um único marcador entre colchetes fácil de apagar. Uma audio caption errada é mais difícil de desfazer: ela molda o parágrafo ao redor, enviesa o leitor e permanece em resumos. Para um produto de ditado em que confiança é construída frase por frase, o custo de uma pequena tag errada é muito menor que o custo de uma frase confiantemente errada. Nosso viés inicial é por pequenos marcadores estruturados, não prosa automática. Um marcador é mais fácil de revisar, apagar ou ignorar.
O que isso poderia significar para ditado
Em reuniões, áudio não verbal poderia criar marcadores opcionais: "[risada]" depois de uma piada, "[pausa longa]" antes de uma decisão ou "[campainha]" quando a pessoa é interrompida. Em diário, poderia ajudar a preservar textura emocional sem forçar o usuário a narrá-la. Em fluxos de acessibilidade, poderia transformar som ambiente em uma nota curta ou lembrete.
Um esboço concreto. Imagine uma nota de reunião em que o usuário optou por marcadores de reunião. A transcrição seria lida como prosa comum com tags raras e compactas: "Concordamos em lançar a migração esta semana. [risada] Depois passamos pelo plano de rollback. [pausa longa] Alguém perguntou se deveríamos adiar as mudanças de índice." O leitor ganha uma noção mais rica do que aconteceu sem um parágrafo de direção de cena.
Um esboço de diário é ainda mais estreito. O usuário dita uma nota rápida de fim de dia; uma pausa longa audível poderia aparecer como uma tag "[reflexão]" que o usuário pode manter, editar ou apagar na revisão. Nada é inserido automaticamente no corpo da entrada do diário sem chance de olhar.
Não estamos tentando tornar o ditado teatral. O objetivo não é escrever cada tosse ou clique de teclado. O objetivo é detectar um conjunto estreito de eventos de alto sinal e deixar o usuário decidir se esses eventos viram texto, tags ou nada.
Bases de pesquisa
Várias linhas públicas de pesquisa são relevantes. CLAP explora pré-treinamento contrastivo linguagem-áudio. BEATs estuda pré-treinamento de áudio para compreensão acústica. AudioSet é um dataset de larga escala para eventos de áudio, e AudioCaps é uma referência para audio captioning.
Essas são bases de pesquisa, não uma declaração de dependência de produto. O trabalho de protótipo do Loqua está focado na pergunta de ditado no Mac: quais pistas sonoras são úteis no cursor, quais devem permanecer invisíveis e como o usuário controla a fronteira?
O que estamos prototipando
Estamos prototipando três comportamentos estreitos. Primeiro, marcadores de reunião: tags opcionais para risada, silêncio, aplausos e interrupções. Segundo, pistas de diário: tags aprovadas pelo usuário para pausas longas ou exasperação audível. Terceiro, alertas de acessibilidade: uma pista sonora local que pode virar lembrete ou nota quando o usuário pedir.
A experiência de usuário que estamos esboçando internamente é deliberadamente silenciosa. Eventos detectados aparecem como chips em uma pequena superfície de revisão ao lado do texto ditado, não dentro do texto em si. O usuário pode arrastar um chip para o documento, descartá-lo ou convertê-lo em uma tag específica do destino. O comportamento padrão é "nunca inserir sem consentimento". O modo padrão fica desligado até o usuário optar por um fluxo específico.
O protótipo é local-first e opt-in. Nada nessa direção deve anotar silenciosamente som privado de fundo. Também estamos testando um modo "apenas marcador", em que sons detectados nunca entram automaticamente na prosa; eles aparecem como chips revisáveis antes da inserção.
Problemas difíceis que ainda não resolvemos
O problema mais difícil é significado. Risada pode significar concordância, desconforto, sarcasmo ou nada. Um suspiro pode significar cansaço, alívio ou ruído de microfone. Não queremos um modelo inventando interpretação emocional a partir de evidência fraca. O segundo problema difícil é privacidade: som ambiente pode revelar mais do que usuários esperam.
O terceiro problema difícil são espaços compartilhados. Mesmo com opt-in estrito, um microfone em uma sala de reunião ouve pessoas que nunca optaram por nada. Um recurso de áudio não verbal que captura risadas nessa sala ainda está capturando informação sobre pessoas que não são o usuário. Não achamos que isso seja insolúvel, mas isso molda fortemente o conjunto de restrições: o detector deve rodar localmente no dispositivo do usuário, os marcadores nunca devem ser compartilhados sem ação explícita, e o padrão para classes ambientais deve tender ao silêncio em vez da inferência.
Portanto, o padrão atual é conservador. Audio captioning em ditado deve exigir controle claro do usuário, marcadores visíveis e exclusão fácil. A barra para mover detecção de eventos de áudio em ditado de protótipo para lançado é concreta: um fluxo opt-in que um usuário cuidadoso descreveria como honesto, comportamento desligado por padrão em qualquer ambiente que não testamos explicitamente e uma UX que torna uma tag errada descartável com uma única tecla. Até essas peças parecerem certas, isso fica como trabalho de fronteira de pesquisa, não como promessa central de produto lançado.
Perguntas frequentes
Experimente a Loqua hoje
Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.
Baixar para Mac