Engenharia

Detecção de eventos de áudio em ditado: sons com significado além das palavras

Uma nota em estágio de protótipo sobre como áudio não verbal poderia enriquecer o ditado sem quebrar privacidade nem fluxo.

Resumo

Detecção de eventos de áudio em ditado ainda está em estágio de protótipo no Loqua. O Loqua é uma ferramenta nativa de digitação por voz para Mac, e nosso foco entregue hoje são palavras, contexto e saída sensível ao app. Estamos pesquisando se áudio não verbal, como risadas, pausas, campainhas ou suspiros, pode virar contexto estruturado opcional sem tornar o ditado ruidoso ou invasivo.

Este post é deliberadamente mais tentativo do que nossas outras notas de engenharia. Sons com significado não é um recurso lançado. É uma direção inicial de pesquisa: a compreensão de som em digitação por voz consegue capturar sinais não verbais úteis preservando o fluxo calmo do ditado?

A lacuna do áudio não verbal

Sistemas de digitação por voz geralmente descartam tudo que não é palavra. Isso faz sentido para transcrição limpa, mas perde informação. Em uma reunião, uma risada pode marcar concordância ou tensão. Em um diário, uma pausa longa pode importar. Em fluxos de acessibilidade, uma campainha, timer ou bebê chorando pode ser contexto útil.

Pense em como uma transcrição típica de ditado fica depois de uma reunião de uma hora. As palavras estão lá, mas o ritmo foi achatado: a pausa longa antes de alguém discordar, a risada baixa que suavizou um feedback duro, o momento de silêncio depois de uma pergunta difícil. Uma pessoa que revisa a transcrição preenche isso pela memória. Um colega que não pôde participar não recebe sinal nenhum. Detecção de eventos de áudio em ditado é uma forma de devolver um pouco dessa textura ao registro escrito, sem pedir que o usuário a narre.

O risco é óbvio: nem todo som deve virar texto. A maior parte do áudio de fundo é irrelevante. Parte dele é privada. Parte é ambígua. Detecção de eventos de áudio em ditado só faz sentido se for opcional, local-first e conservadora sobre quando um som muda a saída escrita.

AED vs audio captioning

Audio event detection (AED) responde a uma pergunta compacta: que evento aconteceu e aproximadamente quando? Audio captioning escreve uma descrição em linguagem natural de uma cena sonora. Para ditado, AED costuma bastar. Uma tag como "risada" ou "campainha" pode ser um marcador; uma legenda completa pode ser verbosa demais.

TécnicaSaídaEncaixe em ditado
AEDRótulo de evento + timestampMarcadores de reunião, lembretes, pistas de acessibilidade
Audio captioningFrase descrevendo a cenaDiário, notas de mídia, fluxos de revisão
Pistas de emoção/prosódiaSinal afetivo tentativoSó é útil com forte controle do usuário

Por que tendemos a AED primeiro

Uma tag de AED falha de forma discreta. Se o modelo rotula algo como "aplausos" e não era, o usuário vê um único marcador entre colchetes fácil de apagar. Uma audio caption errada é mais difícil de desfazer: ela molda o parágrafo ao redor, enviesa o leitor e permanece em resumos. Para um produto de ditado em que confiança é construída frase por frase, o custo de uma pequena tag errada é muito menor que o custo de uma frase confiantemente errada. Nosso viés inicial é por pequenos marcadores estruturados, não prosa automática. Um marcador é mais fácil de revisar, apagar ou ignorar.

O que isso poderia significar para ditado

Em reuniões, áudio não verbal poderia criar marcadores opcionais: "[risada]" depois de uma piada, "[pausa longa]" antes de uma decisão ou "[campainha]" quando a pessoa é interrompida. Em diário, poderia ajudar a preservar textura emocional sem forçar o usuário a narrá-la. Em fluxos de acessibilidade, poderia transformar som ambiente em uma nota curta ou lembrete.

Um esboço concreto. Imagine uma nota de reunião em que o usuário optou por marcadores de reunião. A transcrição seria lida como prosa comum com tags raras e compactas: "Concordamos em lançar a migração esta semana. [risada] Depois passamos pelo plano de rollback. [pausa longa] Alguém perguntou se deveríamos adiar as mudanças de índice." O leitor ganha uma noção mais rica do que aconteceu sem um parágrafo de direção de cena.

Um esboço de diário é ainda mais estreito. O usuário dita uma nota rápida de fim de dia; uma pausa longa audível poderia aparecer como uma tag "[reflexão]" que o usuário pode manter, editar ou apagar na revisão. Nada é inserido automaticamente no corpo da entrada do diário sem chance de olhar.

Não estamos tentando tornar o ditado teatral. O objetivo não é escrever cada tosse ou clique de teclado. O objetivo é detectar um conjunto estreito de eventos de alto sinal e deixar o usuário decidir se esses eventos viram texto, tags ou nada.

Bases de pesquisa

Várias linhas públicas de pesquisa são relevantes. CLAP explora pré-treinamento contrastivo linguagem-áudio. BEATs estuda pré-treinamento de áudio para compreensão acústica. AudioSet é um dataset de larga escala para eventos de áudio, e AudioCaps é uma referência para audio captioning.

Essas são bases de pesquisa, não uma declaração de dependência de produto. O trabalho de protótipo do Loqua está focado na pergunta de ditado no Mac: quais pistas sonoras são úteis no cursor, quais devem permanecer invisíveis e como o usuário controla a fronteira?

O que estamos prototipando

Estamos prototipando três comportamentos estreitos. Primeiro, marcadores de reunião: tags opcionais para risada, silêncio, aplausos e interrupções. Segundo, pistas de diário: tags aprovadas pelo usuário para pausas longas ou exasperação audível. Terceiro, alertas de acessibilidade: uma pista sonora local que pode virar lembrete ou nota quando o usuário pedir.

A experiência de usuário que estamos esboçando internamente é deliberadamente silenciosa. Eventos detectados aparecem como chips em uma pequena superfície de revisão ao lado do texto ditado, não dentro do texto em si. O usuário pode arrastar um chip para o documento, descartá-lo ou convertê-lo em uma tag específica do destino. O comportamento padrão é "nunca inserir sem consentimento". O modo padrão fica desligado até o usuário optar por um fluxo específico.

O protótipo é local-first e opt-in. Nada nessa direção deve anotar silenciosamente som privado de fundo. Também estamos testando um modo "apenas marcador", em que sons detectados nunca entram automaticamente na prosa; eles aparecem como chips revisáveis antes da inserção.

Problemas difíceis que ainda não resolvemos

O problema mais difícil é significado. Risada pode significar concordância, desconforto, sarcasmo ou nada. Um suspiro pode significar cansaço, alívio ou ruído de microfone. Não queremos um modelo inventando interpretação emocional a partir de evidência fraca. O segundo problema difícil é privacidade: som ambiente pode revelar mais do que usuários esperam.

O terceiro problema difícil são espaços compartilhados. Mesmo com opt-in estrito, um microfone em uma sala de reunião ouve pessoas que nunca optaram por nada. Um recurso de áudio não verbal que captura risadas nessa sala ainda está capturando informação sobre pessoas que não são o usuário. Não achamos que isso seja insolúvel, mas isso molda fortemente o conjunto de restrições: o detector deve rodar localmente no dispositivo do usuário, os marcadores nunca devem ser compartilhados sem ação explícita, e o padrão para classes ambientais deve tender ao silêncio em vez da inferência.

Portanto, o padrão atual é conservador. Audio captioning em ditado deve exigir controle claro do usuário, marcadores visíveis e exclusão fácil. A barra para mover detecção de eventos de áudio em ditado de protótipo para lançado é concreta: um fluxo opt-in que um usuário cuidadoso descreveria como honesto, comportamento desligado por padrão em qualquer ambiente que não testamos explicitamente e uma UX que torna uma tag errada descartável com uma única tecla. Até essas peças parecerem certas, isso fica como trabalho de fronteira de pesquisa, não como promessa central de produto lançado.

Perguntas frequentes

O que é detecção de eventos de áudio em ditado?
É uma direção de pesquisa em que uma ferramenta de ditado pode detectar sons não verbais selecionados, como risadas ou campainha, e opcionalmente transformá-los em marcadores estruturados. No Loqua, isso está em estágio de protótipo, não é um recurso central lançado.
Como AED é diferente de audio captioning?
AED normalmente retorna rótulos compactos de eventos e timestamps. Audio captioning escreve uma frase mais completa sobre a cena sonora. Ditado geralmente precisa do sinal menor porque usuários querem escrita limpa, não uma transcrição de cada som de fundo.
O Loqua escreveria automaticamente sons de fundo no meu texto?
Essa não é a direção do produto. Qualquer recurso de compreensão de som deve ser opt-in, local-first e revisável. Nosso viés de protótipo é por marcadores que o usuário pode aceitar, ignorar ou apagar, não por inserção automática de prosa.
Por que áudio não verbal ajudaria em reuniões?
Reuniões contêm pistas úteis que não são palavras: risada depois de concordância, uma pausa longa antes de uma decisão ou uma interrupção. Um marcador compacto pode ajudar a reconstruir contexto depois, especialmente quando notas são usadas para gerar tarefas ou resumos de follow-up.
Quais são os riscos de privacidade?
Áudio ambiente pode revelar pessoas, lugares e situações que o usuário não pretendia documentar. Por isso o recurso precisa ser estreito, opcional, local-first e controlado de forma visível. Um marcador útil não vale surpreender o usuário.
Quando sons com significado será lançado?
Não há data de lançamento comprometida. O foco lançado do Loqua continua sendo palavras, contexto de tela, saída sensível ao app e baixa latência. Sons com significado só avançará se o protótipo puder ser útil sem adicionar ruído ou ambiguidade de privacidade.
E espaços compartilhados onde outras pessoas não fizeram opt-in?
É uma restrição real no design. O detector roda localmente no dispositivo do usuário, marcadores nunca são compartilhados sem ação explícita, e o padrão para classes de som ambiente tende ao silêncio em vez da inferência. Um marcador útil não vale registrar informação sobre pessoas que nunca concordaram em ser registradas.

Experimente a Loqua hoje

Comece de graça. Nativo para Mac. Criado por pesquisadores de algoritmos que usam o produto todos os dias.

Baixar para Mac

Mais no Blog da Loqua

Engenharia
Reconhecimento de voz multimodal: construindo um ouvinte que vê o que você vê
Como fazer
Ditado mãos-livres para escritores: como rascunhar 3000 palavras de romance, ensaio ou texto longo em uma sessão
Comparativo
Loqua vs Wispr Flow: uma alternativa ao Wispr Flow pensada para Mac, contexto, código e privacidade