Ingénierie

Détection d'événements audio en dictée : des sons porteurs de sens au-delà des mots

Une note au stade prototype sur la façon dont l'audio non verbal pourrait enrichir la dictée sans briser la confidentialité ou le flow.

TL;DR

La détection d'événements audio en dictée est encore au stade prototype chez Loqua. Loqua est un outil de dictée vocale natif Mac, et notre focus livré, ce sont les mots, le contexte et la sortie consciente de l'application. On cherche à savoir si l'audio non verbal comme les rires, les pauses, les sonnettes ou les soupirs peut devenir un contexte structuré optionnel sans rendre la dictée bruyante ou intrusive.

Ce billet est délibérément plus prudent que nos autres notes d'ingénierie. Les sons porteurs de sens, ce n'est pas une fonctionnalité livrée. C'est une direction de recherche précoce : la dictée vocale par compréhension sonore peut-elle capturer des signaux non verbaux utiles tout en préservant le flow calme de la dictée ?

Le manque sur l'audio non verbal

Les systèmes de dictée vocale jettent habituellement tout ce qui n'est pas un mot. C'est raisonnable pour une transcription propre, mais ça fait perdre de l'information. Dans une réunion, un rire peut marquer un accord ou une tension. Dans un journal, une longue pause peut avoir de l'importance. Dans les workflows d'accessibilité, une sonnette, un minuteur ou un bébé qui pleure peut être un contexte utile.

Pense à ce à quoi ressemble une transcription de dictée typique après une réunion d'une heure. Les mots sont là, mais le rythme est aplati : la longue pause avant que quelqu'un ne soit en désaccord, le petit rire qui a adouci un retour difficile, le moment de silence après une question difficile. Un humain qui relit la transcription remplit ces blancs de mémoire. Un coéquipier qui n'a pas pu assister n'a aucun signal. La détection d'événements audio en dictée est une manière de remettre une petite quantité de cette texture dans le compte-rendu écrit, sans demander à l'utilisateur de la narrer.

Le risque est évident : tous les sons ne devraient pas devenir du texte. La plupart de l'audio d'arrière-plan est non pertinent. Une partie est privée. Une partie est ambiguë. La détection d'événements audio en dictée n'a de sens que si elle est optionnelle, local-first et conservatrice sur le moment où un son change la sortie écrite.

AED vs audio captioning

La détection d'événements audio (AED) répond à une question compacte : quel événement s'est produit, et à peu près quand ? L'audio captioning écrit une description en langage naturel d'une scène sonore. Pour la dictée, l'AED suffit souvent. Une étiquette comme « laughter » ou « doorbell » peut être un marqueur ; un caption complet peut être trop verbeux.

TechniqueSortieAdéquation à la dictée
AEDÉtiquette d'événement + timestampMarqueurs de réunion, rappels, indices d'accessibilité
Audio captioningPhrase décrivant la scèneJournaling, notes média, workflows de revue
Indices d'émotion/prosodieSignal d'affect provisoireUtile seulement avec un fort contrôle utilisateur

Pourquoi on penche d'abord vers l'AED

Une étiquette AED échoue discrètement. Si le modèle étiquette quelque chose comme « applause » et que ce n'en était pas, l'utilisateur voit un seul marqueur entre crochets facile à supprimer. Une mauvaise audio caption est plus difficile à défaire : elle façonne le paragraphe environnant, biaise un lecteur et persiste dans les résumés. Pour un produit de dictée où la confiance se construit une phrase à la fois, le coût d'une petite mauvaise étiquette est bien plus bas que le coût d'une phrase erronée affirmée avec assurance. Notre biais précoce va vers de petits marqueurs structurés, pas vers de la prose automatique. Un marqueur est plus facile à revisiter, supprimer ou ignorer.

Ce que cela pourrait signifier pour la dictée

Dans les réunions, l'audio non verbal pourrait créer des marqueurs optionnels : « [laughter] » après une blague, « [long pause] » avant une décision, ou « [doorbell] » quand le locuteur est interrompu. Dans le journaling, cela pourrait aider à préserver la texture émotionnelle sans forcer l'utilisateur à la narrer. Dans les workflows d'accessibilité, cela pourrait transformer un son environnemental en une courte note ou un rappel.

Un schéma concret. Imagine une note de réunion où l'utilisateur a opté pour les marqueurs de réunion. La transcription se lirait comme de la prose ordinaire avec des étiquettes compactes rares : « We agreed to ship the migration this week. [laughter] Then we walked through the rollback plan. [long pause] Someone asked whether we should defer the index changes. » Le lecteur a un sens plus riche de ce qui s'est passé sans un paragraphe de didascalies.

Un schéma de journaling est encore plus étroit. L'utilisateur dicte une note rapide de fin de journée ; une longue pause audible pourrait apparaître comme une étiquette « [reflection] » que l'utilisateur peut garder, modifier ou supprimer à la relecture. Rien n'est validé automatiquement dans le corps du journal sans une chance d'y regarder.

On n'essaie pas de rendre la dictée théâtrale. L'objectif n'est pas d'écrire chaque toux ou clic de clavier. L'objectif est de détecter un ensemble étroit d'événements à fort signal et de laisser l'utilisateur décider si ces événements deviennent du texte, des étiquettes ou rien.

Fondations de recherche

Plusieurs lignes de recherche publiques sont pertinentes. CLAP explore le pré-entraînement contrastif langage-audio. BEATs étudie le pré-entraînement audio pour la compréhension acoustique. AudioSet est un dataset à grande échelle pour les événements audio, et AudioCaps est une référence pour l'audio captioning.

Ce sont des fondations de recherche, pas une déclaration de dépendance produit. Le travail prototype de Loqua se concentre sur la question de la dictée Mac : quels indices sonores sont utiles au curseur, lesquels devraient rester invisibles, et comment l'utilisateur peut-il contrôler la frontière ?

Ce qu'on prototype

On prototype trois comportements étroits. Premièrement, les marqueurs de réunion : étiquettes optionnelles pour les rires, le silence, les applaudissements et les interruptions. Deuxièmement, les indices de journaling : étiquettes approuvées par l'utilisateur pour les longues pauses ou les soupirs audibles. Troisièmement, les alertes d'accessibilité : un indice sonore local qui peut devenir un rappel ou une note quand l'utilisateur le demande.

L'expérience utilisateur qu'on esquisse en interne est délibérément discrète. Les événements détectés apparaissent comme des chips dans une petite surface de revue à côté du texte dicté, pas dans le texte lui-même. L'utilisateur peut glisser un chip dans le document, le rejeter, ou le convertir en étiquette spécifique à la destination. Le comportement par défaut est « ne jamais insérer sans consentement ». Le mode par défaut est désactivé jusqu'à ce que l'utilisateur opte in pour un workflow donné.

Le prototype est local-first et opt-in. Rien dans cette direction ne devrait annoter silencieusement un son d'arrière-plan privé. On teste aussi un mode « marqueur uniquement » où les sons détectés n'entrent jamais automatiquement dans la prose ; ils apparaissent comme des chips revisitables avant insertion.

Les problèmes durs qu'on n'a pas résolus

Le problème le plus dur est le sens. Le rire peut signifier l'accord, l'inconfort, le sarcasme, ou rien. Un soupir peut signifier la fatigue, le soulagement, ou du bruit de micro. On ne veut pas qu'un modèle invente une interprétation émotionnelle à partir d'indices faibles. Le deuxième problème dur est la confidentialité : le son environnemental peut révéler plus que les utilisateurs ne le prévoient.

Le troisième problème dur, ce sont les espaces partagés. Même avec un opt-in strict, un microphone dans une salle de réunion entend des gens qui n'ont rien accepté. Une fonctionnalité d'audio non verbal qui capture les rires dans cette salle capture toujours des informations sur des personnes qui ne sont pas l'utilisateur. On ne pense pas que ce soit insoluble, mais ça pèse lourd sur les contraintes : le détecteur devrait tourner localement sur l'appareil de l'utilisateur, les marqueurs ne devraient jamais être partagés sans action explicite, et le défaut pour les classes ambiantes devrait pencher vers le silence plutôt que l'inférence.

Le standard actuel est donc conservateur. L'audio captioning en dictée devrait demander un contrôle utilisateur clair, des marqueurs visibles et une suppression facile. La barre pour faire passer la détection d'événements audio en dictée du prototype au livré est concrète : un flux d'opt-in qu'un utilisateur attentif décrirait comme honnête, un comportement par défaut désactivé dans tout environnement qu'on n'a pas explicitement testé, et une UX qui fait qu'une mauvaise étiquette s'écarte d'une seule touche. Tant que ces pièces ne sont pas au point, ça reste du travail à la frontière de la recherche, pas une promesse livrée centrale.

Questions fréquentes

Qu'est-ce que la détection d'événements audio en dictée ?
C'est une direction de recherche où un outil de dictée peut détecter certains sons non verbaux, comme un rire ou une sonnette, et optionnellement les transformer en marqueurs structurés. Chez Loqua, c'est un travail au stade prototype, pas une fonctionnalité principale livrée.
En quoi l'AED diffère-t-il de l'audio captioning ?
L'AED renvoie généralement des étiquettes d'événement compactes et des timestamps. L'audio captioning écrit une phrase plus complète sur la scène sonore. La dictée a souvent besoin du signal plus petit parce que les utilisateurs veulent une écriture propre, pas une transcription de chaque son d'arrière-plan.
Loqua écrirait-il automatiquement des sons d'arrière-plan dans mon texte ?
Ce n'est pas la direction du produit. Toute fonctionnalité de compréhension sonore devrait être opt-in, local-first et revisitable. Notre biais prototype va vers des marqueurs que l'utilisateur peut accepter, ignorer ou supprimer plutôt que vers une insertion automatique en prose.
Pourquoi l'audio non verbal aiderait-il les réunions ?
Les réunions contiennent des indices utiles qui ne sont pas des mots : un rire après un accord, une longue pause avant une décision, ou une interruption. Un marqueur compact peut aider à reconstruire le contexte plus tard, surtout quand les notes sont utilisées pour générer des tâches ou des résumés de suivi.
Quels sont les risques pour la confidentialité ?
L'audio environnemental peut révéler des personnes, des lieux et des situations que l'utilisateur n'avait pas l'intention de documenter. C'est pourquoi la fonctionnalité doit être étroite, optionnelle, local-first et visiblement contrôlée. Un marqueur utile ne vaut pas une surprise pour l'utilisateur.
Quand les sons porteurs de sens seront-ils livrés ?
Il n'y a pas de date de livraison engagée. Le focus livré de Loqua reste les mots, le contexte d'écran, la sortie consciente de l'application et la faible latence. Les sons porteurs de sens n'avanceront que si le prototype peut être utile sans ajouter de bruit ou d'ambiguïté sur la confidentialité.
Et les espaces partagés où d'autres n'ont pas opté in ?
C'est une vraie contrainte sur la conception. Le détecteur tourne localement sur l'appareil de l'utilisateur, les marqueurs ne sont jamais partagés sans action explicite, et le défaut pour les classes de sons ambiants penche vers le silence plutôt que l'inférence. Un marqueur utile ne vaut pas l'enregistrement d'informations sur des personnes qui n'ont jamais consenti à être enregistrées.

Essaie Loqua aujourd'hui

Gratuit pour commencer. Natif Mac. Construit par des chercheurs en algorithmes qui l'utilisent tous les jours.

Télécharger pour Mac

Plus sur le Loqua Blog

ingénierie
Reconnaissance vocale multimodale : construire un listener qui voit ce que tu vois
tuto
Dictée mains libres pour les écrivains : comment rédiger 3000 mots de roman, d'essai ou de long format en une seule séance
comparatif
Loqua vs Wispr Flow : une alternative Wispr Flow Mac-first pour le contexte, le code et la confidentialité