Ingénierie

La voix rencontre la vision : comment les modèles omni-modaux débloquent la dictée vocale multimodale

De l'ASR audio uniquement à audio + vision + texte — le changement de paradigme qui a transformé la dictée vocale de « transcris ce que j'ai dit » en « écris ce que je voulais dire, là où je voulais le dire ».

Shuran Zhou, Founder · 2026-04-08 ·3 min ·Mis à jour 2026-04-08

TL;DR

La dictée vocale multimodale signifie que le système utilise la parole plus le contexte local pour décider de ce que les mots doivent devenir. Loqua est un outil de dictée vocale conscient du contexte pour Mac : il écoute ta voix, lit le contexte local de destination et écrit du texte adapté à l'application. Cette introduction explique pourquoi la dictée vocale consciente de l'écran est importante, sans plonger dans l'architecture complète.

Loqua est un outil de dictée vocale conscient du contexte pour Mac. Le changement important va de la transcription à l'écriture consciente de la destination : la même phrase prononcée doit devenir un texte différent dans Slack, Cursor, GitHub, Apple Notes et un éditeur de code.

Ceci est la version introductive de notre réflexion sur l'IA voix + vision. La recherche ouverte sur les systèmes audio, langage et multimodaux donne au domaine un vocabulaire utile, mais le stack de production de Loqua est un travail original entraîné et optimisé en interne pour la dictée sur Mac.

Le passage de la transcription au contexte

L'ASR audio uniquement répond à une question : quels mots l'utilisateur a-t-il prononcés ? La dictée pose une seconde question : que doivent devenir ces mots au curseur ? Cette seconde question est la raison d'être de la dictée vocale multimodale. Une transcription peut être exacte et néanmoins incorrecte pour la destination.

Quand tu dictes dans un éditeur de code, la ponctuation, les identifiants, les commentaires et le texte sélectionné comptent. Quand tu dictes dans un e-mail, le ton et la forme du paragraphe comptent. Quand tu dictes dans une application de tâches, le responsable et la date d'échéance comptent. La dictée vocale consciente de l'écran transforme ces indices visibles en contraintes pour l'écriture.

Pourquoi le contexte d'écran change la dictée

La même phrase peut signifier des choses différentes selon l'application. « Add a guard before fetch profile » devrait devenir du texte adjacent au code dans un IDE, une tâche dans Linear et une demande simple dans Slack. L'audio seul ne peut pas choisir de manière fiable entre ces formes.

La couche de contexte de Loqua lit des signaux locaux tels que l'application active, le texte sélectionné, le texte adjacent visible et le type de champ de destination. Elle n'a pas besoin d'une narration complète de la capture d'écran. Elle a besoin de suffisamment de preuves locales pour préserver les identifiants, décider si tu insères ou édites, et choisir la bonne forme de sortie.

Ce qui change au curseur

Tu dis

"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

Loqua écrit (dans VS Code)

if (!user.isLoggedIn) {
return redirect('/signin');
}

Tu dis (mêmes mots)

"add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

Loqua écrit (dans Linear)

Add auth guard before profile fetch. If user is not logged in, redirect to sign-in instead of fetching profile.

La sortie change parce que la destination change. C'est la valeur pratique de la dictée par modèle omni en tant que catégorie de produit : le contexte prend des décisions d'écriture qu'une transcription ne peut pas prendre.

La limite de confidentialité

Le contexte d'écran est suffisamment puissant pour nécessiter une limite claire. Le chemin de contexte de Loqua est local-first par défaut. L'application active, le texte sélectionné et le contenu visible à proximité servent à façonner l'énoncé courant, pas à créer un journal général d'écran.

Pour la limite complète, voir la confidentialité par conception avec une architecture hybride. La version courte : l'audio et le contexte d'écran sont traités comme des signaux locaux sensibles, et les fonctionnalités cloud optionnelles ne reçoivent pas le contenu brut de l'écran environnant.

Envie d'aller plus loin ?

Au cœur de notre stack vocal omni-modal — le pipeline d'instruction multimodal, MoE et le streaming.
Construire un listener qui voit ce que tu vois — comment le contexte multimodal résout l'ambiguïté de l'ASR.
Des sons porteurs de sens — AED, légendage audio et la prochaine frontière.

Lectures complémentaires

Pour le contexte de la littérature, commence par Whisper pour la reconnaissance vocale robuste, LLaVA pour le visual instruction tuning, et ImageBind pour l'alignement cross-modal. Ces liens expliquent le domaine ; ce ne sont pas des affirmations de provenance concernant Loqua.

Questions fréquentes

Qu'est-ce qui compte comme contexte d'écran pour Loqua ?

Le contexte d'écran désigne les signaux locaux autour de la cible de dictée en cours : application active, texte sélectionné, texte visible à proximité, type de fichier, position du curseur et forme du champ. Loqua utilise ces indices pour décider si ta phrase prononcée doit devenir de la prose, une tâche, un prompt ou du texte adjacent au code.

Loqua envoie-t-il des captures d'écran quelque part ?

Le chemin de contexte est local-first par défaut. Loqua utilise des signaux dérivés de l'écran pour façonner l'énoncé courant et n'a pas besoin d'envoyer le contenu brut de l'écran environnant à des fonctionnalités cloud optionnelles. Consulte l'article sur la confidentialité pour la limite complète.

Quel est l'impact du contexte sur la latence ?

Le contexte est collecté en parallèle de la reconnaissance vocale. Cela veut dire que les preuves de destination sont généralement prêtes au moment où le texte final doit être rendu. L'architecture est conçue autour d'une interaction de classe 200 ms plutôt qu'un appel lent de post-traitement.

Pourquoi voix plus vision est-il important pour le code ?

Le code regorge d'identifiants, de casse, de syntaxe et de régions sélectionnées qui ne sont pas récupérables à partir du son seul. Si le modèle peut voir un identifiant visible près du curseur, il peut préserver ce nom au lieu d'écrire une transcription générique.

Est-ce un agent qui agit sur mon écran ?

Non. Cet article concerne la dictée, pas le contrôle autonome de l'écran. Loqua utilise le contexte local pour écrire un meilleur texte au curseur. Il ne navigue pas dans tes applications et n'effectue pas d'actions sauf si tu utilises explicitement un autre outil à cette fin.

Où dois-je lire l'architecture plus en profondeur ?

Commence par Inside our omni-modal voice stack pour le pipeline d'instruction multimodal, puis lis Building a listener that sees what you see pour la désambiguïsation, et Sounds with meaning pour la direction audio non-verbale au stade prototype.

Essaie Loqua aujourd’hui

Gratuit pour commencer. Natif Mac. Conçu par des chercheurs en algorithmes qui l’utilisent chaque jour.

Télécharger

Plus d’articles du Blog Loqua

ingénierie

Dictée vocale omni-modale : compréhension multimodale, MoE et sortie texte en streaming

ingénierie

Reconnaissance vocale multimodale : construire un listener qui voit ce que tu vois

ingénierie

Détection d'événements audio en dictée : des sons porteurs de sens au-delà des mots

productivité

Stack de productivité vocale : 9 outils qu'on utilise vraiment pour écrire, livrer et réfléchir

tuto

Comment dicter du code sur Mac : guide complet pour Cursor, VS Code et Claude Code