La voix rencontre la vision : comment les modèles omni-modaux débloquent la dictée vocale multimodale
De l'ASR audio uniquement à audio + vision + texte — le changement de paradigme qui a transformé la dictée vocale de « transcris ce que j'ai dit » en « écris ce que je voulais dire, là où je voulais le dire ».
TL;DR
La dictée vocale multimodale signifie que le système utilise la parole plus le contexte local pour décider de ce que les mots doivent devenir. Loqua est un outil de dictée vocale conscient du contexte pour Mac : il écoute ta voix, lit le contexte local de destination et écrit du texte adapté à l'application. Cette introduction explique pourquoi la dictée vocale consciente de l'écran est importante, sans plonger dans l'architecture complète.
Loqua est un outil de dictée vocale conscient du contexte pour Mac. Le changement important va de la transcription à l'écriture consciente de la destination : la même phrase prononcée doit devenir un texte différent dans Slack, Cursor, GitHub, Apple Notes et un éditeur de code.
Ceci est la version introductive de notre réflexion sur l'IA voix + vision. La recherche ouverte sur les systèmes audio, langage et multimodaux donne au domaine un vocabulaire utile, mais le stack de production de Loqua est un travail original entraîné et optimisé en interne pour la dictée sur Mac.
Le passage de la transcription au contexte
L'ASR audio uniquement répond à une question : quels mots l'utilisateur a-t-il prononcés ? La dictée pose une seconde question : que doivent devenir ces mots au curseur ? Cette seconde question est la raison d'être de la dictée vocale multimodale. Une transcription peut être exacte et néanmoins incorrecte pour la destination.
Quand tu dictes dans un éditeur de code, la ponctuation, les identifiants, les commentaires et le texte sélectionné comptent. Quand tu dictes dans un e-mail, le ton et la forme du paragraphe comptent. Quand tu dictes dans une application de tâches, le responsable et la date d'échéance comptent. La dictée vocale consciente de l'écran transforme ces indices visibles en contraintes pour l'écriture.
Pourquoi le contexte d'écran change la dictée
La même phrase peut signifier des choses différentes selon l'application. « Add a guard before fetch profile » devrait devenir du texte adjacent au code dans un IDE, une tâche dans Linear et une demande simple dans Slack. L'audio seul ne peut pas choisir de manière fiable entre ces formes.
La couche de contexte de Loqua lit des signaux locaux tels que l'application active, le texte sélectionné, le texte adjacent visible et le type de champ de destination. Elle n'a pas besoin d'une narration complète de la capture d'écran. Elle a besoin de suffisamment de preuves locales pour préserver les identifiants, décider si tu insères ou édites, et choisir la bonne forme de sortie.
Ce qui change au curseur
if (!user.isLoggedIn) { return redirect('/signin');}La sortie change parce que la destination change. C'est la valeur pratique de la dictée par modèle omni en tant que catégorie de produit : le contexte prend des décisions d'écriture qu'une transcription ne peut pas prendre.
La limite de confidentialité
Le contexte d'écran est suffisamment puissant pour nécessiter une limite claire. Le chemin de contexte de Loqua est local-first par défaut. L'application active, le texte sélectionné et le contenu visible à proximité servent à façonner l'énoncé courant, pas à créer un journal général d'écran.
Pour la limite complète, voir la confidentialité par conception avec une architecture hybride. La version courte : l'audio et le contexte d'écran sont traités comme des signaux locaux sensibles, et les fonctionnalités cloud optionnelles ne reçoivent pas le contenu brut de l'écran environnant.
Envie d'aller plus loin ?
- Au cœur de notre stack vocal omni-modal — le pipeline d'instruction multimodal, MoE et le streaming.
- Construire un listener qui voit ce que tu vois — comment le contexte multimodal résout l'ambiguïté de l'ASR.
- Des sons porteurs de sens — AED, légendage audio et la prochaine frontière.
Lectures complémentaires
Pour le contexte de la littérature, commence par Whisper pour la reconnaissance vocale robuste, LLaVA pour le visual instruction tuning, et ImageBind pour l'alignement cross-modal. Ces liens expliquent le domaine ; ce ne sont pas des affirmations de provenance concernant Loqua.
Questions fréquentes
Essaie Loqua dès aujourd'hui
Gratuit pour commencer. Natif Mac. Conçu par des chercheurs en algorithmes qui l'utilisent tous les jours.
Télécharger pour Mac