Ingénierie

Dictée vocale privée édition Mac : comment le stack de dictée vocale hybride de Loqua garde tes données de ton côté

La plupart des dictées vocales dépendent de chemins cloud. Loqua utilise une architecture hybride avec des couches sensibles local-first, des fonctionnalités cloud optionnelles et des frontières visibles.

Shuran Zhou, Founder · 2026-04-03 ·8 min ·Mis à jour 2026-04-03

TL;DR

Si tu cherches des options de dictée vocale privée sur Mac qui ne sont pas juste de la « transcription cloud avec une politique de confidentialité », c'est la réponse architecturale. Loqua est hybride par conception : le chemin sensible central — reconnaissance vocale, nettoyage local, gestion des entités nommées et lecture d'écran/contexte — est conçu pour tourner on-device sur Apple Silicon par défaut. On traite ça comme de la dictée sécurisée sur Mac parce que les couches qui touchent l'audio et le contenu d'écran sont local-first, pas parce que le texte marketing dit « privé ». Le traitement cloud optionnel est réservé aux fonctionnalités comme les réécritures longues ou certaines traductions, et peut être désactivé. On ne s'entraîne pas sur les données de dictée des utilisateurs. L'objectif est une frontière visible autour de ce qui reste en mode dictée vocale locale et de ce qui, si activé, traverse le réseau.

Loqua est un outil de dictée vocale conscient du contexte pour Mac. Le fait qu'il puisse utiliser le contexte d'écran rend le sujet de la confidentialité central. Si un produit de dictée peut voir ton code, tes messages et tes emails à moitié rédigés, l'architecture autour de ces données n'est pas une note de bas de page marketing — c'est le produit.

Je suis Shuran, et j'ai co-construit ce stack avec une petite équipe de chercheurs en algorithmes. On utilise Loqua pour notre propre Slack interne, nos emails, nos prompts de codage et nos revues de code. Le standard qu'on voulait était simple : garder le chemin sensible local par défaut, rendre l'usage cloud optionnel visible, et éviter de s'entraîner sur les données de dictée des utilisateurs.

L'arbitrage cloud par défaut

Beaucoup de produits de dictée modernes utilisent la transcription cloud. Cela peut être un choix d'ingénierie raisonnable : grands modèles, mises à jour centralisées, cohérence multi-plateforme, contrôles entreprise et modes de non-rétention de données documentés peuvent tous vivre dans cette architecture.

L'arbitrage, c'est la surface d'attaque. Une fois que l'audio ou le contexte traverse le réseau, il y a maintenant un chemin serveur entre ton microphone et ton curseur : transport, files d'attente, journaux, fournisseurs de modèles, métadonnées opérationnelles et politique entreprise. Les bons fournisseurs gèrent cette surface avec soin. Mais les utilisateurs ont toujours besoin de comprendre où est la frontière.

Loqua part d'un défaut différent. Les couches qui touchent l'audio et le contexte d'écran sont conçues pour tourner localement d'abord. Les fonctionnalités cloud optionnelles sont traitées comme des frontières de fonctionnalité explicites, pas comme une plomberie invisible.

Pourquoi le pur on-device reste un arbitrage

L'IA pure on-device est attirante, et pour la dictée routinière c'est le bon défaut. Mais les affirmations absolues deviennent fragiles. Certaines tâches à longue traîne — réécritures très longues, traduction entre langues éloignées, transformation de domaine rare — peuvent bénéficier de modèles cloud plus grands. Les mises à jour de modèles, les rapports de crash, les vérifications de licence et la livraison de fonctionnalités créent aussi des points de contact réseau dans beaucoup de produits.

Donc on évite la version slogan de la confidentialité. La réponse utile n'est pas « cloud bad » ou « magie locale ». C'est une architecture hybride avec des défauts clairs, des contrôles explicites et un produit qui continue à fonctionner quand les fonctionnalités cloud sont désactivées.

Ce que hybride veut dire chez Loqua

Voici l'architecture, dite simplement :

Couche	Où elle tourne par défaut	Pourquoi
Reconnaissance vocale (Couche 1)	On-device, Apple Neural Engine	Budget de latence ; sensibilité audio
Intelligence linguistique — nettoyage des hésitations, NER, mise en forme basique (Couche 2)	On-device	Latence ; le vocabulaire est le tien
Contexte multimodal — lecture d'écran (Couche 3)	On-device	Le contenu de l'écran ne quitte jamais ta machine
Post-traitement cloud — seulement quand tu opt-in	Cloud géré par Loqua, chiffré TLS	Réécritures longues, certaines traductions

Les trois couches principales — celles qui touchent l'audio et le contenu d'écran — sont conçues pour tourner on-device par défaut. Tu peux utiliser Loqua en mode hors ligne pour l'expérience de dictée principale.

Le cloud est réservé à des cas spécifiques, opt-in. Quand il est utilisé : le trafic cloud est chiffré TLS ; le traitement cloud est sans rétention (la requête est traitée et jetée) ; et l'utilisateur peut désactiver entièrement le cloud depuis les Réglages. On ne s'entraîne pas sur les données utilisateur à aucun moment — ni sur le trafic cloud, ni sur l'usage on-device.

Toute frontière, visible

Le principe : si un morceau de tes données traverse une frontière, tu devrais le savoir sans lire le CGU. Voici comment on rend chaque frontière visible :

Indicateur dans la barre de menus. Quand Loqua enregistre, l'icône de la barre de menus devient rouge. Quand le cloud est utilisé pour un énoncé donné, l'indicateur diffère visiblement (un petit overlay d'icône cloud). Tu vois, en temps réel, si quelque chose quitte ta machine.
Panneau Réglages → Confidentialité. Liste exactement les appels cloud activés, avec des bascules pour chacun. La traduction peut être activée pendant que la réécriture longue est désactivée, ou vice versa.
Gestion de l'audio. L'audio n'est pas envoyé au cloud pour le chemin de dictée principal par défaut. Les fonctionnalités cloud optionnelles sont explicites et peuvent être désactivées.
Gestion du contenu d'écran. Le contenu d'écran lu par la couche de contexte multimodal ne traverse jamais le réseau. Même si tu actives la réécriture cloud, seul le texte en cours de réécriture part — pas l'écran environnant.
Journalisation. Les journaux de debug locaux n'incluent pas de contenu dicté. Les journaux côté cloud n'incluent pas d'audio ou de transcriptions.

L'AED et le traitement du contexte multimodal restent locaux sous la même frontière. Le travail prototype décrit dans les sons porteurs de sens traite l'audio non verbal comme un signal local, opt-in, et le listener multimodal décrit dans construire un listener qui voit ce que tu vois utilise le contexte d'écran pour l'énoncé actuel plutôt que de créer un journal d'écran général.

Arbitrages algorithmiques en basse latence

Faire tourner les couches principales on-device tout en gardant la dictée réactive sur des Macs grand public est le travail d'ingénierie le plus dur de ce stack. Trois choses l'ont rendu faisable :

Sélection agressive des opérateurs pour le Neural Engine. Tous les opérateurs transformer ne tournent pas efficacement sur le Neural Engine d'Apple. On choisit des types de couches, des variantes d'attention et des schémas de quantification qui restent sur le chemin rapide. La documentation Core ML d'Apple cartographie l'ensemble d'opérateurs supportés ; en sortir peut coûter cher.
Reconnaissance vocale streaming-first. La sortie commence avant que l'énoncé complet ne soit finalisé. Les variantes non-streaming peuvent améliorer la précision par énoncé mais paraissent plus lentes.
Pipeline parallèle. La couche de contexte tourne en parallèle de la reconnaissance vocale. Au moment où la couche linguistique est prête à mettre en forme la sortie, le contexte de destination a déjà été lu localement.

L'arbitrage : les budgets de paramètres sont serrés. Chaque couche locale est plus petite qu'un modèle cloud non contraint par les thermiques de laptop. On compense avec des données d'entraînement spécifiques aux tâches, un fine-tuning soigné et une portée Mac-first étroite. Les benchmarks internes ciblent actuellement environ une classe de réponse à 200 ms, une reconnaissance élevée du vocabulaire technique et un WER bas à un chiffre dans les conditions supportées ; on les décrit comme des cibles internes jusqu'à ce qu'une page de benchmark publique existe.

Ce qu'on garantit

La liste dure :

Pas d'entraînement sur les données utilisateur. Pas sur l'audio. Pas sur les transcriptions. Pas sur le texte traité dans le cloud. Pour aucune future version de modèle.
Pas d'audio uploadé sauf si tu opt-in. Par défaut : pas d'audio cloud. Les fonctionnalités cloud opt-in sont explicites et par fonctionnalité.
Rétention zéro sur les données traitées dans le cloud. La requête est traitée et immédiatement jetée. Il n'y a pas de « soft-delete de 30 jours » — il n'y a pas de copie à supprimer.
TLS pour tout le trafic cloud. Pratique standard mais énoncée par souci d'exhaustivité.
Mode hors ligne. Une seule bascule dans les Réglages désactive tous les appels cloud. Loqua continue à fonctionner en utilisant uniquement les couches on-device.
Pas de hooks navigateur. Pas de tracking inter-applications. Loqua lit le contexte de l'application active pour la dictée actuelle uniquement. Entre les dictées, la couche de contexte multimodal est en pause.
Le Dictionnaire personnel reste local. Ton vocabulaire personnalisé vit dans un fichier local. Il ne se synchronise avec aucun cloud et ne nous est pas visible.

Tes contrôles

La confidentialité n'est utile que si l'utilisateur a des contrôles faciles à trouver. Depuis le panneau Réglages -> Confidentialité tu peux :

Désactiver les appels cloud optionnels
Activer ou désactiver la réécriture cloud longue
Activer ou désactiver la traduction cloud
Exclure des applications spécifiques de Loqua entièrement
Révoquer la permission microphone dans les Réglages Système macOS
Révoquer la permission Accessibilité dans les Réglages Système macOS

Pour les workflows régulés ou sensibles à la sécurité, utilise le mode hors ligne complet et fais ta propre revue de conformité. On ne présente pas un billet de blog comme un conseil juridique ou de conformité HIPAA ; la frontière produit est technique, et les exigences formelles de conformité devraient être évaluées par le bon canal de politique.

Pour aller plus loin

Documentation Apple Core ML — pour le runtime on-device que Loqua utilise.
Vue d'ensemble des fonctionnalités de confidentialité d'Apple — pour le modèle de confidentialité Mac plus large sur lequel Loqua s'appuie.
Nos notes complémentaires : architecture à trois modèles et voice meets vision : dictée omni-modal.

Si tu as une exigence spécifique de confidentialité ou de sécurité en dictée vocale qu'on ne traite pas ici, écris-nous. On est une petite équipe et on préfère répondre à ta question directement plutôt que te laisser deviner depuis un document de politique générique. C'est la version courte de pourquoi Loqua est construit comme un produit de dictée vocale privée sur Mac d'abord, et un produit à fonctionnalités cloud ensuite.

Questions fréquentes

L'audio est-il jamais envoyé au cloud ?

Pas par défaut. La reconnaissance vocale tourne on-device sur Apple Silicon. L'audio n'est envoyé au cloud que si tu actives explicitement une fonctionnalité cloud qui l'exige (actuellement : certaines réécritures longues et certaines paires de traduction). Tu peux désactiver tous les appels cloud dans Réglages → Confidentialité.

Loqua s'entraîne-t-il sur ma dictée ou mon audio ?

Non. Ni sur l'audio, ni sur les transcriptions, ni sur le texte traité dans le cloud. Pour aucune future version du modèle. On utilise des jeux de données d'entraînement soigneusement sélectionnés qui n'incluent pas de contenu utilisateur.

Puis-je faire tourner Loqua entièrement hors ligne ?

Oui. Désactive tous les appels cloud dans Réglages → Confidentialité. L'expérience de dictée principale — reconnaissance vocale, contexte multimodal, NER, mise en forme consciente de l'application — tourne entièrement on-device. Tu perdras les fonctionnalités cloud optionnelles (réécritures longues, certaines traductions) et tu gagneras un stack sans surface réseau.

Qu'est-ce qui est journalisé ?

Les journaux de debug locaux incluent des informations de diagnostic (temps de chargement du modèle, mesures de latence, traces d'erreur) mais n'incluent pas ton contenu dicté. Les journaux côté cloud n'incluent pas d'audio ou de transcriptions — uniquement des métadonnées de requête opaques pour la fiabilité du service.

Et pour le RGPD / CCPA ?

On est conçu pour se conformer. Comme la plupart du traitement est on-device et que le traitement cloud est sans rétention, il n'y a typiquement pas de données personnelles à soumettre à des demandes d'accès ou de suppression. Pour les spécificités liées à ta juridiction, voir notre politique de confidentialité ou écris-nous.

Puis-je utiliser Loqua dans des workflows régulés type HIPAA ?

Ne traite pas ce billet de blog comme un conseil juridique ou de conformité HIPAA. Loqua peut tourner avec les fonctionnalités cloud optionnelles désactivées pour les workflows sensibles, mais les déploiements régulés devraient être revus via ton processus de conformité et tous les accords requis.

Essaie Loqua aujourd’hui

Gratuit pour commencer. Natif Mac. Conçu par des chercheurs en algorithmes qui l’utilisent chaque jour.

Télécharger

Plus d’articles du Blog Loqua

tuto

Comment dicter du code sur Mac : guide complet pour Cursor, VS Code et Claude Code

comparatif

Loqua vs Wispr Flow : une alternative à Wispr Flow Mac-first pour le contexte, le code et la confidentialité

ingénierie

Reconnaissance vocale multimodale : construire un listener qui voit ce que tu vois

ingénierie

Détection d'événements audio en dictée : des sons porteurs de sens au-delà des mots

productivité

Stack de productivité vocale : 9 outils qu'on utilise vraiment pour écrire, livrer et réfléchir