Dictée vocale privée édition Mac : comment le stack de dictée vocale hybride de Loqua garde tes données de ton côté
La plupart des dictées vocales dépendent de chemins cloud. Loqua utilise une architecture hybride avec des couches sensibles local-first, des fonctionnalités cloud optionnelles et des frontières visibles.
TL;DR
Si tu cherches des options de dictée vocale privée sur Mac qui ne sont pas juste de la « transcription cloud avec une politique de confidentialité », c'est la réponse architecturale. Loqua est hybride par conception : le chemin sensible central — reconnaissance vocale, nettoyage local, gestion des entités nommées et lecture d'écran/contexte — est conçu pour tourner on-device sur Apple Silicon par défaut. On traite ça comme de la dictée sécurisée sur Mac parce que les couches qui touchent l'audio et le contenu d'écran sont local-first, pas parce que le texte marketing dit « privé ». Le traitement cloud optionnel est réservé aux fonctionnalités comme les réécritures longues ou certaines traductions, et peut être désactivé. On ne s'entraîne pas sur les données de dictée des utilisateurs. L'objectif est une frontière visible autour de ce qui reste en mode dictée vocale locale et de ce qui, si activé, traverse le réseau.
Loqua est un outil de dictée vocale conscient du contexte pour Mac. Le fait qu'il puisse utiliser le contexte d'écran rend le sujet de la confidentialité central. Si un produit de dictée peut voir ton code, tes messages et tes emails à moitié rédigés, l'architecture autour de ces données n'est pas une note de bas de page marketing — c'est le produit.
Je suis Shuran, et j'ai co-construit ce stack avec une petite équipe de chercheurs en algorithmes. On utilise Loqua pour notre propre Slack interne, nos emails, nos prompts de codage et nos revues de code. Le standard qu'on voulait était simple : garder le chemin sensible local par défaut, rendre l'usage cloud optionnel visible, et éviter de s'entraîner sur les données de dictée des utilisateurs.
L'arbitrage cloud par défaut
Beaucoup de produits de dictée modernes utilisent la transcription cloud. Cela peut être un choix d'ingénierie raisonnable : grands modèles, mises à jour centralisées, cohérence multi-plateforme, contrôles entreprise et modes de non-rétention de données documentés peuvent tous vivre dans cette architecture.
L'arbitrage, c'est la surface d'attaque. Une fois que l'audio ou le contexte traverse le réseau, il y a maintenant un chemin serveur entre ton microphone et ton curseur : transport, files d'attente, journaux, fournisseurs de modèles, métadonnées opérationnelles et politique entreprise. Les bons fournisseurs gèrent cette surface avec soin. Mais les utilisateurs ont toujours besoin de comprendre où est la frontière.
Loqua part d'un défaut différent. Les couches qui touchent l'audio et le contexte d'écran sont conçues pour tourner localement d'abord. Les fonctionnalités cloud optionnelles sont traitées comme des frontières de fonctionnalité explicites, pas comme une plomberie invisible.
Pourquoi le pur on-device reste un arbitrage
L'IA pure on-device est attirante, et pour la dictée routinière c'est le bon défaut. Mais les affirmations absolues deviennent fragiles. Certaines tâches à longue traîne — réécritures très longues, traduction entre langues éloignées, transformation de domaine rare — peuvent bénéficier de modèles cloud plus grands. Les mises à jour de modèles, les rapports de crash, les vérifications de licence et la livraison de fonctionnalités créent aussi des points de contact réseau dans beaucoup de produits.
Donc on évite la version slogan de la confidentialité. La réponse utile n'est pas « cloud bad » ou « magie locale ». C'est une architecture hybride avec des défauts clairs, des contrôles explicites et un produit qui continue à fonctionner quand les fonctionnalités cloud sont désactivées.
Ce que hybride veut dire chez Loqua
Voici l'architecture, dite simplement :
| Couche | Où elle tourne par défaut | Pourquoi |
|---|---|---|
| Reconnaissance vocale (Couche 1) | On-device, Apple Neural Engine | Budget de latence ; sensibilité audio |
| Intelligence linguistique — nettoyage des hésitations, NER, mise en forme basique (Couche 2) | On-device | Latence ; le vocabulaire est le tien |
| Contexte multimodal — lecture d'écran (Couche 3) | On-device | Le contenu de l'écran ne quitte jamais ta machine |
| Post-traitement cloud — seulement quand tu opt-in | Cloud géré par Loqua, chiffré TLS | Réécritures longues, certaines traductions |
Les trois couches principales — celles qui touchent l'audio et le contenu d'écran — sont conçues pour tourner on-device par défaut. Tu peux utiliser Loqua en mode hors ligne pour l'expérience de dictée principale.
Le cloud est réservé à des cas spécifiques, opt-in. Quand il est utilisé : le trafic cloud est chiffré TLS ; le traitement cloud est sans rétention (la requête est traitée et jetée) ; et l'utilisateur peut désactiver entièrement le cloud depuis les Réglages. On ne s'entraîne pas sur les données utilisateur à aucun moment — ni sur le trafic cloud, ni sur l'usage on-device.
Toute frontière, visible
Le principe : si un morceau de tes données traverse une frontière, tu devrais le savoir sans lire le CGU. Voici comment on rend chaque frontière visible :
- Indicateur dans la barre de menus. Quand Loqua enregistre, l'icône de la barre de menus devient rouge. Quand le cloud est utilisé pour un énoncé donné, l'indicateur diffère visiblement (un petit overlay d'icône cloud). Tu vois, en temps réel, si quelque chose quitte ta machine.
- Panneau Réglages → Confidentialité. Liste exactement les appels cloud activés, avec des bascules pour chacun. La traduction peut être activée pendant que la réécriture longue est désactivée, ou vice versa.
- Gestion de l'audio. L'audio n'est pas envoyé au cloud pour le chemin de dictée principal par défaut. Les fonctionnalités cloud optionnelles sont explicites et peuvent être désactivées.
- Gestion du contenu d'écran. Le contenu d'écran lu par la couche de contexte multimodal ne traverse jamais le réseau. Même si tu actives la réécriture cloud, seul le texte en cours de réécriture part — pas l'écran environnant.
- Journalisation. Les journaux de debug locaux n'incluent pas de contenu dicté. Les journaux côté cloud n'incluent pas d'audio ou de transcriptions.
L'AED et le traitement du contexte multimodal restent locaux sous la même frontière. Le travail prototype décrit dans les sons porteurs de sens traite l'audio non verbal comme un signal local, opt-in, et le listener multimodal décrit dans construire un listener qui voit ce que tu vois utilise le contexte d'écran pour l'énoncé actuel plutôt que de créer un journal d'écran général.
Arbitrages algorithmiques en basse latence
Faire tourner les couches principales on-device tout en gardant la dictée réactive sur des Macs grand public est le travail d'ingénierie le plus dur de ce stack. Trois choses l'ont rendu faisable :
- Sélection agressive des opérateurs pour le Neural Engine. Tous les opérateurs transformer ne tournent pas efficacement sur le Neural Engine d'Apple. On choisit des types de couches, des variantes d'attention et des schémas de quantification qui restent sur le chemin rapide. La documentation Core ML d'Apple cartographie l'ensemble d'opérateurs supportés ; en sortir peut coûter cher.
- Reconnaissance vocale streaming-first. La sortie commence avant que l'énoncé complet ne soit finalisé. Les variantes non-streaming peuvent améliorer la précision par énoncé mais paraissent plus lentes.
- Pipeline parallèle. La couche de contexte tourne en parallèle de la reconnaissance vocale. Au moment où la couche linguistique est prête à mettre en forme la sortie, le contexte de destination a déjà été lu localement.
L'arbitrage : les budgets de paramètres sont serrés. Chaque couche locale est plus petite qu'un modèle cloud non contraint par les thermiques de laptop. On compense avec des données d'entraînement spécifiques aux tâches, un fine-tuning soigné et une portée Mac-first étroite. Les benchmarks internes ciblent actuellement environ une classe de réponse à 200 ms, une reconnaissance élevée du vocabulaire technique et un WER bas à un chiffre dans les conditions supportées ; on les décrit comme des cibles internes jusqu'à ce qu'une page de benchmark publique existe.
Ce qu'on garantit
La liste dure :
- Pas d'entraînement sur les données utilisateur. Pas sur l'audio. Pas sur les transcriptions. Pas sur le texte traité dans le cloud. Pour aucune future version de modèle.
- Pas d'audio uploadé sauf si tu opt-in. Par défaut : pas d'audio cloud. Les fonctionnalités cloud opt-in sont explicites et par fonctionnalité.
- Rétention zéro sur les données traitées dans le cloud. La requête est traitée et immédiatement jetée. Il n'y a pas de « soft-delete de 30 jours » — il n'y a pas de copie à supprimer.
- TLS pour tout le trafic cloud. Pratique standard mais énoncée par souci d'exhaustivité.
- Mode hors ligne. Une seule bascule dans les Réglages désactive tous les appels cloud. Loqua continue à fonctionner en utilisant uniquement les couches on-device.
- Pas de hooks navigateur. Pas de tracking inter-applications. Loqua lit le contexte de l'application active pour la dictée actuelle uniquement. Entre les dictées, la couche de contexte multimodal est en pause.
- Le Dictionnaire personnel reste local. Ton vocabulaire personnalisé vit dans un fichier local. Il ne se synchronise avec aucun cloud et ne nous est pas visible.
Tes contrôles
La confidentialité n'est utile que si l'utilisateur a des contrôles faciles à trouver. Depuis le panneau Réglages -> Confidentialité tu peux :
- Désactiver les appels cloud optionnels
- Activer ou désactiver la réécriture cloud longue
- Activer ou désactiver la traduction cloud
- Exclure des applications spécifiques de Loqua entièrement
- Révoquer la permission microphone dans les Réglages Système macOS
- Révoquer la permission Accessibilité dans les Réglages Système macOS
Pour les workflows régulés ou sensibles à la sécurité, utilise le mode hors ligne complet et fais ta propre revue de conformité. On ne présente pas un billet de blog comme un conseil juridique ou de conformité HIPAA ; la frontière produit est technique, et les exigences formelles de conformité devraient être évaluées par le bon canal de politique.
Pour aller plus loin
- Documentation Apple Core ML — pour le runtime on-device que Loqua utilise.
- Vue d'ensemble des fonctionnalités de confidentialité d'Apple — pour le modèle de confidentialité Mac plus large sur lequel Loqua s'appuie.
- Nos notes complémentaires : architecture à trois modèles et voice meets vision : dictée omni-modal.
Si tu as une exigence spécifique de confidentialité ou de sécurité en dictée vocale qu'on ne traite pas ici, écris-nous. On est une petite équipe et on préfère répondre à ta question directement plutôt que te laisser deviner depuis un document de politique générique. C'est la version courte de pourquoi Loqua est construit comme un produit de dictée vocale privée sur Mac d'abord, et un produit à fonctionnalités cloud ensuite.
Questions fréquentes
Essaie Loqua aujourd'hui
Gratuit pour commencer. Natif Mac. Construit par des chercheurs en algorithmes qui l'utilisent tous les jours.
Télécharger pour Mac