Productivité

Workflow voice-first : une journée dans notre journée voice-first

Un parcours pratique de fondateur sur les endroits où la voix fait gagner du temps, où elle échoue, et comment nous récupérons.

Shuran Zhou, Founder · 2026-05-03 ·6 min ·Mis à jour 2026-05-03

TL;DR

Un workflow voice-first n'est pas un travail voice-only. Loqua est un outil de dictée vocale natif Mac, et notre pattern pratique est : la voix pour l'intention en premier jet, le clavier pour la manipulation exacte, et un formatage adapté à l'application partout entre les deux. Voici une journée voice-first normale avec Loqua à travers la boîte de réception, le standup, la revue de code, les specs, Slack et le journal.

Je suis Shuran, fondateur de Loqua.ai. Voici la version honnête de notre workflow voice-first : où il fait gagner du temps, où il échoue, et ce que je fais à la place. L'objectif n'est pas de mettre en scène la productivité. L'objectif est de réduire la distance entre une pensée et l'artefact qui fait avancer le travail. À la fin d'une journée comme celle-ci, la question taper-versus-parler est largement invisible ; ce que je remarque, c'est le travail lui-même.

Boîte de réception à 8 h

Je commence par Spark Mail et Slack. La voix marche bien ici car les réponses sont surtout de l'intention et du ton. Je dicte la réponse brouillon, Loqua supprime les hésitations, et la couche consciente de l'application garde la sortie plus courte dans Slack que dans l'e-mail.

Je dis

"tell her Thursday morning works and I can be flexible on timing but I'd prefer before noon if possible"

Loqua écrit (dans Spark)

Thursday morning works for me, and I can be flexible on timing. Before noon would be ideal if possible.

Le bloc boîte de réception prend généralement quinze à vingt minutes. Environ deux tiers des réponses sont dictées ; le reste est tapé car elles ont besoin d'une formulation exacte, d'une liste de liens ou d'une explication délicate. La répartition n'est pas une règle. C'est ce que devient la matinée une fois que j'arrête de forcer un outil à faire le boulot de l'autre.

Là où la voix échoue : fils confidentiels dans des espaces publics. Si je suis dans un café et que le message contient un contexte sensible, je tape. Voice first ne veut pas dire confidentialité en second.

Standup

Pour le standup, je parle dans trois cases : livré, aujourd'hui, bloqueur. C'est l'un des patterns de workflow de dictée vocale quotidien à plus fort rendement, car la structure se répète et le contenu change.

Je dis

"standup shipped validator phase today writing productivity posts blocker only H4 forward refs until phase three"

Loqua écrit (dans Slack)

Shipped: validator phase.
Today: writing productivity posts.
Blocker: expected H4 forward references until Phase 3.

L'astuce, c'est de ne pas divaguer. Je dis les noms des cases à voix haute. Loqua les utilise comme structure. Le standup lui-même prend peut-être trente secondes à écrire et une minute de plus pour lire ce que le reste de l'équipe a posté. La voix ne fait pas gagner beaucoup de temps sur chaque standup individuel ; elle économise le coût de le repousser, ce qui était la plus grande traînée sur la journée.

Revue de code

La revue de code est mixte. La voix est excellente pour expliquer la préoccupation ; le clavier est meilleur pour la précision au niveau de la ligne. Je dicte les résumés de revue et les commentaires de haut niveau, puis j'utilise la souris et le clavier pour la navigation exacte dans les fichiers.

Un bon commentaire de revue vocal dit pourquoi le problème compte, pas seulement quelle ligne est fausse. Par exemple : « Cette clé de cache ignore la locale, donc les résultats chinois et anglais peuvent entrer en collision. Pouvons-nous inclure la locale dans la clé et ajouter un test de régression ? » Ce commentaire est bien plus facile à dire qu'à taper en lisant du code.

Je dis

"comment this guard handles the missing token case but we still leak the partial state into the metrics path can we move the early return above the increment"

Loqua écrit (dans un commentaire de PR GitHub)

This guard handles the missing-token case, but we still leak partial state into the metrics path. Can we move the early return above the increment?

Brouillon de spec

La rédaction de specs est là où le workflow voice-first se rapproche le plus de la pensée. Je dicte l'objectif, les non-objectifs, le flux utilisateur, les cas limites et les critères d'acceptation. Puis j'édite les titres au clavier. Pour une spec plus grande, je démarre dans Obsidian ; pour les tâches d'implémentation, je déplace la version nettoyée dans Claude Code ou Cursor.

Je dis

"spec goal add blog productivity cluster non goal no template changes acceptance validator passes once H4 exists and hub has exactly one featured"

Loqua écrit (dans Obsidian)

## Goal
Add the blog productivity cluster.

## Non-goals
No template changes in this phase.

## Acceptance
- Validator passes once H4 exists.
- Hub has exactly one featured post.

Le premier brouillon dicté est rarement la spec qu'on livre. C'est l'échafaudage qui rend évidente l'édition au clavier. L'astuce que je redécouvre sans cesse, c'est que la version dictée fait remonter les sections manquantes plus vite qu'un plan tapé, car dire « acceptance » à voix haute me force à le faire suivre d'au moins un critère.

Fils Slack

Slack est l'endroit où le ton compte. La voix peut sonner trop brusque si le modèle de nettoyage ne fait que transcrire. Le formatage par destination de Loqua garde les réponses courtes mais pas froides. Je relis quand même avant d'envoyer ; la voix devrait accélérer le jugement, pas le remplacer.

Un pattern qui a mis du temps à apprendre : dicte la version chaleureuse, pas la version efficace. Slack se lit mieux quand la première phrase reconnaît la personne et la deuxième phrase va au but. Une réponse tapée tend à sauter la première phrase. Une dictée la garde généralement, et le fil est plus sain pour ça.

Là où la voix échoue : quand un fil nécessite des citations soigneuses ou plusieurs liens. Je tape ceux-là. La règle hybride est simple : utiliser la voix pour l'argument, le clavier pour les références.

Journal de fin de journée

À la fin de la journée, je dicte ce qui m'a surpris. Ce n'est pas une mise à jour de statut. C'est une capture mémoire : ce qui m'a fait changer d'avis, ce qui a été plus dur que prévu, et ce que je ne dois pas oublier demain. Obsidian est la destination car il est cherchable et liable.

Une entrée de journal typique fait trois courts paragraphes et prend environ cinq minutes. Le pattern intéressant, c'est que les entrées les plus précieuses concernent les petites surprises, pas les grandes décisions. Les grandes décisions sont écrites de toute façon, souvent plus d'une fois. La petite surprise — l'API qui a renvoyé une forme différente de ce que les docs laissaient entendre, le commentaire utilisateur qui contredisait mon modèle — c'est celle qui disparaît au matin si elle n'est pas capturée.

Quand la voix n'a pas fonctionné aujourd'hui

Deux exemples de la même journée. Premièrement, un refactor de code dense dans un fichier chargé. J'ai essayé de dicter le plan de renommage dans l'éditeur et le modèle se trompait sur un identifiant car le contexte visible défilait plus vite que le listener ne pouvait suivre. J'ai basculé vers la frappe. La voix était le mauvais outil car le curseur bougeait trop vite pour que le contexte se stabilise.

Deuxièmement, un fil Slack tendu où la bonne réponse était trois phrases et zéro adjectif. J'ai dicté, le nettoyage a ajouté une atténuation polie, et le message s'est retrouvé à se lire plus doux que je le voulais. Je l'ai réécrit à la main. La leçon, c'est que la voix est bonne pour la chaleur et mauvaise pour la froideur délibérée ; quand tu as besoin d'un message plat, tape-le.

Pour plus de détails sur le stack, voir notre voice productivity stack. Pour l'argument derrière l'habitude, voir pourquoi ton clavier n'est pas le bon outil pour penser avec l'IA. Les références externes qui ont façonné notre workflow Mac incluent Apple Dictation et les docs Linear.

Questions fréquentes

Qu'est-ce qu'un workflow voice-first ?

Un workflow voice-first utilise la parole comme méthode de capture par défaut pour les intentions, brouillons, réponses et mises à jour de statut. Ce n'est pas voice-only. En pratique, la voix gère la pensée en premier jet et le texte structuré, tandis que le clavier et la souris gèrent les éditions exactes et la navigation.

Quelles parties de la journée sont les meilleures pour la voix ?

Les réponses dans la boîte de réception, les standups, les résumés de revue de code, les brouillons de specs, les mises à jour Slack et les journaux de fin de journée sont tous très adaptés. Ils impliquent une explication en langage naturel et des formats répétés, ce qui permet à Loqua de transformer rapidement une parole brute en texte utile.

Où la voix échoue-t-elle dans la journée ?

La voix échoue quand la confidentialité est risquée, quand la tâche nécessite des éditions exactes au niveau de la ligne, ou quand tu dois insérer beaucoup de liens et citations. Dans ces cas-là, je passe au clavier. Un workflow vocal mature inclut des points de repli explicites.

Utilises-tu la voix pour le code lui-même ?

Parfois pour les commentaires, docstrings, messages de commit et prompts aux agents de code. Je ne dicte pas de gros blocs de code par voix. Le code bénéficie encore de la précision du clavier, des complétions de l'éditeur et des tests.

Comment éviter que Slack dicté ne sonne bizarre ?

Je dis la version honnête, puis Loqua nettoie le ton pour la destination. Je relis quand même avant d'envoyer. L'objectif est de supprimer la friction, pas d'automatiser le jugement ou d'envoyer du texte non relu.

Comment une équipe devrait-elle adopter les workflows vocaux ?

Commence par des artefacts répétés à faible risque : standups, descriptions de PR, suivis de réunion et descriptions d'issues. N'impose pas la voix. Laisse chacun décider où elle aide et où la frappe reste meilleure.

La voix fonctionne-t-elle en open space ?

Partiellement. Les créneaux les plus utiles deviennent ceux que tu peux dicter discrètement : standup, entrée de journal et quelques blocs de prompts ciblés. Les réponses Slack et messages de boîte de réception à haute fréquence tendent à basculer vers la frappe. Le workflow survit ; le mix change simplement.

Essaie Loqua aujourd’hui

Gratuit pour commencer. Natif Mac. Conçu par des chercheurs en algorithmes qui l’utilisent chaque jour.

Télécharger

Plus d’articles du Blog Loqua

productivité

La voix pour penser avec l'IA : pourquoi ton clavier n'est pas le bon outil

productivité

Stack de productivité vocale : 9 outils qu'on utilise vraiment pour écrire, livrer et réfléchir

tuto

Notes de réunion à la voix sur Mac : de la voix aux tâches accomplies

ingénierie

Dictée vocale omni-modale : compréhension multimodale, MoE et sortie texte en streaming

comparatif

Loqua vs Wispr Flow : une alternative à Wispr Flow Mac-first pour le contexte, le code et la confidentialité