Productivity

Flujo de trabajo voice-first: un día en nuestra jornada voice-first

Un recorrido práctico, en primera persona, de dónde la voz ahorra tiempo, dónde falla y cómo nos recuperamos.

Shuran Zhou, Founder · 2026-05-03 ·6 min ·Actualizado 2026-05-03

TL;DR

Un flujo de trabajo voice-first no significa trabajar solo con la voz. Loqua es una herramienta de dictado por voz nativa para Mac, y nuestro patrón práctico es voz para la intención de primera pasada, teclado para la manipulación exacta y formato consciente de la app en todo lo intermedio. Esta es una jornada voice-first normal usando Loqua en la bandeja de entrada, el standup, la revisión de código, las specs, Slack y el diario.

Soy Shuran, founder de Loqua.ai. Esta es la versión honesta de nuestro flujo de trabajo voice-first: dónde ahorra tiempo, dónde falla y qué hago en su lugar. El objetivo no es performar productividad. El objetivo es reducir la distancia entre un pensamiento y el artefacto que mueve el trabajo hacia delante. Al final de un día como este, la pregunta de teclear o hablar es prácticamente invisible; lo que noto es el trabajo en sí.

Bandeja de entrada a las 8am

Empiezo con Spark Mail y Slack. La voz funciona bien aquí porque las respuestas son sobre todo intención y tono. Dicto la respuesta rugosa, Loqua quita las muletillas y la capa consciente de la app mantiene la salida más corta en Slack que en el correo.

Yo digo

"tell her Thursday morning works and I can be flexible on timing but I'd prefer before noon if possible"

Loqua escribe (en Spark)

Thursday morning works for me, and I can be flexible on timing. Before noon would be ideal if possible.

El bloque de bandeja de entrada suele llevarme entre quince y veinte minutos. Unas dos terceras partes de las respuestas se dictan; el resto las tecleo porque necesitan una redacción exacta, una lista de enlaces o una explicación delicada. La división no es una regla. Es en lo que acaba convirtiéndose la mañana cuando dejo de forzar una herramienta a hacer el trabajo de la otra.

Cuando falla la voz: hilos confidenciales en espacios públicos. Si estoy en una cafetería y el mensaje contiene contexto sensible, tecleo. Voice-first no significa privacidad en segundo plano.

Standup

Para el standup, digo tres huecos: shipped, today, blocker. Es uno de los patrones diarios de flujo de trabajo de dictado por voz con mayor retorno porque la estructura se repite y el contenido cambia.

Yo digo

"standup shipped validator phase today writing productivity posts blocker only H4 forward refs until phase three"

Loqua escribe (en Slack)

Shipped: validator phase.
Today: writing productivity posts.
Blocker: expected H4 forward references until Phase 3.

El truco es no divagar. Digo los nombres de los huecos en voz alta. Loqua los usa como estructura. El propio standup tarda unos treinta segundos en escribirse y otro minuto en leer lo que ha publicado el resto del equipo. La voz no ahorra mucho tiempo en cada standup individual; lo que ahorra es el coste de posponerlo, que antes era el mayor lastre del día.

Revisión de código

La revisión de código es mixta. La voz es excelente para explicar la preocupación; el teclado es mejor para la precisión a nivel de línea. Dicto los resúmenes de revisión y los comentarios de alto nivel, y luego uso el ratón y el teclado para la navegación exacta por archivos.

Un buen comentario de revisión por voz dice por qué importa el problema, no solo qué línea está mal. Por ejemplo: "This cache key ignores locale, so Chinese and English results can collide. Can we include locale in the key and add a regression test?" Ese comentario es mucho más fácil de decir que de teclear mientras lees código.

Yo digo

"comment this guard handles the missing token case but we still leak the partial state into the metrics path can we move the early return above the increment"

Loqua escribe (en un comentario de PR en GitHub)

This guard handles the missing-token case, but we still leak partial state into the metrics path. Can we move the early return above the increment?

Borrador de spec

Redactar specs es donde el flujo voice-first se siente más cerca de pensar. Dicto goal, non-goals, flujo de usuario, casos límite y criterios de aceptación. Luego edito los encabezados con el teclado. Para una spec más grande, empiezo en Obsidian; para tareas de implementación, paso la versión limpia a Claude Code o Cursor.

Yo digo

"spec goal add blog productivity cluster non goal no template changes acceptance validator passes once H4 exists and hub has exactly one featured"

Loqua escribe (en Obsidian)

## Goal
Add the blog productivity cluster.

## Non-goals
No template changes in this phase.

## Acceptance
- Validator passes once H4 exists.
- Hub has exactly one featured post.

El primer borrador dictado rara vez es la spec que enviamos. Es el andamio que hace obvia la edición posterior con el teclado. El truco que reaprendo es que la versión dictada saca a la luz las secciones que faltan más rápido que un esquema tecleado, porque decir "acceptance" en voz alta me obliga a continuarlo con al menos un criterio.

Hilos de Slack

En Slack importa el tono. La voz puede sonar demasiado brusca si el modelo de limpieza solo transcribe. El formato según destino de Loqua mantiene las respuestas cortas pero no frías. Aun así leo antes de enviar; la voz debe acelerar el juicio, no reemplazarlo.

Un patrón que tardé en aprender: dicta la versión cálida, no la eficiente. Slack se lee mejor cuando la primera frase reconoce a la persona y la segunda va al grano. Una respuesta tecleada tiende a saltarse la primera frase. Una dictada normalmente la mantiene, y el hilo está más sano por ello.

Cuando falla la voz: cuando un hilo requiere citar con cuidado o varios enlaces. Eso lo tecleo. La regla híbrida es simple: usa la voz para el argumento, el teclado para las referencias.

Diario de final de día

Al final del día, dicto lo que me sorprendió. Esto no es una actualización de estado. Es captura de memoria: qué me hizo cambiar de opinión, qué fue más difícil de lo esperado y qué no debería olvidar mañana. El destino es Obsidian porque es buscable y enlazable.

Una entrada típica de diario son tres párrafos cortos y tarda unos cinco minutos. El patrón interesante es que las entradas más valiosas son sobre pequeñas sorpresas, no sobre grandes decisiones. Las grandes decisiones se escriben de todos modos, a menudo más de una vez. La pequeña sorpresa — la API que devolvió una forma distinta a la que sugería la doc, el comentario de usuario que contradijo mi modelo — es la que desaparece para la mañana si no se captura.

Cuando hoy la voz no funcionó

Dos ejemplos del mismo día. Primero, un refactor de código denso en un archivo cargado. Intenté dictar el plan de renombrado en el editor y el modelo seguía equivocándose con un identificador porque el contexto visible se desplazaba más rápido de lo que el listener podía alcanzar. Cambié a teclear. La voz era la herramienta equivocada porque el cursor se movía demasiado rápido para que el contexto se estabilizara.

Segundo, un hilo tenso en Slack donde la respuesta correcta eran tres frases y cero adjetivos. Dicté, la limpieza añadió un matiz cortés y el mensaje acabó leyéndose más suave de lo que yo quería. Lo reescribí a mano. La lección es que la voz es buena para la calidez y mala para la frialdad deliberada; cuando necesitas un mensaje plano, tecléalo.

Para detalles más amplios del stack, mira nuestro stack de productividad por voz. Para el argumento detrás del hábito, mira por qué tu teclado es la herramienta equivocada para pensar con IA. Las referencias externas que dieron forma a nuestro flujo de trabajo en Mac incluyen Apple Dictation y los documentos de Linear.

Preguntas frecuentes

¿Qué es un flujo de trabajo voice-first?

Un flujo de trabajo voice-first usa el habla como método de captura por defecto para intención, borradores, respuestas y actualizaciones de estado. No es solo voz. En la práctica, la voz se encarga del pensamiento en primera pasada y del texto estructurado, mientras que el teclado y el ratón se encargan de las ediciones exactas y la navegación.

¿Qué partes de la jornada son las mejores para la voz?

Las respuestas de la bandeja de entrada, los standups, los resúmenes de revisión de código, los borradores de specs, las actualizaciones en Slack y el diario de final de día encajan muy bien. Implican explicación en lenguaje natural y formatos repetidos, lo que permite a Loqua convertir un habla rugosa en texto útil rápidamente.

¿Cuándo falla la voz durante el día?

La voz falla cuando la privacidad es delicada, cuando la tarea requiere ediciones exactas a nivel de línea o cuando necesitas insertar muchos enlaces y citas. En esos casos paso al teclado. Un flujo voice-first maduro incluye puntos de fallback explícitos.

¿Usas la voz para el código en sí?

A veces, para comentarios, docstrings, mensajes de commit y prompts a agentes de código. No dicto grandes bloques de código por voz. El código sigue beneficiándose de la precisión del teclado, las autocompletaciones del editor y las pruebas.

¿Cómo evitas que el Slack dictado suene raro?

Digo la versión honesta y luego Loqua limpia el tono para el destino. Aun así leo antes de enviar. El objetivo es eliminar fricción, no automatizar el juicio ni enviar texto sin revisar.

¿Cómo debería adoptar un equipo flujos de trabajo por voz?

Empieza por artefactos repetidos de bajo riesgo: standups, descripciones de PR, follow-ups de reuniones y descripciones de issues. No impongas la voz. Deja que cada persona decida dónde ayuda y dónde el teclado sigue siendo mejor.

¿Funciona la voz en una oficina abierta?

En parte. Los huecos más útiles pasan a ser los que puedes dictar en voz baja: el standup, la entrada de diario y un par de bloques de prompts enfocados. Las respuestas de Slack de alta frecuencia y los mensajes de la bandeja de entrada tienden a moverse al teclado. El flujo de trabajo sobrevive; solo cambia la mezcla.

Prueba Loqua hoy

Gratis para empezar. Nativa de Mac. Hecha por investigadores de algoritmos que la usan a diario.

Descargar

Más del Blog de Loqua

Productividad

La voz para pensar con IA: por qué tu teclado es la herramienta equivocada

Productividad

Stack de productividad por voz: 9 herramientas que usamos de verdad para escribir, lanzar y pensar

Cómo hacerlo

Notas de reunión por voz en Mac: de la voz a las tareas terminadas

Engineering

Dictado por voz omni-modal: comprensión multimodal, MoE y salida de texto en streaming

Comparativa

Loqua vs Wispr Flow: una alternativa a Wispr Flow Mac-first para contexto, código y privacidad