Ingegneria

Voice meets vision: come i modelli omni-modali sbloccano il voice typing multimodale

Dall'ASR solo audio ad audio + visione + testo: il cambio di paradigma che ha trasformato il voice typing da trascrivi ciò che ho detto a scrivi ciò che intendevo, dove lo intendevo.

Shuran Zhou, Founder · 2026-04-08 ·3 min ·Aggiornato 2026-04-08

TL;DR

Voice typing multimodale significa che il sistema usa parlato più contesto locale per decidere cosa devono diventare le parole. Loqua è uno strumento di voice typing consapevole del contesto per Mac: ascolta la tua voce, legge il contesto locale di destinazione e scrive testo consapevole dell'app. Questa introduzione spiega perché il voice typing consapevole dello schermo conta, senza entrare nell'architettura completa.

Loqua è uno strumento di voice typing consapevole del contesto per Mac. Il passaggio importante e dalla trascrizione alla scrittura consapevole della destinazione: la stessa frase parlata dovrebbe diventare testo diverso in Slack, Cursor, GitHub, Apple Notes e in un editor di codice.

Questa è la versione introduttiva del nostro ragionamento voice + vision ai. La ricerca aperta su audio, linguaggio e sistemi multimodali offre al campo un vocabolario utile, ma lo stack di produzione di Loqua e lavoro originale, addestrato e ottimizzato in-house per la dettatura su Mac.

Il passaggio dalla trascrizione al contesto

L'ASR solo audio risponde a una domanda: quali parole ha detto l'utente? La dettatura pone una seconda domanda: cosa dovrebbero diventare quelle parole al cursore? Questa seconda domanda e il motivo per cui esiste il voice typing multimodale. Una trascrizione può essere accurata e comunque sbagliata per la destinazione.

Quando detti in un editor di codice, punteggiatura, identificatori, commenti e testo selezionato contano. Quando detti in un'email, contano tono e forma del paragrafo. Quando detti in un'app di task, contano owner e scadenza. Il voice typing consapevole dello schermo trasforma questi indizi visibili in vincoli per la scrittura.

Perche il contesto dello schermo cambia la dettatura

La stessa frase può significare cose diverse a seconda dell'app. Aggiungi una guard prima di fetch profile dovrebbe diventare testo vicino al codice in un IDE, un task in Linear e una richiesta semplice in Slack. L'audio da solo non può scegliere in modo affidabile tra queste forme.

Il layer di contesto di Loqua legge segnali locali come app attiva, testo selezionato, testo visibile adiacente e tipo di campo di destinazione. Non ha bisogno di una narrazione completa dello screenshot. Ha bisogno di sufficiente evidenza locale per preservare identificatori, decidere se stai inserendo o modificando e scegliere la forma di output giusta.

Cosa cambia al cursore

Tu dici

aggiungi un controllo che l'utente sia loggato prima di fare fetch del profilo altrimenti reindirizza a sign in

Loqua scrive (in VS Code)

if (!user.isLoggedIn) {
return redirect('/signin');
}

Tu dici (stesse parole)

aggiungi un controllo che l'utente sia loggato prima di fare fetch del profilo altrimenti reindirizza a sign in

Loqua scrive (in Linear)

Add auth guard before profile fetch. If user is not logged in, redirect to sign-in instead of fetching profile.

L'output cambia perché cambia la destinazione. Questo è il valore pratico della dettatura omni model come categoria di prodotto: il contesto prende decisioni di scrittura che una trascrizione non può prendere.

Il confine della privacy

Il contesto dello schermo e abbastanza potente da richiedere un confine chiaro. Il percorso di contesto di Loqua e local-first per default. L'app attiva, il testo selezionato e il contenuto visibile vicino vengono usati per modellare l'utterance corrente, non per creare un log generale dello schermo.

Per il confine completo, vedi privacy by design with a hybrid architecture. La versione breve: audio e contesto dello schermo sono trattati come segnali locali sensibili, e le funzionalita cloud opzionali non ricevono contenuto grezzo dello schermo circostante.

Vuoi andare più a fondo?

Inside our omni-modal voice stack: pipeline di istruzioni multimodali, MoE e streaming.
Building a listener that sees what you see: come il contesto multimodale risolve l'ambiguita ASR.
Sounds with meaning: AED, audio captioning e la prossima frontiera.

Letture consigliate

Per il contesto della letteratura, parti da Whisper per speech recognition robusto, LLaVA per visual instruction tuning e ImageBind per allineamento cross-modale. Quei link spiegano il campo; non sono un claim di provenienza su Loqua.

Domande frequenti

Cosa conta come contesto dello schermo per Loqua?

Contesto dello schermo significa segnali locali intorno al target di dettatura corrente: app attiva, testo selezionato, testo visibile vicino, tipo di file, posizione del cursore e forma del campo. Loqua usa questi indizi per decidere se la tua frase parlata debba diventare prosa, task, prompt o testo vicino al codice.

Loqua invia screenshot da qualche parte?

Il percorso di contesto e local-first per default. Loqua usa segnali derivati dallo schermo per modellare l'utterance corrente e non ha bisogno di inviare contenuto grezzo dello schermo circostante alle funzionalita cloud opzionali. Vedi l'articolo sulla privacy per il confine completo.

In che modo il contesto impatta la latenza?

Il contesto viene raccolto in parallelo con lo speech recognition. Questo significa che l'evidenza di destinazione di solito e pronta quando il testo finale deve essere renderizzato. L'architettura e progettata intorno a interazioni nell'ordine dei 200 ms, non a una lenta chiamata di post-processing.

Perche voce più visione conta per il codice?

Il codice e pieno di identificatori, casing, sintassi e regioni selezionate che non sono recuperabili dal suono da solo. Se il modello può vedere un identificatore vicino al cursore, può preservare quel nome invece di scrivere una trascrizione generica.

E un agente che agisce sul mio schermo?

No. Questo articolo parla di dettatura, non di controllo autonomo dello schermo. Loqua usa contesto locale per scrivere testo migliore al cursore. Non naviga nelle tue app ne compie azioni, a meno che tu non usi esplicitamente un altro strumento per quello scopo.

Dove posso leggere l'architettura più approfondita?

Inizia da Inside our omni-modal voice stack per la pipeline di istruzioni multimodali, poi leggi Building a listener that sees what you see per la disambiguazione e Sounds with meaning per la direzione prototipale sull'audio non verbale.

Prova Loqua oggi

Gratis per iniziare. Nativa per Mac. Costruita da ricercatori di algoritmi che la usano ogni giorno.

Scarica

Altro dal blog di Loqua

Engineering

Digitazione vocale omni-modale: comprensione multimodale, MoE e output testuale in streaming

Engineering

Riconoscimento vocale multimodale: costruire un ascoltatore che vede ciò che vedi

Engineering

Audio event detection nella dettatura: suoni con significato oltre le parole

Produttività

Voice productivity stack: 9 strumenti che usiamo davvero per scrivere, spedire e pensare

Guida

Come dettare codice su Mac: guida completa per Cursor, VS Code e Claude Code