Ingegneria

Dettatura vocale privata per Mac: come lo stack ibrido di Loqua mantiene i tuoi dati dalla tua parte

Gran parte della dettatura vocale dipende da percorsi cloud. Loqua usa un'architettura ibrida con livelli sensibili local-first, funzioni cloud opzionali e confini visibili.

TL;DR

Se stai cercando opzioni di dettatura vocale privata per Mac che non siano solo "trascrizione cloud con privacy policy", questa è la risposta architetturale. Loqua e ibrida by design: il percorso core sensibile, cioe riconoscimento vocale, cleanup locale, gestione delle entita nominate e lettura dello schermo/contesto, e progettato per girare on-device su Apple Silicon di default. La consideriamo dettatura sicura su Mac perché i livelli che toccano audio e contenuto dello schermo sono local-first, non perché il copy marketing dica "privata". L'elaborazione cloud opzionale e riservata a funzioni come riscritture più lunghe o traduzioni selezionate, e può essere disattivata. Non addestriamo modelli sui dati di dettatura degli utenti. L'obiettivo è un confine visibile intorno a ciò che resta in modalità digitazione vocale locale e ciò che, se abilitato, attraversa la rete.

Loqua è uno strumento di digitazione vocale per Mac sensibile al contesto. Il fatto che possa usare il contesto dello schermo rende centrale la storia privacy. Se un prodotto di dettatura può vedere il tuo codice, i tuoi messaggi e le tue email scritte a meta, l'architettura intorno a quei dati non è una nota marketing: e il prodotto.

Sono Shuran, e ho co-costruito questo stack con un piccolo team di ricercatori di algoritmi. Usiamo Loqua per il nostro Slack interno, email, prompt di coding e code review. Lo standard che volevamo era semplice: mantenere locale di default il percorso sensibile, rendere visibile l'uso opzionale del cloud ed evitare training sui dati di dettatura degli utenti.

Il tradeoff cloud-default

Molti prodotti moderni di dettatura usano trascrizione cloud. Puo essere una scelta ingegneristica ragionevole: modelli grandi, aggiornamenti centralizzati, coerenza cross-platform, controlli enterprise e modalità zero-data-retention documentate possono vivere tutte in quell'architettura.

Il tradeoff e la superficie. Una volta che audio o contesto attraversano la rete, esiste un percorso server tra il tuo microfono e il tuo cursore: trasporto, code, log, provider di modelli, metadati operativi e policy enterprise. I buoni vendor gestiscono quella superficie con cura. Ma gli utenti devono comunque capire dove si trova il confine.

Loqua parte da un default diverso. I livelli che toccano audio e contesto dello schermo sono progettati per girare prima localmente. Le funzioni cloud opzionali vengono trattate come confini funzionali espliciti, non come plumbing invisibile.

Perche il puro on-device e comunque un tradeoff

L'AI completamente on-device e attraente, e per la dettatura ordinaria e il default giusto. Ma le affermazioni assolute diventano fragili. Alcuni task di lunga coda, come riscritture molto lunghe, traduzione tra lingue lontane e trasformazioni di domini rari, possono beneficiare di modelli cloud più grandi. Anche aggiornamenti di modello, crash reporting, controlli licenza e distribuzione di funzioni creano punti di contatto con la rete in molti prodotti.

Per questo evitiamo la versione slogan della privacy. La risposta utile non è "cloud cattivo" o "locale magico". E un'architettura ibrida con default chiari, controlli espliciti e un prodotto che continua a funzionare quando le funzioni cloud sono disattivate.

Cosa significa ibrido in Loqua

Ecco l'architettura, detta in modo diretto:

LivelloDove gira di defaultPerche
Riconoscimento vocale (Layer 1)On-device, Apple Neural EngineBudget di latenza; sensibilita dell'audio
Intelligenza linguistica — cleanup riempitivi, NER, formattazione base (Layer 2)On-deviceLatenza; il vocabolario e tuo
Contesto multimodale — lettura dello schermo (Layer 3)On-deviceIl contenuto dello schermo non lascia mai la macchina
Post-processing cloud — solo con opt-inCloud gestito da Loqua, cifrato TLSRiscritture long-form, alcune traduzioni

I tre livelli core, quelli che toccano audio e contenuto dello schermo, sono progettati per girare on-device di default. Puoi usare Loqua in modalità offline per l'esperienza core di dettatura.

Il cloud e riservato a casi specifici e opt-in. Quando viene usato: il traffico cloud e cifrato TLS; l'elaborazione cloud e zero-retention (la richiesta viene processata e scartata); e l'utente può disabilitare completamente il cloud dalle Settings. Non addestriamo modelli sui dati utente in nessun momento: ne sul traffico cloud, ne sull'uso on-device.

Ogni confine, visibile

Il principio: se un tuo dato attraversa un confine, dovresti saperlo senza leggere l'EULA. Ecco come rendiamo visibile ogni confine:

  • Indicatore nella menu bar. Quando Loqua registra, l'icona nella menu bar diventa rossa. Quando il cloud viene usato per un enunciato specifico, l'indicatore cambia in modo visibile (una piccola sovrapposizione con icona cloud). Vedi in tempo reale se qualcosa sta lasciando la macchina.
  • Pannello Settings → Privacy. Elenca esattamente quali chiamate cloud sono abilitate, con toggle per ciascuna. La traduzione può essere attiva mentre la riscrittura long-form e disattiva, o viceversa.
  • Gestione audio. L'audio non viene inviato al cloud per il percorso core di dettatura di default. Le funzioni cloud opzionali sono esplicite e disattivabili.
  • Gestione del contenuto schermo. Il contenuto dello schermo letto dal livello di contesto multimodale non attraversa mai la rete. Anche se abiliti la riscrittura cloud, parte solo il testo da riscrivere, non lo schermo circostante.
  • Logging. I log debug locali non includono contenuto dettato. I log lato cloud non includono audio o trascrizioni.

AED e processamento del contesto multimodale restano locali sotto lo stesso confine. Il lavoro prototipale descritto in suoni con significato tratta l'audio non verbale come segnale locale e opt-in, e il listener multimodale descritto in costruire un listener che vede ciò che vedi usa il contesto dello schermo per l'enunciato corrente invece di creare un log generale dello schermo.

Tradeoff algoritmici a bassa latenza

Eseguire i livelli core on-device mantenendo reattiva la dettatura su Mac consumer e il lavoro ingegneristico più difficile dello stack. Tre cose lo hanno reso fattibile:

  • Selezione aggressiva degli operatori per il Neural Engine. Non ogni operatore transformer gira efficientemente sul Neural Engine di Apple. Scegliamo tipi di layer, varianti di attention e schemi di quantizzazione che restano sul percorso veloce. La documentazione Core ML di Apple mappa il set di operatori supportati; uscirne può costare caro.
  • Riconoscimento vocale streaming-first. L'output inizia prima che l'enunciato completo sia finalizzato. Le varianti non streaming possono migliorare l'accuratezza per singolo enunciato, ma sembrano più lente.
  • Pipeline parallela. Il livello di contesto gira in parallelo al riconoscimento vocale. Quando il livello linguistico e pronto per formattare l'output, il contesto di destinazione e già stato letto localmente.

Il tradeoff: i budget di parametri sono stretti. Ogni livello locale e più piccolo di un modello cloud non vincolato dalla termica di un laptop. Compensiamo con dati di addestramento specifici per task, fine-tuning accurato e uno scope Mac-first stretto. I benchmark interni mirano attualmente a risposta nell'ordine dei 200 ms, riconoscimento elevato del vocabolario tecnico e WER a bassa cifra singola nelle condizioni supportate; li descriviamo come target interni finche non esiste una pagina pubblica di benchmark.

Cosa garantiamo

La lista dura:

  • Nessun training sui dati utente. Non su audio. Non su trascrizioni. Non su testo processato in cloud. Non per alcuna versione futura del modello.
  • Nessun audio caricato salvo opt-in. Default: niente audio cloud. Le funzioni cloud opt-in sono esplicite e per-funzione.
  • Zero retention sui dati processati in cloud. La richiesta viene processata e scartata immediatamente. Non esiste un "soft-delete di 30 giorni": non esiste una copia da eliminare.
  • TLS per tutto il traffico cloud. Prassi standard, ma dichiarata per completezza.
  • Modalita offline. Un singolo toggle nelle Settings disabilita ogni chiamata cloud. Loqua continua a funzionare usando solo i livelli on-device.
  • Nessun hook browser. Nessun tracking cross-app. Loqua legge il contesto dell'app attiva solo per la dettatura corrente. Tra una dettatura e l'altra, il livello di contesto multimodale e inattivo.
  • Personal Dictionary resta locale. Il tuo vocabolario personalizzato vive in un file locale. Non viene sincronizzato su alcun cloud e non è visibile a noi.

I tuoi controlli

La privacy e utile solo se l'utente ha controlli facili da trovare. Dal pannello Settings -> Privacy puoi:

  • Disabilitare le chiamate cloud opzionali
  • Attivare o disattivare la riscrittura cloud long-form
  • Attivare o disattivare la traduzione cloud
  • Escludere app specifiche da Loqua
  • Revocare il permesso Microfono nelle impostazioni di sistema macOS
  • Revocare il permesso Accessibility nelle impostazioni di sistema macOS

Per workflow regolamentati o sensibili alla sicurezza, usa la modalità totalmente offline ed esegui la tua revisione di compliance. Non presentiamo un post blog come consulenza legale o di compliance HIPAA; il confine del prodotto e tecnico, e i requisiti formali di compliance vanno valutati attraverso il canale di policy corretto.

Approfondimenti

Se hai un requisito specifico di privacy o sicurezza per la digitazione vocale che qui non affrontiamo, scrivici. Siamo un piccolo team e preferiamo rispondere direttamente alla tua domanda piuttosto che farti dedurre da un documento di policy generico. Questa è la versione breve del perché Loqua è costruita prima come prodotto di dettatura vocale privata per Mac e solo dopo come prodotto con funzioni cloud.

Domande frequenti

L'audio viene mai inviato al cloud?
Non di default. Il riconoscimento vocale gira on-device su Apple Silicon. L'audio viene inviato al cloud solo se abiliti esplicitamente una funzione cloud che lo richiede (attualmente: alcune riscritture long-form e alcune coppie di traduzione). Puoi disabilitare tutte le chiamate cloud in Settings → Privacy.
Loqua addestra modelli sulla mia dettatura o sul mio audio?
No. Non su audio, non su trascrizioni, non su testo processato in cloud. Non per alcuna versione futura del modello. Usiamo dataset di addestramento curati con attenzione che non includono contenuti utente.
Posso usare Loqua completamente offline?
Sì. Disattiva tutte le chiamate cloud in Settings → Privacy. L'esperienza core di dettatura, cioe riconoscimento vocale, contesto multimodale, NER e formattazione consapevole dell'app, gira interamente on-device. Perderai le funzioni cloud opzionali (riscritture long-form, alcune traduzioni) e otterrai uno stack senza superficie di rete.
Cosa viene loggato?
I log debug locali includono informazioni diagnostiche (tempo di caricamento modello, misure di latenza, tracce di errore) ma non includono il contenuto che hai dettato. I log lato cloud non includono audio o trascrizioni, solo metadati opachi di richiesta per l'affidabilita del servizio.
E GDPR / CCPA?
Siamo progettati per essere conformi. Poiche la maggior parte del processamento e on-device e il processamento cloud e zero-retention, di solito non ci sono dati personali soggetti a richieste di accesso o cancellazione. Per dettagli rilevanti nella tua giurisdizione, vedi la nostra privacy policy o scrivici.
Posso usare Loqua in workflow regolamentati in stile HIPAA?
Non trattare questo post come consulenza legale o di compliance HIPAA. Loqua può essere usata con le funzioni cloud opzionali disabilitate per workflow sensibili, ma i deployment regolamentati devono essere valutati dal tuo processo di compliance e con gli eventuali accordi richiesti.

Prova Loqua oggi

Gratis per iniziare. Nativa per Mac. Costruita da ricercatori di algoritmi che la usano ogni giorno.

Scarica per Mac

Altro dal blog di Loqua

Guida
Come dettare codice su Mac: guida completa per Cursor, VS Code e Claude Code
Confronto
Loqua vs Wispr Flow: un'alternativa a Wispr Flow pensata per Mac, contesto, coding e privacy
Engineering
Riconoscimento vocale multimodale: costruire un ascoltatore che vede ciò che vedi
Engineering
Audio event detection nella dettatura: suoni con significato oltre le parole
Produttività
Voice productivity stack: 9 strumenti che usiamo davvero per scrivere, spedire e pensare