Dettatura vocale privata per Mac: come lo stack ibrido di Loqua mantiene i tuoi dati dalla tua parte
Gran parte della dettatura vocale dipende da percorsi cloud. Loqua usa un'architettura ibrida con livelli sensibili local-first, funzioni cloud opzionali e confini visibili.
TL;DR
Se stai cercando opzioni di dettatura vocale privata per Mac che non siano solo "trascrizione cloud con privacy policy", questa è la risposta architetturale. Loqua e ibrida by design: il percorso core sensibile, cioe riconoscimento vocale, cleanup locale, gestione delle entita nominate e lettura dello schermo/contesto, e progettato per girare on-device su Apple Silicon di default. La consideriamo dettatura sicura su Mac perché i livelli che toccano audio e contenuto dello schermo sono local-first, non perché il copy marketing dica "privata". L'elaborazione cloud opzionale e riservata a funzioni come riscritture più lunghe o traduzioni selezionate, e può essere disattivata. Non addestriamo modelli sui dati di dettatura degli utenti. L'obiettivo è un confine visibile intorno a ciò che resta in modalità digitazione vocale locale e ciò che, se abilitato, attraversa la rete.
Loqua è uno strumento di digitazione vocale per Mac sensibile al contesto. Il fatto che possa usare il contesto dello schermo rende centrale la storia privacy. Se un prodotto di dettatura può vedere il tuo codice, i tuoi messaggi e le tue email scritte a meta, l'architettura intorno a quei dati non è una nota marketing: e il prodotto.
Sono Shuran, e ho co-costruito questo stack con un piccolo team di ricercatori di algoritmi. Usiamo Loqua per il nostro Slack interno, email, prompt di coding e code review. Lo standard che volevamo era semplice: mantenere locale di default il percorso sensibile, rendere visibile l'uso opzionale del cloud ed evitare training sui dati di dettatura degli utenti.
Il tradeoff cloud-default
Molti prodotti moderni di dettatura usano trascrizione cloud. Puo essere una scelta ingegneristica ragionevole: modelli grandi, aggiornamenti centralizzati, coerenza cross-platform, controlli enterprise e modalità zero-data-retention documentate possono vivere tutte in quell'architettura.
Il tradeoff e la superficie. Una volta che audio o contesto attraversano la rete, esiste un percorso server tra il tuo microfono e il tuo cursore: trasporto, code, log, provider di modelli, metadati operativi e policy enterprise. I buoni vendor gestiscono quella superficie con cura. Ma gli utenti devono comunque capire dove si trova il confine.
Loqua parte da un default diverso. I livelli che toccano audio e contesto dello schermo sono progettati per girare prima localmente. Le funzioni cloud opzionali vengono trattate come confini funzionali espliciti, non come plumbing invisibile.
Perche il puro on-device e comunque un tradeoff
L'AI completamente on-device e attraente, e per la dettatura ordinaria e il default giusto. Ma le affermazioni assolute diventano fragili. Alcuni task di lunga coda, come riscritture molto lunghe, traduzione tra lingue lontane e trasformazioni di domini rari, possono beneficiare di modelli cloud più grandi. Anche aggiornamenti di modello, crash reporting, controlli licenza e distribuzione di funzioni creano punti di contatto con la rete in molti prodotti.
Per questo evitiamo la versione slogan della privacy. La risposta utile non è "cloud cattivo" o "locale magico". E un'architettura ibrida con default chiari, controlli espliciti e un prodotto che continua a funzionare quando le funzioni cloud sono disattivate.
Cosa significa ibrido in Loqua
Ecco l'architettura, detta in modo diretto:
| Livello | Dove gira di default | Perche |
|---|---|---|
| Riconoscimento vocale (Layer 1) | On-device, Apple Neural Engine | Budget di latenza; sensibilita dell'audio |
| Intelligenza linguistica — cleanup riempitivi, NER, formattazione base (Layer 2) | On-device | Latenza; il vocabolario e tuo |
| Contesto multimodale — lettura dello schermo (Layer 3) | On-device | Il contenuto dello schermo non lascia mai la macchina |
| Post-processing cloud — solo con opt-in | Cloud gestito da Loqua, cifrato TLS | Riscritture long-form, alcune traduzioni |
I tre livelli core, quelli che toccano audio e contenuto dello schermo, sono progettati per girare on-device di default. Puoi usare Loqua in modalità offline per l'esperienza core di dettatura.
Il cloud e riservato a casi specifici e opt-in. Quando viene usato: il traffico cloud e cifrato TLS; l'elaborazione cloud e zero-retention (la richiesta viene processata e scartata); e l'utente può disabilitare completamente il cloud dalle Settings. Non addestriamo modelli sui dati utente in nessun momento: ne sul traffico cloud, ne sull'uso on-device.
Ogni confine, visibile
Il principio: se un tuo dato attraversa un confine, dovresti saperlo senza leggere l'EULA. Ecco come rendiamo visibile ogni confine:
- Indicatore nella menu bar. Quando Loqua registra, l'icona nella menu bar diventa rossa. Quando il cloud viene usato per un enunciato specifico, l'indicatore cambia in modo visibile (una piccola sovrapposizione con icona cloud). Vedi in tempo reale se qualcosa sta lasciando la macchina.
- Pannello Settings → Privacy. Elenca esattamente quali chiamate cloud sono abilitate, con toggle per ciascuna. La traduzione può essere attiva mentre la riscrittura long-form e disattiva, o viceversa.
- Gestione audio. L'audio non viene inviato al cloud per il percorso core di dettatura di default. Le funzioni cloud opzionali sono esplicite e disattivabili.
- Gestione del contenuto schermo. Il contenuto dello schermo letto dal livello di contesto multimodale non attraversa mai la rete. Anche se abiliti la riscrittura cloud, parte solo il testo da riscrivere, non lo schermo circostante.
- Logging. I log debug locali non includono contenuto dettato. I log lato cloud non includono audio o trascrizioni.
AED e processamento del contesto multimodale restano locali sotto lo stesso confine. Il lavoro prototipale descritto in suoni con significato tratta l'audio non verbale come segnale locale e opt-in, e il listener multimodale descritto in costruire un listener che vede ciò che vedi usa il contesto dello schermo per l'enunciato corrente invece di creare un log generale dello schermo.
Tradeoff algoritmici a bassa latenza
Eseguire i livelli core on-device mantenendo reattiva la dettatura su Mac consumer e il lavoro ingegneristico più difficile dello stack. Tre cose lo hanno reso fattibile:
- Selezione aggressiva degli operatori per il Neural Engine. Non ogni operatore transformer gira efficientemente sul Neural Engine di Apple. Scegliamo tipi di layer, varianti di attention e schemi di quantizzazione che restano sul percorso veloce. La documentazione Core ML di Apple mappa il set di operatori supportati; uscirne può costare caro.
- Riconoscimento vocale streaming-first. L'output inizia prima che l'enunciato completo sia finalizzato. Le varianti non streaming possono migliorare l'accuratezza per singolo enunciato, ma sembrano più lente.
- Pipeline parallela. Il livello di contesto gira in parallelo al riconoscimento vocale. Quando il livello linguistico e pronto per formattare l'output, il contesto di destinazione e già stato letto localmente.
Il tradeoff: i budget di parametri sono stretti. Ogni livello locale e più piccolo di un modello cloud non vincolato dalla termica di un laptop. Compensiamo con dati di addestramento specifici per task, fine-tuning accurato e uno scope Mac-first stretto. I benchmark interni mirano attualmente a risposta nell'ordine dei 200 ms, riconoscimento elevato del vocabolario tecnico e WER a bassa cifra singola nelle condizioni supportate; li descriviamo come target interni finche non esiste una pagina pubblica di benchmark.
Cosa garantiamo
La lista dura:
- Nessun training sui dati utente. Non su audio. Non su trascrizioni. Non su testo processato in cloud. Non per alcuna versione futura del modello.
- Nessun audio caricato salvo opt-in. Default: niente audio cloud. Le funzioni cloud opt-in sono esplicite e per-funzione.
- Zero retention sui dati processati in cloud. La richiesta viene processata e scartata immediatamente. Non esiste un "soft-delete di 30 giorni": non esiste una copia da eliminare.
- TLS per tutto il traffico cloud. Prassi standard, ma dichiarata per completezza.
- Modalita offline. Un singolo toggle nelle Settings disabilita ogni chiamata cloud. Loqua continua a funzionare usando solo i livelli on-device.
- Nessun hook browser. Nessun tracking cross-app. Loqua legge il contesto dell'app attiva solo per la dettatura corrente. Tra una dettatura e l'altra, il livello di contesto multimodale e inattivo.
- Personal Dictionary resta locale. Il tuo vocabolario personalizzato vive in un file locale. Non viene sincronizzato su alcun cloud e non è visibile a noi.
I tuoi controlli
La privacy e utile solo se l'utente ha controlli facili da trovare. Dal pannello Settings -> Privacy puoi:
- Disabilitare le chiamate cloud opzionali
- Attivare o disattivare la riscrittura cloud long-form
- Attivare o disattivare la traduzione cloud
- Escludere app specifiche da Loqua
- Revocare il permesso Microfono nelle impostazioni di sistema macOS
- Revocare il permesso Accessibility nelle impostazioni di sistema macOS
Per workflow regolamentati o sensibili alla sicurezza, usa la modalità totalmente offline ed esegui la tua revisione di compliance. Non presentiamo un post blog come consulenza legale o di compliance HIPAA; il confine del prodotto e tecnico, e i requisiti formali di compliance vanno valutati attraverso il canale di policy corretto.
Approfondimenti
- Documentazione Apple Core ML — per il runtime on-device usato da Loqua.
- Panoramica delle funzioni privacy di Apple — per il modello privacy Mac più ampio su cui Loqua si appoggia.
- Le nostre note correlate: architettura a tre modelli e voice meets vision: dettatura omni-modale.
Se hai un requisito specifico di privacy o sicurezza per la digitazione vocale che qui non affrontiamo, scrivici. Siamo un piccolo team e preferiamo rispondere direttamente alla tua domanda piuttosto che farti dedurre da un documento di policy generico. Questa è la versione breve del perché Loqua è costruita prima come prodotto di dettatura vocale privata per Mac e solo dopo come prodotto con funzioni cloud.
Domande frequenti
Prova Loqua oggi
Gratis per iniziare. Nativa per Mac. Costruita da ricercatori di algoritmi che la usano ogni giorno.
Scarica per Mac