Privates Sprachdiktat auf dem Mac: wie Loquas hybrider Spracheingabe-Stack deine Daten bei dir behält
Die meisten Sprachdiktate hängen an Cloud-Pfaden. Loqua nutzt eine hybride Architektur mit lokal-zuerst arbeitenden, sensiblen Schichten, optionalen Cloud-Funktionen und sichtbaren Grenzen.
TL;DR
Wer nach Optionen für privates Sprachdiktat auf dem Mac sucht, die mehr sind als „Cloud-Transkription mit Datenschutzerklärung", findet hier die architektonische Antwort. Loqua ist hybrid by design: der sensible Kernpfad — Spracherkennung, lokale Bereinigung, Behandlung benannter Entitäten sowie Bildschirm- und Kontextlesen — ist darauf ausgelegt, standardmäßig lokal auf Apple Silicon zu laufen. Wir verstehen das als sicheres Diktat auf dem Mac, weil die Schichten, die Audio und Bildschirminhalte berühren, lokal-zuerst arbeiten, nicht weil der Marketingtext „privat" sagt. Optionale Cloud-Verarbeitung ist Funktionen wie längeren Umschreibungen oder ausgewählten Übersetzungen vorbehalten und lässt sich deaktivieren. Wir trainieren nicht mit Diktatdaten der Nutzer. Ziel ist eine sichtbare Grenze um das, was im lokalen Spracheingabe-Modus bleibt — und um das, was, wenn aktiviert, die Leitung überschreitet.
Loqua ist ein kontextbewusstes Spracheingabe-Tool für Mac. Die Tatsache, dass es Bildschirmkontext nutzen kann, rückt das Datenschutzthema ins Zentrum. Wenn ein Diktatprodukt deinen Code, deine Nachrichten und deine halb-fertigen E-Mails sehen kann, ist die Architektur rund um diese Daten keine Marketing-Fußnote — sie ist das Produkt.
Ich bin Shuran und habe diesen Stack mit einem kleinen Team aus Algorithmus-Forschern aufgebaut. Wir nutzen Loqua selbst intern für Slack, E-Mail, Coding-Prompts und Code-Review. Der Anspruch war einfach: den sensiblen Pfad standardmäßig lokal halten, optionale Cloud-Nutzung sichtbar machen und nicht mit Diktatdaten der Nutzer trainieren.
Der Cloud-Standard und seine Kompromisse
Viele moderne Diktatprodukte nutzen Cloud-Transkription. Das kann eine vernünftige technische Entscheidung sein: große Modelle, zentrale Updates, plattformübergreifende Konsistenz, Enterprise-Kontrollen und dokumentierte Zero-Retention-Modi lassen sich in dieser Architektur abbilden.
Der Kompromiss ist die Angriffsfläche. Sobald Audio oder Kontext die Leitung überschreitet, liegt ein Server-Pfad zwischen deinem Mikrofon und deinem Cursor: Transport, Queues, Logs, Modell-Anbieter, operative Metadaten, Enterprise-Richtlinien. Gute Anbieter pflegen diese Fläche sorgfältig. Trotzdem müssen Nutzer verstehen, wo die Grenze verläuft.
Loqua startet von einem anderen Standard aus. Die Schichten, die Audio und Bildschirmkontext berühren, sind so ausgelegt, dass sie zuerst lokal laufen. Optionale Cloud-Funktionen werden als explizite Funktionsgrenzen behandelt, nicht als unsichtbare Verrohrung.
Warum rein lokale Verarbeitung trotzdem ein Kompromiss ist
Reine on-device KI ist verlockend, und für Routine-Diktat ist sie der richtige Standard. Absolute Behauptungen werden allerdings schnell brüchig. Manche Long-Tail-Aufgaben — sehr lange Umschreibungen, Übersetzungen entfernter Sprachpaare, Transformationen seltener Domänen — profitieren von größeren Cloud-Modellen. Modell-Updates, Crash-Reporting, Lizenzprüfungen und Feature-Auslieferung erzeugen in vielen Produkten ebenfalls Netzwerkkontakte.
Deshalb meiden wir die Slogan-Version von Datenschutz. Die nützliche Antwort ist weder „Cloud schlecht" noch „lokale Magie". Sie lautet: eine hybride Architektur mit klaren Standards, expliziten Kontrollen und einem Produkt, das weiterhin funktioniert, wenn Cloud-Funktionen deaktiviert sind.
Was hybrid bei Loqua bedeutet
Hier die Architektur, klar gesagt:
| Schicht | Wo sie standardmäßig läuft | Warum |
|---|---|---|
| Spracherkennung (Schicht 1) | Lokal, Apple Neural Engine | Latenzbudget; Audio-Sensibilität |
| Sprachintelligenz — Bereinigung von Füllwörtern, NER, Basisformatierung (Schicht 2) | Lokal | Latenz; das Vokabular ist deins |
| Multimodaler Kontext — Bildschirmlesen (Schicht 3) | Lokal | Bildschirminhalte verlassen deinen Rechner nie |
| Cloud-Nachverarbeitung — nur bei Opt-in | Von Loqua verwaltete Cloud, TLS-verschlüsselt | Langform-Umschreibungen, bestimmte Übersetzungen |
Die drei Kernschichten — diejenigen, die Audio und Bildschirminhalte berühren — sind darauf ausgelegt, standardmäßig lokal zu laufen. Du kannst Loqua für das Kerndiktat im Offline-Modus betreiben.
Cloud ist spezifischen Opt-in-Fällen vorbehalten. Wenn sie genutzt wird: Cloud-Traffic ist TLS-verschlüsselt; Cloud-Verarbeitung erfolgt ohne Speicherung (der Request wird verarbeitet und verworfen); und die Nutzer können Cloud in den Einstellungen vollständig deaktivieren. Wir trainieren zu keinem Zeitpunkt mit Nutzerdaten — weder mit Cloud-Traffic noch mit lokaler Nutzung.
Jede Grenze sichtbar
Das Prinzip: Wenn ein Teil deiner Daten eine Grenze überschreitet, sollst du das wissen, ohne die EULA zu lesen. So machen wir jede Grenze sichtbar:
- Menüleisten-Indikator. Wenn Loqua aufnimmt, wird das Menüleisten-Icon rot. Wenn für eine Äußerung Cloud genutzt wird, unterscheidet sich der Indikator sichtbar (ein kleines Cloud-Icon als Overlay). Du siehst in Echtzeit, ob etwas deinen Rechner verlässt.
- Einstellungen → Datenschutz-Panel. Listet genau auf, welche Cloud-Aufrufe aktiviert sind, mit Schaltern pro Eintrag. Übersetzung kann an sein, während Langform-Umschreibung aus ist — oder umgekehrt.
- Umgang mit Audio. Audio wird für den Standard-Kerndiktat-Pfad nicht in die Cloud gesendet. Optionale Cloud-Funktionen sind explizit und können deaktiviert werden.
- Umgang mit Bildschirminhalten. Bildschirminhalte, die von der multimodalen Kontextschicht gelesen werden, überschreiten die Leitung nie. Selbst wenn du Cloud-Umschreiben aktivierst, wird nur der umzuschreibende Text gesendet — nicht der umgebende Bildschirm.
- Logging. Lokale Debug-Logs enthalten keine diktierten Inhalte. Cloud-seitige Logs enthalten weder Audio noch Transkripte.
AED und multimodale Kontextverarbeitung bleiben unter derselben Grenze lokal. Die in Geräusche mit Bedeutung beschriebene Prototyp-Arbeit behandelt Nicht-Wort-Audio als lokales, Opt-in-Signal, und der in einen Listener bauen, der sieht, was du siehst beschriebene multimodale Listener nutzt Bildschirmkontext für die aktuelle Äußerung, statt ein allgemeines Bildschirm-Log anzulegen.
Algorithmische Kompromisse bei niedriger Latenz
Die Kernschichten lokal laufen zu lassen und das Diktat auf Consumer-Macs reaktionsschnell zu halten, ist die schwierigste technische Arbeit in diesem Stack. Drei Dinge machten das möglich:
- Aggressive Operator-Auswahl für die Neural Engine. Nicht jeder Transformer-Operator läuft effizient auf Apples Neural Engine. Wir wählen Schichttypen, Attention-Varianten und Quantisierungsschemata, die auf dem schnellen Pfad bleiben. Die Dokumentation von Apple Core ML beschreibt das unterstützte Operator-Set; wer ihn verlässt, zahlt schnell drauf.
- Streaming-zuerst Spracherkennung. Die Ausgabe beginnt, bevor die vollständige Äußerung finalisiert ist. Nicht-Streaming-Varianten können die Genauigkeit pro Äußerung verbessern, fühlen sich aber langsamer an.
- Parallele Pipeline. Die Kontextschicht läuft parallel zur Spracherkennung. Wenn die Sprachschicht bereit ist, die Ausgabe zu formatieren, wurde der Zielkontext bereits lokal gelesen.
Der Kompromiss: die Parameter-Budgets sind knapp. Jede lokale Schicht ist kleiner als ein Cloud-Modell, das nicht durch Laptop-Wärmegrenzen beschränkt ist. Wir kompensieren das mit aufgabenspezifischen Trainingsdaten, sorgfältigem Fine-Tuning und einem engen Mac-first-Scope. Interne Benchmarks zielen aktuell auf etwa 200 ms-Antwortzeit, hohe Erkennung von Fachvokabular und niedrige einstellige WER unter den unterstützten Bedingungen; wir beschreiben das als interne Ziele, bis eine öffentliche Benchmark-Seite existiert.
Was wir garantieren
Die harte Liste:
- Kein Training mit Nutzerdaten. Nicht mit Audio. Nicht mit Transkripten. Nicht mit cloud-verarbeitetem Text. Auch nicht für künftige Modellversionen.
- Kein Audio-Upload ohne Opt-in. Standard: kein Cloud-Audio. Opt-in-Cloud-Funktionen sind explizit und pro Funktion.
- Keine Speicherung cloud-verarbeiteter Daten. Der Request wird verarbeitet und sofort verworfen. Es gibt kein „30-Tage-Soft-Delete" — es gibt keine Kopie, die gelöscht werden müsste.
- TLS für allen Cloud-Traffic. Standard-Praxis, aber der Vollständigkeit halber genannt.
- Offline-Modus. Ein einziger Schalter in den Einstellungen deaktiviert jeden Cloud-Aufruf. Loqua arbeitet weiter mit den lokalen Schichten.
- Keine Browser-Hooks. Kein App-übergreifendes Tracking. Loqua liest den Kontext der aktiven App nur für das aktuelle Diktat. Zwischen Diktaten ist die multimodale Kontextschicht inaktiv.
- Das persönliche Wörterbuch bleibt lokal. Dein eigenes Vokabular liegt in einer lokalen Datei. Es synchronisiert in keine Cloud und ist für uns nicht sichtbar.
Deine Kontrollmöglichkeiten
Datenschutz ist nur nützlich, wenn die Nutzer Kontrollen haben, die leicht zu finden sind. Im Panel Einstellungen → Datenschutz kannst du:
- Optionale Cloud-Aufrufe deaktivieren
- Cloud-Umschreiben für Langform ein- oder ausschalten
- Cloud-Übersetzung ein- oder ausschalten
- Bestimmte Apps vollständig aus Loqua ausschließen
- Die Mikrofon-Berechtigung in den macOS-Systemeinstellungen widerrufen
- Die Berechtigung für die Accessibility API in den macOS-Systemeinstellungen widerrufen
Für regulierte oder sicherheitskritische Workflows nutze den vollständigen Offline-Modus und führe deine eigene Compliance-Prüfung durch. Wir präsentieren einen Blog-Beitrag nicht als Rechts- oder HIPAA-Compliance-Beratung; die Produktgrenze ist technisch, und formale Compliance-Anforderungen sollten über den richtigen Policy-Kanal bewertet werden.
Weiterführende Lektüre
- Apple Core ML Dokumentation — zur lokalen Runtime, die Loqua nutzt.
- Übersicht der Datenschutz-Funktionen von Apple — zum breiteren Mac-Datenschutzmodell, auf dem Loqua aufbaut.
- Unsere Begleitnotizen: Drei-Modell-Architektur und Voice trifft Vision: omni-modale Spracheingabe.
Wenn du eine spezifische Anforderung an Datenschutz oder Sicherheit der Spracheingabe hast, die wir hier nicht beantworten, schreib uns eine E-Mail. Wir sind ein kleines Team und beantworten deine Frage lieber direkt, als dass du aus einem generischen Policy-Dokument raten musst. Das ist die Kurzversion, warum Loqua zuerst als Produkt für privates Sprachdiktat auf dem Mac und erst danach als Cloud-Feature-Produkt gebaut ist.
Häufig gestellte Fragen
Loqua heute ausprobieren
Kostenlos starten. Mac-nativ. Entwickelt von Algorithmus-Forschern, die es täglich nutzen.
Für Mac laden