Technik

Privates Sprachdiktat auf dem Mac: wie Loquas hybrider Spracheingabe-Stack deine Daten bei dir behält

Die meisten Sprachdiktate hängen an Cloud-Pfaden. Loqua nutzt eine hybride Architektur mit lokal-zuerst arbeitenden, sensiblen Schichten, optionalen Cloud-Funktionen und sichtbaren Grenzen.

Shuran Zhou, Founder · 2026-04-03 ·8 Min. ·Aktualisiert 2026-04-03

TL;DR

Wer nach Optionen für privates Sprachdiktat auf dem Mac sucht, die mehr sind als „Cloud-Transkription mit Datenschutzerklärung", findet hier die architektonische Antwort. Loqua ist hybrid by design: der sensible Kernpfad — Spracherkennung, lokale Bereinigung, Behandlung benannter Entitäten sowie Bildschirm- und Kontextlesen — ist darauf ausgelegt, standardmäßig lokal auf Apple Silicon zu laufen. Wir verstehen das als sicheres Diktat auf dem Mac, weil die Schichten, die Audio und Bildschirminhalte berühren, lokal-zuerst arbeiten, nicht weil der Marketingtext „privat" sagt. Optionale Cloud-Verarbeitung ist Funktionen wie längeren Umschreibungen oder ausgewählten Übersetzungen vorbehalten und lässt sich deaktivieren. Wir trainieren nicht mit Diktatdaten der Nutzer. Ziel ist eine sichtbare Grenze um das, was im lokalen Spracheingabe-Modus bleibt — und um das, was, wenn aktiviert, die Leitung überschreitet.

Loqua ist ein kontextbewusstes Spracheingabe-Tool für Mac. Die Tatsache, dass es Bildschirmkontext nutzen kann, rückt das Datenschutzthema ins Zentrum. Wenn ein Diktatprodukt deinen Code, deine Nachrichten und deine halb-fertigen E-Mails sehen kann, ist die Architektur rund um diese Daten keine Marketing-Fußnote — sie ist das Produkt.

Ich bin Shuran und habe diesen Stack mit einem kleinen Team aus Algorithmus-Forschern aufgebaut. Wir nutzen Loqua selbst intern für Slack, E-Mail, Coding-Prompts und Code-Review. Der Anspruch war einfach: den sensiblen Pfad standardmäßig lokal halten, optionale Cloud-Nutzung sichtbar machen und nicht mit Diktatdaten der Nutzer trainieren.

Der Cloud-Standard und seine Kompromisse

Viele moderne Diktatprodukte nutzen Cloud-Transkription. Das kann eine vernünftige technische Entscheidung sein: große Modelle, zentrale Updates, plattformübergreifende Konsistenz, Enterprise-Kontrollen und dokumentierte Zero-Retention-Modi lassen sich in dieser Architektur abbilden.

Der Kompromiss ist die Angriffsfläche. Sobald Audio oder Kontext die Leitung überschreitet, liegt ein Server-Pfad zwischen deinem Mikrofon und deinem Cursor: Transport, Queues, Logs, Modell-Anbieter, operative Metadaten, Enterprise-Richtlinien. Gute Anbieter pflegen diese Fläche sorgfältig. Trotzdem müssen Nutzer verstehen, wo die Grenze verläuft.

Loqua startet von einem anderen Standard aus. Die Schichten, die Audio und Bildschirmkontext berühren, sind so ausgelegt, dass sie zuerst lokal laufen. Optionale Cloud-Funktionen werden als explizite Funktionsgrenzen behandelt, nicht als unsichtbare Verrohrung.

Warum rein lokale Verarbeitung trotzdem ein Kompromiss ist

Reine on-device KI ist verlockend, und für Routine-Diktat ist sie der richtige Standard. Absolute Behauptungen werden allerdings schnell brüchig. Manche Long-Tail-Aufgaben — sehr lange Umschreibungen, Übersetzungen entfernter Sprachpaare, Transformationen seltener Domänen — profitieren von größeren Cloud-Modellen. Modell-Updates, Crash-Reporting, Lizenzprüfungen und Feature-Auslieferung erzeugen in vielen Produkten ebenfalls Netzwerkkontakte.

Deshalb meiden wir die Slogan-Version von Datenschutz. Die nützliche Antwort ist weder „Cloud schlecht" noch „lokale Magie". Sie lautet: eine hybride Architektur mit klaren Standards, expliziten Kontrollen und einem Produkt, das weiterhin funktioniert, wenn Cloud-Funktionen deaktiviert sind.

Was hybrid bei Loqua bedeutet

Hier die Architektur, klar gesagt:

Schicht	Wo sie standardmäßig läuft	Warum
Spracherkennung (Schicht 1)	Lokal, Apple Neural Engine	Latenzbudget; Audio-Sensibilität
Sprachintelligenz — Bereinigung von Füllwörtern, NER, Basisformatierung (Schicht 2)	Lokal	Latenz; das Vokabular ist deins
Multimodaler Kontext — Bildschirmlesen (Schicht 3)	Lokal	Bildschirminhalte verlassen deinen Rechner nie
Cloud-Nachverarbeitung — nur bei Opt-in	Von Loqua verwaltete Cloud, TLS-verschlüsselt	Langform-Umschreibungen, bestimmte Übersetzungen

Die drei Kernschichten — diejenigen, die Audio und Bildschirminhalte berühren — sind darauf ausgelegt, standardmäßig lokal zu laufen. Du kannst Loqua für das Kerndiktat im Offline-Modus betreiben.

Cloud ist spezifischen Opt-in-Fällen vorbehalten. Wenn sie genutzt wird: Cloud-Traffic ist TLS-verschlüsselt; Cloud-Verarbeitung erfolgt ohne Speicherung (der Request wird verarbeitet und verworfen); und die Nutzer können Cloud in den Einstellungen vollständig deaktivieren. Wir trainieren zu keinem Zeitpunkt mit Nutzerdaten — weder mit Cloud-Traffic noch mit lokaler Nutzung.

Jede Grenze sichtbar

Das Prinzip: Wenn ein Teil deiner Daten eine Grenze überschreitet, sollst du das wissen, ohne die EULA zu lesen. So machen wir jede Grenze sichtbar:

Menüleisten-Indikator. Wenn Loqua aufnimmt, wird das Menüleisten-Icon rot. Wenn für eine Äußerung Cloud genutzt wird, unterscheidet sich der Indikator sichtbar (ein kleines Cloud-Icon als Overlay). Du siehst in Echtzeit, ob etwas deinen Rechner verlässt.
Einstellungen → Datenschutz-Panel. Listet genau auf, welche Cloud-Aufrufe aktiviert sind, mit Schaltern pro Eintrag. Übersetzung kann an sein, während Langform-Umschreibung aus ist — oder umgekehrt.
Umgang mit Audio. Audio wird für den Standard-Kerndiktat-Pfad nicht in die Cloud gesendet. Optionale Cloud-Funktionen sind explizit und können deaktiviert werden.
Umgang mit Bildschirminhalten. Bildschirminhalte, die von der multimodalen Kontextschicht gelesen werden, überschreiten die Leitung nie. Selbst wenn du Cloud-Umschreiben aktivierst, wird nur der umzuschreibende Text gesendet — nicht der umgebende Bildschirm.
Logging. Lokale Debug-Logs enthalten keine diktierten Inhalte. Cloud-seitige Logs enthalten weder Audio noch Transkripte.

AED und multimodale Kontextverarbeitung bleiben unter derselben Grenze lokal. Die in Geräusche mit Bedeutung beschriebene Prototyp-Arbeit behandelt Nicht-Wort-Audio als lokales, Opt-in-Signal, und der in einen Listener bauen, der sieht, was du siehst beschriebene multimodale Listener nutzt Bildschirmkontext für die aktuelle Äußerung, statt ein allgemeines Bildschirm-Log anzulegen.

Algorithmische Kompromisse bei niedriger Latenz

Die Kernschichten lokal laufen zu lassen und das Diktat auf Consumer-Macs reaktionsschnell zu halten, ist die schwierigste technische Arbeit in diesem Stack. Drei Dinge machten das möglich:

Aggressive Operator-Auswahl für die Neural Engine. Nicht jeder Transformer-Operator läuft effizient auf Apples Neural Engine. Wir wählen Schichttypen, Attention-Varianten und Quantisierungsschemata, die auf dem schnellen Pfad bleiben. Die Dokumentation von Apple Core ML beschreibt das unterstützte Operator-Set; wer ihn verlässt, zahlt schnell drauf.
Streaming-zuerst Spracherkennung. Die Ausgabe beginnt, bevor die vollständige Äußerung finalisiert ist. Nicht-Streaming-Varianten können die Genauigkeit pro Äußerung verbessern, fühlen sich aber langsamer an.
Parallele Pipeline. Die Kontextschicht läuft parallel zur Spracherkennung. Wenn die Sprachschicht bereit ist, die Ausgabe zu formatieren, wurde der Zielkontext bereits lokal gelesen.

Der Kompromiss: die Parameter-Budgets sind knapp. Jede lokale Schicht ist kleiner als ein Cloud-Modell, das nicht durch Laptop-Wärmegrenzen beschränkt ist. Wir kompensieren das mit aufgabenspezifischen Trainingsdaten, sorgfältigem Fine-Tuning und einem engen Mac-first-Scope. Interne Benchmarks zielen aktuell auf etwa 200 ms-Antwortzeit, hohe Erkennung von Fachvokabular und niedrige einstellige WER unter den unterstützten Bedingungen; wir beschreiben das als interne Ziele, bis eine öffentliche Benchmark-Seite existiert.

Was wir garantieren

Die harte Liste:

Kein Training mit Nutzerdaten. Nicht mit Audio. Nicht mit Transkripten. Nicht mit cloud-verarbeitetem Text. Auch nicht für künftige Modellversionen.
Kein Audio-Upload ohne Opt-in. Standard: kein Cloud-Audio. Opt-in-Cloud-Funktionen sind explizit und pro Funktion.
Keine Speicherung cloud-verarbeiteter Daten. Der Request wird verarbeitet und sofort verworfen. Es gibt kein „30-Tage-Soft-Delete" — es gibt keine Kopie, die gelöscht werden müsste.
TLS für allen Cloud-Traffic. Standard-Praxis, aber der Vollständigkeit halber genannt.
Offline-Modus. Ein einziger Schalter in den Einstellungen deaktiviert jeden Cloud-Aufruf. Loqua arbeitet weiter mit den lokalen Schichten.
Keine Browser-Hooks. Kein App-übergreifendes Tracking. Loqua liest den Kontext der aktiven App nur für das aktuelle Diktat. Zwischen Diktaten ist die multimodale Kontextschicht inaktiv.
Das persönliche Wörterbuch bleibt lokal. Dein eigenes Vokabular liegt in einer lokalen Datei. Es synchronisiert in keine Cloud und ist für uns nicht sichtbar.

Deine Kontrollmöglichkeiten

Datenschutz ist nur nützlich, wenn die Nutzer Kontrollen haben, die leicht zu finden sind. Im Panel Einstellungen → Datenschutz kannst du:

Optionale Cloud-Aufrufe deaktivieren
Cloud-Umschreiben für Langform ein- oder ausschalten
Cloud-Übersetzung ein- oder ausschalten
Bestimmte Apps vollständig aus Loqua ausschließen
Die Mikrofon-Berechtigung in den macOS-Systemeinstellungen widerrufen
Die Berechtigung für die Accessibility API in den macOS-Systemeinstellungen widerrufen

Für regulierte oder sicherheitskritische Workflows nutze den vollständigen Offline-Modus und führe deine eigene Compliance-Prüfung durch. Wir präsentieren einen Blog-Beitrag nicht als Rechts- oder HIPAA-Compliance-Beratung; die Produktgrenze ist technisch, und formale Compliance-Anforderungen sollten über den richtigen Policy-Kanal bewertet werden.

Weiterführende Lektüre

Apple Core ML Dokumentation — zur lokalen Runtime, die Loqua nutzt.
Übersicht der Datenschutz-Funktionen von Apple — zum breiteren Mac-Datenschutzmodell, auf dem Loqua aufbaut.
Unsere Begleitnotizen: Drei-Modell-Architektur und Voice trifft Vision: omni-modale Spracheingabe.

Wenn du eine spezifische Anforderung an Datenschutz oder Sicherheit der Spracheingabe hast, die wir hier nicht beantworten, schreib uns eine E-Mail. Wir sind ein kleines Team und beantworten deine Frage lieber direkt, als dass du aus einem generischen Policy-Dokument raten musst. Das ist die Kurzversion, warum Loqua zuerst als Produkt für privates Sprachdiktat auf dem Mac und erst danach als Cloud-Feature-Produkt gebaut ist.

Häufige Fragen

Wird Audio jemals in die Cloud gesendet?

Standardmäßig nicht. Spracherkennung läuft lokal auf Apple Silicon. Audio wird nur dann in die Cloud gesendet, wenn du eine Cloud-Funktion ausdrücklich aktivierst, die das erfordert (derzeit: bestimmte Langform-Umschreibungen und einige Übersetzungspaare). Du kannst alle Cloud-Aufrufe unter Einstellungen → Datenschutz deaktivieren.

Trainiert Loqua mit meinen Diktaten oder meinen Audiodaten?

Nein. Nicht mit Audio, nicht mit Transkripten, nicht mit cloud-verarbeitetem Text. Auch nicht für künftige Modellversionen. Wir verwenden sorgfältig kuratierte Trainingsdatensätze, die keine Nutzerinhalte enthalten.

Kann ich Loqua vollständig offline betreiben?

Ja. Schalte alle Cloud-Aufrufe unter Einstellungen → Datenschutz aus. Das Kerndiktat — Spracherkennung, multimodaler Kontext, NER, app-bewusste Formatierung — läuft vollständig lokal. Du verlierst die optionalen Cloud-Funktionen (Langform-Umschreibungen, bestimmte Übersetzungen) und erhältst einen Stack ohne Netzwerkfläche.

Was wird protokolliert?

Lokale Debug-Logs enthalten Diagnoseinformationen (Ladezeit des Modells, Latenzmessungen, Fehler-Traces), aber keine diktierten Inhalte. Cloud-seitige Logs enthalten weder Audio noch Transkripte — nur opake Request-Metadaten zur Dienstzuverlässigkeit.

Was ist mit DSGVO / CCPA?

Wir sind auf Konformität ausgelegt. Da der Großteil der Verarbeitung lokal stattfindet und Cloud-Verarbeitung ohne Speicherung erfolgt, gibt es in der Regel keine personenbezogenen Daten, die Auskunfts- oder Löschanfragen unterliegen. Für Details zu deiner Rechtsordnung siehe unsere Datenschutzerklärung oder schreib uns eine E-Mail.

Kann ich Loqua in HIPAA-ähnlich regulierten Workflows einsetzen?

Betrachte diesen Blog-Beitrag nicht als Rechts- oder HIPAA-Compliance-Beratung. Loqua kann für sensible Workflows mit deaktivierten optionalen Cloud-Funktionen betrieben werden, regulierte Bereitstellungen sollten jedoch über deinen Compliance-Prozess und alle erforderlichen Vereinbarungen geprüft werden.

Teste Loqua heute

Kostenlos starten. Mac-nativ. Gebaut von Algorithmus-Forschern, die es jeden Tag nutzen.

Download

Mehr aus dem Loqua Blog

Anleitung

Code auf dem Mac diktieren: ein vollständiger Leitfaden für Cursor, VS Code und Claude Code

Vergleich

Loqua vs. Wispr Flow: eine Mac-zuerst-Alternative zu Wispr Flow für Kontext, Coding und Datenschutz

Engineering

Multimodale Spracherkennung: einen Listener bauen, der sieht, was du siehst

Engineering

Audio Event Detection beim Diktat: Geräusche mit Bedeutung jenseits der Worte

Produktivität

Voice-Produktivitäts-Stack: 9 Tools, die wir wirklich zum Schreiben, Ausliefern und Denken nutzen