Technik

Multimodale Spracherkennung: einen Listener bauen, der sieht, was du siehst

Warum reine Audio-ASR in echten Workflows weiterhin scheitert und wie Loqua lokalen Bildschirmkontext nutzt, um die Absicht zu klären.

Shuran Zhou, Founder · 2026-05-17 ·6 Min. ·Aktualisiert 2026-05-17

TL;DR

Multimodale Spracherkennung ist die fehlende Schicht zwischen Transkript und nutzbarem Diktat. Loqua ist ein Mac-natives Werkzeug für Spracheingabe, das Audio mit lokalem Bildschirmkontext, Metadaten der aktiven App und der Cursorumgebung kombiniert. So wird derselbe Klang zum richtigen Bezeichner, zur passenden Anweisung oder zum formatierten Text in der Ziel-App.

Reine Audio-Spracherkennung ist inzwischen gut genug, dass ihre verbleibenden Fehler leicht unterschätzt werden. Saubere Sprachbenchmarks verbergen das eigentliche Produktproblem: Nutzer diktieren in Apps, neben sichtbarem Code, in gemischten Sprachen und mit teilweisen Verweisen wie „diese Funktion" oder „der obige Stichpunkt".

Wo ASR weiterhin scheitert

Das klassische Beispiel sind Homophone. „From foo import bar" und from foo import bar klingen ähnlich, gehören aber in unterschiedliche Welten. Dasselbe gilt für „cache the auth client" und „cash the auth client", wenn das Modell nicht weiß, dass der Cursor in einer TypeScript-Datei steht. Audio allein kann das Ziel nicht zuverlässig ableiten.

Code-Bezeichner verschärfen das. Ein Nutzer sagt vielleicht „fetch profile", aber die sichtbare Funktion ist fetchProfile. Ein Transkriptionsmodell hört Wörter; ein Diktatmodell sollte den Bezeichner erhalten. Multimodale Spracherkennung behandelt den sichtbaren Text als Evidenz, nicht als Dekoration.

Deixis ist die dritte scharfe Kante. Wenn ein Nutzer „replace this with a guard clause" sagt, ist der gesprochene Text formal eine vollständige Anfrage, aber seine Bedeutung hängt vollständig davon ab, worauf „this" zeigt. Ohne Bewusstsein für die Auswahl oder eine stabile Cursorreferenz muss das System raten, und jede falsche Vermutung verschwendet mehr Zeit als Neutippen. Reine Audio-ASR kann Deixis überhaupt nicht auflösen; sie kann das Demonstrativpronomen nur transkribieren und hoffen, dass ein nachgelagertes Tool den Sinn herausfindet.

Homophone: einfache Prosa vs. Code-Syntax.
Entitäten: Paketnamen, Klassennamen, Dateipfade und Befehlsflags.
Deixis: „dies", „das", „oben", „der ausgewählte Teil".
Format: Prosa, Stichpunkt, Code-Kommentar, Commit-Nachricht oder Prompt.

Die Architektur des multimodalen Listeners

Loquas Listener hat drei lokale Eingaben: Streaming-Audiofeatures, aus dem Bildschirm abgeleiteten Kontext und App-Metadaten. Der Audiopfad schlägt vor, was gesagt wurde. Der Kontextpfad fasst zusammen, wo der Text landen wird: App, Feldtyp, ausgewählter Text, umliegende Tokens und sichtbare strukturelle Hinweise. Der App-Pfad fügt Einschränkungen hinzu, etwa ob Zeilenumbrüche, Markdown oder Code-Syntax angemessen sind.

Der Listener muss den gesamten Bildschirm nicht wie ein Mensch verstehen. Er braucht die minimal nützliche Evidenz für das Diktat. In VS Code können das sichtbare Bezeichner, Sprachmodus und ausgewählter Code sein. In Slack das Thread-Thema und der jüngste Ton. In Notes die Überschriftsebene und der Listenkontext.

Was wir bewusst nicht versuchen

Mehrere Fähigkeiten sind absichtlich außerhalb des Umfangs. Der Listener führt kein OCR auf Screenshots fremder Inhalte aus, fasst keine Fenster zusammen, in denen der Nutzer nicht aktiv tippt, und baut keine persistente visuelle Historie auf. Er versucht auch nicht, feingranulare Absichten aus Bildern abzuleiten: ein Graph, ein Videoframe oder eine Design-Leinwand werden nicht interpretiert, nur der umgebende Text. Jede Auslassung ist eine bewusste Produktentscheidung, die Fähigkeit gegen Vorhersagbarkeit und eine klarere Datenschutzgrenze eintauscht.

Deshalb sprechen wir nur im engen Produktsinn von audiovisuellem Diktat: Audio plus visueller Kontext zum Schreiben. Das Ziel ist keine allgemeine visuelle Schlussfolgerung. Das Ziel sind weniger falsche Wörter am Cursor.

Wie Bildschirmkontext Mehrdeutigkeit auflöst

Diktat mit Bildschirmkontext verändert die Ausgabe, indem es Möglichkeiten einschränkt. Steht der Cursor in einer Python-Datei und enthält die sichtbare Zeile bereits from fastapi import, ist das gesprochene Wort „router" eher ein Symbol als ein allgemeines Substantiv. Steht der Cursor in Gmail, sollte dieselbe Phrase ein Satz werden.

Du sagst

„add a guard before fetch profile if auth client is missing"

Loqua schreibt (in VS Code)

if (!authClient) return null;
const profile = await fetchProfile(authClient);

Du sagst

„can you take a look at the PR I just pushed and let me know if the retry logic looks right"

Loqua schreibt (in Slack)

Could you take a look at the PR I just pushed? Want to make sure the retry logic looks right.

Der Listener beherrscht auch auswahlbewusstes Bearbeiten. Ist Text ausgewählt, wird Diktat als Anweisung über diesen Text interpretiert, sofern der Nutzer nicht ausdrücklich darum bittet, neue Prosa einzufügen. Diese eine Unterscheidung beseitigt eine ganze Klasse versehentlich duplizierter Texte.

Kontextkonflikte werden gelöst, indem zuerst der stärksten Evidenz vertraut wird. Die aktive App ist das verlässlichste Signal, weil sie strukturell vom Betriebssystem garantiert wird. Ausgewählter Text kommt als Nächstes. Sichtbare umliegende Tokens sind das weichste Signal, weil sie veraltet oder zufällig sein können. Stehen zwei Signale in Widerspruch, bevorzugt der Listener das härtere und senkt die Konfidenz, statt eines auszuwählen und sich darauf festzulegen.

Datenschutz: Bildschirmkontext bleibt lokal

Kontextbewusste Spracherkennung hat einen Datenschutzpreis, wenn sie unbedacht umgesetzt wird. Loquas Regel lautet: Der vom Listener benötigte Bildschirmkontext bleibt standardmäßig lokal. Die Kontextzusammenfassung wird auf dem Gerät berechnet; sie wird genutzt, um die aktuelle Äußerung zu formen; sie wird nicht als allgemeines Bildschirmprotokoll behalten.

Konkret erreicht den lokalen Listener ein kurzes, flüchtiges Kontextpaket: aktive App-Kennung, Sprach- und Feldtyp, Auswahlbereich und einige hundert Zeichen nahegelegenen sichtbaren Texts. Standardmäßig verlässt das Gerät nichts vom übrigen Fensterinhalt, von anderen Tabs, anderen Apps oder einer persistenten Historie davon. Optionale Cloud-Funktionen erhalten, wenn vom Nutzer aktiviert, das diktierte Audio oder den Text unter den bereits in unserem Hinweis zum hybriden Datenschutz beschriebenen Grenzen; sie erhalten nie das rohe Kontextpaket.

Diese Grenze ist wichtig, denn ein Listener, der sieht, was du siehst, kann Code, Nachrichten oder Entwürfe beobachten. Wir behandeln das als sensible Daten. Die Datenschutzarchitektur ist ausführlicher in unserem Hinweis zum hybriden Datenschutz beschrieben, die Kurzfassung ist aber klar: Der Pfad für Bildschirmkontext ist local-first, und optionale Cloud-Funktionen erhalten keine rohen umliegenden Bildschirminhalte.

Offener Forschungskontext

Der Forschungshintergrund umfasst Audio-Sprach-Modellierung, Vision-Language-Projektion und multimodales Instruction-Tuning. Nützliche Ausgangspunkte sind Whisper für robuste ASR, LLaVA für Muster des visuellen Instruction-Tuning und ImageBind für die Ausrichtung über Modalitäten hinweg.

Diese Arbeiten sind Literaturkontext. Loquas Stack für multimodale Spracherkennung ist Eigenarbeit, abgestimmt auf die Mac-Diktatoberfläche: lokaler Kontext, latenzarmes Streaming und app-bewusste Ausgabe. Wir übernehmen das Vokabular des Feldes, nicht eine Abhängigkeitskette.

Roadmap

Der nächste Schritt ist bessere Unsicherheitsmeldung. Wenn der Kontext zwei mögliche Bezeichner nahelegt, soll das System die Mehrdeutigkeit erhalten, statt Konfidenz zu erfinden. Wir wollen außerdem feinere App-Adapter für Terminals, Tabellen, IDE-Chat-Panels und Design-Tools, in denen die Form nützlicher Ausgaben stark unterschiedlich ist.

Der Terminal-Adapter ist die konkreteste Arbeit in naher Zukunft. Ein Terminal ist strukturell eine einzelne Zeile am Cursor, kontextuell aber eine lange Historie früherer Befehle und Ausgaben, die informieren sollte, was der Nutzer als Nächstes tippen will. Ein Tabellen-Adapter hat die umgekehrte Form: ein winziges sichtbares Kontextfenster mit starrer Spaltenbedeutung. Beide Adapter nutzen dieselbe Listener-Architektur weiter; der Unterschied liegt darin, was als Evidenz zählt und woraus der Textrenderer seine Formatierungssignale zieht.

Die langfristige Richtung ist nicht „das Modell sieht alles". Sie ist enger und sicherer: Der Listener sieht genug lokalen Kontext, um zu schreiben, was du meintest, dort, wo du es meintest, mit weniger Nacharbeit. Das ist das Produktversprechen multimodaler Spracherkennung.

Häufige Fragen

Was ist multimodale Spracherkennung?

Multimodale Spracherkennung kombiniert Audio mit einem weiteren Signal, etwa Bildschirmkontext oder App-Metadaten, um die beabsichtigte schriftliche Ausgabe abzuleiten. In Loqua heißt das: das System transkribiert nicht nur Sprache, sondern berücksichtigt auch, wo der Cursor steht und welcher Text in der Nähe sichtbar ist.

Warum scheitert reine Audio-ASR bei Code?

Code enthält Bezeichner, Paketnamen, Groß- und Kleinschreibung, Zeichensetzung und Syntax, die aus dem Klang allein nicht offensichtlich sind. Ein Modell kann „fetch profile" korrekt hören und trotzdem übersehen, dass der sichtbare Bezeichner fetchProfile lautet. Bildschirmkontext liefert dem Erkenner Hinweise, die dem Audio fehlen.

Nimmt Loqua meinen Bildschirm auf?

Nein, im hier beschriebenen Produktsinn nicht. Loqua liest den lokalen Kontext, der für das aktuelle Diktatereignis nötig ist, etwa aktive App, ausgewählten Text und sichtbaren Text in der Nähe. Es ist nicht als kontinuierlicher Bildschirmrekorder konzipiert, und der Kontextpfad bleibt standardmäßig lokal.

Wie unterscheidet sich das von einem persönlichen Wörterbuch?

Ein persönliches Wörterbuch ordnet bekannte Phrasen bevorzugten Schreibweisen zu. Multimodaler Kontext kann Phrasen auflösen, die der Nutzer nie vorab registriert hat, indem er sichtbare Hinweise auswertet. Wenn ein Bezeichner neben dem Cursor auftaucht, kann Loqua ihn übernehmen, ohne dass ein manueller Wörterbucheintrag nötig ist.

Kann Bildschirmkontext Fehler machen?

Ja. Wenn der sichtbare Kontext veraltet, mehrdeutig oder irrelevant ist, kann der Listener sich zu stark daran anpassen. Die Produktaufgabe ist Kalibrierung: Kontext nutzen, wenn er stark ist, rohe Sprache erhalten, wenn unsicher, und keine selbstbewusste Umformulierung aus schwacher Evidenz herleiten.

Ist multimodale Spracherkennung nur für Entwickler?

Nein. Entwickler spüren den Schmerz zuerst, weil Code dicht mit Bezeichnern gefüllt ist. Dieselbe Idee hilft in E-Mail, Notizen, Tabellen, Projekt-Tools und Chat. Die Ziel-App ändert, was die gesprochene Phrase werden soll, selbst wenn die Worte gewöhnlich sind.

Was steckt genau in dem Kontextpaket, das der Listener erhält?

Eine flüchtige Nutzlast: aktive App-Kennung, Feldtyp und Sprachmodus, aktueller Auswahlbereich und ein kleines Fenster mit nahegelegenem sichtbaren Text — meist einige hundert Zeichen. Es wird pro Äußerung erstellt, während des Diktats verwendet und nicht als allgemeines Bildschirmprotokoll gespeichert.

Teste Loqua heute

Kostenlos starten. Mac-nativ. Gebaut von Algorithmus-Forschern, die es jeden Tag nutzen.

Download

Mehr aus dem Loqua Blog

Engineering

Omni-modale Spracheingabe: multimodales Verständnis, MoE und streamende Textausgabe

Anleitung

Code auf dem Mac diktieren: ein vollständiger Leitfaden für Cursor, VS Code und Claude Code

Vergleich

Loqua vs. Typeless: eine Mac-native Typeless-Alternative für Kontext, Coding und Tiefe