Technik

Voice trifft Vision: wie omni-modale Modelle multimodale Spracheingabe ermöglichen

Von reiner Audio-ASR zu Audio + Vision + Text — der Paradigmenwechsel, der Spracheingabe von „transkribiere, was ich gesagt habe" zu „schreibe, was ich gemeint habe, dort, wo ich es gemeint habe" gemacht hat.

Shuran Zhou, Founder · 2026-04-08 ·3 Min. ·Aktualisiert 2026-04-08

TL;DR

Multimodale Spracheingabe bedeutet, dass das System Sprache plus lokalen Kontext nutzt, um zu entscheiden, was aus den Worten werden soll. Loqua ist ein kontextbewusstes Spracheingabe-Tool für Mac: Es hört auf deine Stimme, liest den lokalen Zielkontext und schreibt app-bewussten Text. Diese Einführung erklärt, warum bildschirmbewusste Spracheingabe wichtig ist, ohne in die vollständige Architektur einzutauchen.

Loqua ist ein kontextbewusstes Spracheingabe-Tool für Mac. Der entscheidende Wandel ist der vom Transkript zum zielbewussten Schreiben: Dieselbe gesprochene Phrase sollte in Slack, Cursor, GitHub, Apple Notes und einem Code-Editor unterschiedlichen Text ergeben.

Das ist die einführende Variante unserer Voice + Vision KI-Überlegungen. Offene Forschung zu Audio, Sprache und multimodalen Systemen liefert dem Feld nützliches Vokabular, aber Loquas Produktions-Stack ist Eigenentwicklung, intern für Mac-Diktat trainiert und optimiert.

Der Wandel von Transkription zu Kontext

Reines Audio-ASR beantwortet eine Frage: Welche Worte hat der Nutzer gesagt? Diktat stellt eine zweite Frage: Was sollen diese Worte an der Cursorposition werden? Diese zweite Frage ist der Grund, warum multimodale Spracheingabe existiert. Ein Transkript kann korrekt sein und trotzdem für das Ziel falsch.

Wenn du in einen Code-Editor diktierst, zählen Interpunktion, Bezeichner, Kommentare und ausgewählter Text. Wenn du in eine E-Mail diktierst, zählen Ton und Absatzform. Wenn du in eine Task-App diktierst, zählen Owner und Fälligkeitsdatum. Bildschirmbewusste Spracheingabe macht aus diesen sichtbaren Hinweisen Vorgaben fürs Schreiben.

Warum Bildschirmkontext das Diktat verändert

Dieselbe Phrase kann je nach App Unterschiedliches bedeuten. „Add a guard before fetch profile" sollte in einer IDE zu code-nahem Text werden, in Linear zu einer Aufgabe und in Slack zu einer schlichten Bitte. Audio allein kann zwischen diesen Formen nicht zuverlässig wählen.

Loquas Kontextschicht liest lokale Signale wie aktive App, ausgewählten Text, sichtbaren benachbarten Text und den Typ des Zielfelds. Sie braucht keine vollständige Screenshot-Narration. Sie braucht genug lokale Evidenz, um Bezeichner zu erhalten, zu entscheiden, ob du einfügst oder bearbeitest, und die richtige Ausgabeform zu wählen.

Was sich an der Cursorposition ändert

Du sagst

„add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

Loqua schreibt (in VS Code)

if (!user.isLoggedIn) {
return redirect('/signin');
}

Du sagst (dieselben Worte)

„add a check that the user is logged in before we fetch the profile if not just redirect to sign in"

Loqua schreibt (in Linear)

Auth-Guard vor dem Profile-Fetch hinzufügen. Wenn der Nutzer nicht angemeldet ist, statt das Profil zu laden auf die Anmeldung weiterleiten.

Die Ausgabe ändert sich, weil sich das Ziel ändert. Das ist der praktische Wert von Omni-Modell-Diktat als Produktkategorie: Kontext trifft Schreib-Entscheidungen, die ein Transkript nicht treffen kann.

Die Datenschutzgrenze

Bildschirmkontext ist mächtig genug, dass er eine klare Grenze braucht. Loquas Kontextpfad ist standardmäßig lokal-first. Die aktive App, ausgewählter Text und nahe sichtbare Inhalte werden genutzt, um die aktuelle Äußerung zu formen, nicht um ein allgemeines Bildschirm-Log zu erzeugen.

Für die vollständige Grenze siehe Datenschutz by Design mit Hybrid-Architektur. Kurzfassung: Audio und Bildschirmkontext werden als sensible lokale Signale behandelt, und optionale Cloud-Funktionen erhalten keine rohen umliegenden Bildschirminhalte.

Tiefer einsteigen?

Einblick in unseren omni-modalen Voice-Stack — die multimodale Instruktions-Pipeline, MoE und Streaming.
Einen Listener bauen, der sieht, was du siehst — wie multimodaler Kontext ASR-Mehrdeutigkeit auflöst.
Geräusche mit Bedeutung — AED, Audio-Captioning und die nächste Grenze.

Weiterführende Literatur

Für den Forschungskontext beginne mit Whisper für robuste Spracherkennung, LLaVA für visuelles Instruction Tuning und ImageBind für modalitätsübergreifendes Alignment. Diese Links erläutern das Feld; sie sind keine Provenienz-Aussage über Loqua.

Häufige Fragen

Was zählt für Loqua als Bildschirmkontext?

Bildschirmkontext bedeutet lokale Signale rund um das aktuelle Diktat-Ziel: aktive App, ausgewählter Text, sichtbarer umliegender Text, Dateityp, Cursorposition und Feldform. Loqua nutzt diese Hinweise, um zu entscheiden, ob deine gesprochene Phrase zu Fließtext, einer Aufgabe, einem Prompt oder code-nahem Text werden soll.

Sendet Loqua Screenshots irgendwohin?

Der Kontextpfad ist standardmäßig lokal-first. Loqua nutzt bildschirmabgeleitete Signale, um die aktuelle Äußerung zu formen, und muss keine rohen umliegenden Bildschirminhalte an optionale Cloud-Funktionen senden. Den vollständigen Rahmen findest du im Datenschutz-Artikel.

Wie wirkt sich Kontext auf die Latenz aus?

Kontext wird parallel zur Spracherkennung gesammelt. Damit ist die Evidenz zum Ziel meist bereit, sobald der finale Text gerendert werden muss. Die Architektur ist auf Interaktion in der 200ms-Klasse ausgelegt, nicht auf einen langsamen Nachverarbeitungs-Call.

Warum ist Voice plus Vision für Code wichtig?

Code ist voll von Bezeichnern, Groß-/Kleinschreibung, Syntax und ausgewählten Bereichen, die aus dem Klang allein nicht rekonstruierbar sind. Wenn das Modell einen sichtbaren Bezeichner in der Nähe des Cursors sehen kann, kann es diesen Namen erhalten, statt ein generisches Transkript zu schreiben.

Ist das ein Agent, der auf meinem Bildschirm agiert?

Nein. Dieser Artikel handelt von Diktat, nicht von autonomer Bildschirmsteuerung. Loqua nutzt lokalen Kontext, um besseren Text an der Cursorposition zu schreiben. Es navigiert nicht in deinen Apps und führt keine Aktionen aus, es sei denn, du verwendest explizit ein anderes Werkzeug dafür.

Wo lese ich die tiefere Architektur?

Beginne mit Inside our omni-modal voice stack für die multimodale Instruktions-Pipeline, lies dann Building a listener that sees what you see zur Disambiguierung und Sounds with meaning für die Prototyp-Richtung zu nicht-wörtlichem Audio.

Teste Loqua heute

Kostenlos starten. Mac-nativ. Gebaut von Algorithmus-Forschern, die es jeden Tag nutzen.

Download

Mehr aus dem Loqua Blog

Engineering

Omni-modale Spracheingabe: multimodales Verständnis, MoE und streamende Textausgabe

Engineering

Multimodale Spracherkennung: einen Listener bauen, der sieht, was du siehst

Engineering

Audio Event Detection beim Diktat: Geräusche mit Bedeutung jenseits der Worte

Produktivität

Voice-Produktivitäts-Stack: 9 Tools, die wir wirklich zum Schreiben, Ausliefern und Denken nutzen

Anleitung

Code auf dem Mac diktieren: ein vollständiger Leitfaden für Cursor, VS Code und Claude Code