Engineering

音声と視覚の出会い: オムニモーダルモデルがマルチモーダル音声入力を解き放つ

音声のみの ASR から、音声 + 視覚 + テキストへ。「言ったことを書き起こす」から「意図したものを意図した場所に書く」へと音声入力を変えたパラダイムシフト。

TL;DR

マルチモーダル音声入力とは、システムが音声に加えてローカルのコンテキストを使い、その言葉がどう書かれるべきかを判断する仕組みのことです。Loqua は Mac 向けのコンテキスト認識型音声入力ツールです。あなたの声を聞き、ローカルの宛先コンテキストを読み取り、アプリに適した形でテキストを書きます。本稿はアーキテクチャの詳細には踏み込まず、画面認識型音声入力がなぜ重要なのかを説明する入門編です。

Loqua は Mac 向けのコンテキスト認識型音声入力ツールです。重要な転換は「書き起こし」から「宛先を意識した書き込み」へのシフトです。同じ発話でも、Slack、Cursor、GitHub、Apple Notes、コードエディタでは異なるテキストになるべきです。

本稿は音声 + 視覚 AI に関する私たちの考えの入門編です。音声・言語・マルチモーダルシステムにまたがる公開研究は分野に有用な語彙を提供しますが、Loqua のプロダクションスタックは Mac ディクテーション向けに社内で訓練・最適化したオリジナル研究です。

書き起こしからコンテキストへの転換

音声のみの ASR は一つの問いに答えます。「ユーザーは何の言葉を発したか?」しかし、ディクテーションは第二の問いを投げかけます。「カーソル位置で、その言葉は何になるべきか?」マルチモーダル音声入力が存在する理由は、まさにこの第二の問いにあります。書き起こしは正確であっても、宛先にとっては間違っている可能性があるのです。

コードエディタにディクテーションするときは、句読点、識別子、コメント、選択範囲が重要になります。メールにディクテーションするときは、トーンと段落構造が重要です。タスクアプリにディクテーションするときは、担当者と期限が重要です。画面コンテキスト音声入力は、こうした目に見える手がかりを書き込みの制約条件に変えます。

画面コンテキストがディクテーションを変える理由

同じフレーズでも、アプリによって意味が変わります。「fetch profile の前にガードを追加して」は、IDE ではコードに隣接するテキストになるべきですし、Linear ではタスクに、Slack では平易な依頼文になるべきです。音声だけでは、これらの形式を確実に選ぶことはできません。

Loqua のコンテキストレイヤーは、アクティブなアプリ、選択されたテキスト、近接する可視テキスト、宛先フィールドの種別といったローカル信号を読み取ります。スクリーンショット全体の物語を必要としません。識別子を保持し、挿入か編集かを判断し、適切な出力形式を選ぶのに十分なローカル証拠さえあれば良いのです。

カーソル位置で何が変わるか

あなたが話す
「ユーザーがログイン済みかを fetch profile の前にチェックして、未ログインならサインインへリダイレクトして」
Loqua の書き込み (VS Code)
if (!user.isLoggedIn) {
  return redirect('/signin');
}
あなたが話す (同じ言葉)
「ユーザーがログイン済みかを fetch profile の前にチェックして、未ログインならサインインへリダイレクトして」
Loqua の書き込み (Linear)
プロフィール取得前に認証ガードを追加。未ログインの場合、プロフィール取得ではなくサインインへリダイレクトする。

宛先が変われば、出力も変わります。これがプロダクトカテゴリとしてのオムニモーダル ディクテーションの実用的な価値です。コンテキストは、書き起こしには下せない書き込みの判断を下します。

プライバシーの境界

画面コンテキストは強力であるがゆえに、明確な境界が必要です。Loqua のコンテキストパスはデフォルトでローカル優先です。アクティブなアプリ、選択されたテキスト、近接する可視コンテンツは、現在の発話を整形するために使われ、汎用の画面ログを作成するためには使われません。

完全な境界については、プライバシー・バイ・デザインのハイブリッドアーキテクチャをご覧ください。要点はシンプルです。音声と画面コンテキストは機密性のあるローカル信号として扱われ、オプションのクラウド機能は周辺の生の画面コンテンツを受け取りません。

さらに深く知りたい方へ

参考文献

文献的な背景としては、堅牢な音声認識については Whisper、視覚命令チューニングについては LLaVA、モーダル間の整合については ImageBind から始めると良いでしょう。これらのリンクはこの分野を説明するためのものであり、Loqua の出自を示すものではありません。

Frequently asked questions

Loqua にとっての「画面コンテキスト」とは何ですか?
画面コンテキストとは、現在のディクテーション対象の周辺にあるローカル信号のことです。アクティブなアプリ、選択されたテキスト、近接する可視テキスト、ファイル種別、カーソル位置、フィールド形状などが含まれます。Loqua はこれらの手がかりを使って、あなたの発話が散文・タスク・プロンプト・コード隣接テキストのどれになるべきかを判断します。
Loqua はスクリーンショットをどこかに送信しますか?
コンテキストパスはデフォルトでローカル優先です。Loqua は画面由来の信号を使って現在の発話を整形するだけで、オプションのクラウド機能に周辺の生の画面コンテンツを送る必要はありません。完全な境界についてはプライバシー記事を参照してください。
コンテキストはレイテンシにどう影響しますか?
コンテキストの収集は音声認識と並行して行われます。つまり、最終テキストをレンダリングする時点で宛先の証拠は通常すでに準備できています。アーキテクチャは遅い後処理呼び出しではなく、200ms クラスのインタラクションを前提に設計されています。
音声と視覚はコードにとってなぜ重要なのですか?
コードには、音だけでは復元できない識別子、ケーシング、構文、選択範囲が多く含まれます。モデルがカーソル付近の可視識別子を見ることができれば、汎用的な書き起こしを作る代わりにその名前を保持できます。
これは画面上で動作するエージェントですか?
いいえ。本稿はディクテーションについての記事であり、自律的な画面制御についてではありません。Loqua はローカルコンテキストを使ってカーソル位置でより良いテキストを書きます。明示的に別のツールを使わない限り、アプリを巡回したり操作を実行することはありません。
より深いアーキテクチャはどこで読めますか?
マルチモーダル命令パイプラインについては「Loqua のオムニモーダル音声スタックの内側」から、曖昧性解消については「画面を見るリスナーを作る」、プロトタイプ段階の非言語音声方針については「意味を持つ音」を読むと良いでしょう。

Try Loqua today

Free to start. Mac native. Built by algorithm researchers who use it every day.

Download for Mac

More from the Loqua Blog

engineering
オムニモーダル音声入力: マルチモーダル理解、MoE、ストリーミングテキスト出力
engineering
マルチモーダル音声認識: 画面を見るリスナーを作る
engineering
音響イベント検出ディクテーション: 言葉を超えた意味を持つ音
productivity
音声プロダクティビティスタック: 私たちが実際に使っている 9 つのツール
how-to
Mac でコードをディクテーションする方法: Cursor、VS Code、Claude Code の完全ガイド