Engineering

プライベート音声ディクテーション Mac 版: Loqua のハイブリッド音声入力スタックがどのようにデータを守るか

大半の音声ディクテーションはクラウド経路に依存する。Loqua はローカルファーストの機密レイヤー、オプションのクラウド機能、可視な境界を持つハイブリッドアーキテクチャを使う。

Shuran Zhou, Founder · 2026-04-03 ·8 min ·更新 2026-04-03

TL;DR

「プライバシーポリシー付きクラウド書き起こし」ではないプライベート音声ディクテーション Mac オプションを探しているなら、これがアーキテクチャ的な答えです。Loqua は設計上ハイブリッドです: 機密のコア経路 — 音声認識、ローカルクリーンアップ、固有表現処理、画面/コンテキスト読み取り — はデフォルトで Apple Silicon 上でオンデバイス動作するよう設計されています。これを Mac でのセキュアディクテーションとして扱うのは、マーケティングコピーが「プライベート」と言うからではなく、音声と画面コンテンツに触れるレイヤーがローカルファーストだからです。オプションのクラウド処理は、長文書き換えや選択された翻訳などの機能のために予約され、無効化できます。ユーザーディクテーションデータで訓練しません。目標はローカル音声入力モードに何が留まり、有効化されれば何が線を越えるかについての可視な境界です。

Loqua は Mac 向けのコンテキスト認識型音声入力ツールです。画面コンテキストを使えるという事実が、プライバシーストーリーを中心にします。ディクテーション製品がコード、メッセージ、半成形のメールを見られるなら、そのデータの周囲のアーキテクチャはマーケティング脚注ではありません - 製品そのものです。

私は Shuran で、アルゴリズム研究者の小さなチームとこのスタックを共同構築しました。私たち自身の内部 Slack、メール、コーディングプロンプト、コードレビューに Loqua を使っています。私たちが望んだ標準はシンプルでした: 機密経路をデフォルトでローカルに保ち、オプションのクラウド使用を可視にし、ユーザーディクテーションデータでの訓練を避ける。

クラウドデフォルトのトレードオフ

多くのモダンなディクテーション製品はクラウド書き起こしを使います。それは合理的なエンジニアリング選択になりえます: 大きなモデル、中央集権的な更新、クロスプラットフォーム一貫性、エンタープライズ制御、文書化されたゼロデータ保持モードすべてがそのアーキテクチャに住めます。

トレードオフはサーフェスエリアです。一度音声やコンテキストが線を越えると、マイクとカーソルの間にサーバー経路が存在します: 輸送、キュー、ログ、モデルプロバイダ、運用メタデータ、エンタープライズポリシー。良いベンダーはそのサーフェスを注意深く管理します。しかしユーザーはまだ境界がどこにあるかを理解する必要があります。

Loqua は異なるデフォルトから始めます。音声と画面コンテキストに触れるレイヤーは、最初にローカル動作するよう設計されています。オプションのクラウド機能は不可視な配管ではなく明示的な機能境界として扱われます。

純粋なオンデバイスがまだトレードオフである理由

純粋なオンデバイス AI は魅力的で、日常のディクテーションには正しいデフォルトです。しかし絶対的な主張は脆くなります。一部のロングテールタスク - 非常に長い書き換え、距離のある言語の翻訳、希少ドメイン変換 - は大きなクラウドモデルから恩恵を受けえます。モデル更新、クラッシュ報告、ライセンスチェック、機能配信も多くの製品でネットワークタッチポイントを作ります。

だから私たちはプライバシーのスローガンバージョンを避けます。有用な答えは「クラウド悪い」や「ローカル魔法」ではありません。明確なデフォルト、明示的な制御、そしてクラウド機能が無効化されたときに機能し続ける製品を持つハイブリッドアーキテクチャです。

Loqua におけるハイブリッドの意味

これがアーキテクチャです、平易に述べると:

レイヤー	デフォルトでどこで動作するか	なぜ
音声認識 (レイヤー 1)	オンデバイス、Apple Neural Engine	レイテンシ予算、音声の機密性
言語インテリジェンス — フィラークリーンアップ、NER、基本フォーマット (レイヤー 2)	オンデバイス	レイテンシ、語彙はあなたのもの
マルチモーダルコンテキスト — 画面読み取り (レイヤー 3)	オンデバイス	画面コンテンツが決してマシンを離れない
クラウド後処理 — オプトインしたときのみ	Loqua 管理クラウド、TLS 暗号化	長文書き換え、特定の翻訳

三つのコアレイヤー — 音声と画面コンテンツに触れるもの — はデフォルトでオンデバイス動作するよう設計されています。コアディクテーション体験のためにオフラインモードで Loqua を使えます。

クラウドは特定のオプトインケースのために予約されています。使われるとき: クラウドトラフィックは TLS 暗号化、クラウド処理はゼロ保持 (リクエストは処理され破棄)、ユーザーは設定からクラウドを完全に無効化できます。どの時点でもユーザーデータで訓練しません — クラウドトラフィックでも、オンデバイス使用でも。

すべての境界を可視に

原則: あなたのデータの一部が境界を越えるなら、EULA を読まずに知るべきです。すべての境界を可視にする方法:

メニューバーインジケータ。 Loqua が録音しているとき、メニューバーアイコンは赤になります。特定の発話にクラウドが使われているとき、インジケータは目に見えて異なります (小さなクラウドアイコンオーバーレイ)。リアルタイムで、何かがマシンを離れているかを見えます。
設定 → プライバシーパネル。 どのクラウドコールが有効か、各々のトグル付きでリストします。翻訳はオン、長文書き換えはオフ、または逆もできます。
音声処理。 デフォルトのコアディクテーション経路には音声がクラウドに送られません。オプションのクラウド機能は明示的で無効化できます。
画面コンテンツ処理。 マルチモーダルコンテキストレイヤーが読む画面コンテンツは決して線を越えません。クラウド書き換えを有効化しても、書き換えられるテキストのみが送られ、周囲の画面は送られません。
ログ。 ローカルデバッグログにはディクテーションされたコンテンツが含まれません。クラウド側ログには音声や書き起こしが含まれません。

AED とマルチモーダルコンテキスト処理は同じ境界の下でローカルに留まります。sounds with meaningで記述されたプロトタイプ業務は、非言語音響をローカルでオプトインの信号として扱い、画面を見るリスナーを作るで記述されたマルチモーダルリスナーは汎用画面ログを作るのではなく現在の発話に画面コンテキストを使います。

低レイテンシでのアルゴリズム的トレードオフ

コンシューマー Mac でディクテーションをレスポンシブに保ちながらコアレイヤーをオンデバイス実行するのが、このスタックの最も難しいエンジニアリング業務です。三つのことが可能にしました:

Neural Engine 向けの積極的なオペレータ選択。 すべての transformer オペレータが Apple の Neural Engine で効率的に動作するわけではありません。高速経路に留まるレイヤータイプ、attention バリアント、量子化スキームを選びます。Apple の Core ML ドキュメントがサポートされるオペレータセットをマップします。そこから外れるとコストが高くなります。
ストリーミングファースト音声認識。 出力は完全な発話が確定する前に始まります。非ストリーミングバリアントは発話ごとの精度を改善できますが、より遅く感じます。
並列パイプライン。 コンテキストレイヤーは音声認識と並列に実行されます。言語レイヤーが出力をフォーマットする準備ができる時点で、宛先コンテキストはすでにローカルに読まれています。

トレードオフ: パラメータ予算がタイトです。各ローカルレイヤーはラップトップ熱に制約されないクラウドモデルよりも小さいです。タスク固有訓練データ、注意深いファインチューニング、狭い Mac ファーストスコープで補償します。内部ベンチマークは現在、おおよそ 200ms クラスのレスポンス、高い技術用語認識、サポート条件での低い 1 桁台 WER をターゲットにしています。公開ベンチマークページが存在するまでこれらを内部ターゲットとして記述します。

私たちの保証

厳密なリスト:

ユーザーデータでの訓練なし。 音声で訓練しない。書き起こしで訓練しない。クラウド処理されたテキストで訓練しない。将来のモデルバージョンでも。
オプトインしない限り音声はアップロードされません。 デフォルト: クラウド音声なし。オプトインクラウド機能は明示的、機能ごと。
クラウド処理データのゼロ保持。 リクエストは処理され即座に破棄されます。「30 日ソフト削除」はありません — 削除するコピーがありません。
すべてのクラウドトラフィックに TLS。 標準実践ですが、完全性のために述べます。
オフラインモード。 設定の単一トグルがすべてのクラウドコールを無効化。Loqua はオンデバイスレイヤーのみを使って機能し続けます。
ブラウザフックなし。アプリ間トラッキングなし。 Loqua は現在のディクテーションのためだけにアクティブアプリのコンテキストを読みます。ディクテーション間、マルチモーダルコンテキストレイヤーはアイドルです。
Personal Dictionary はローカルに留まります。 あなたのカスタム語彙はローカルファイルに住みます。クラウドに同期しないし、私たちには見えません。

あなたの制御

プライバシーは、ユーザーが見つけやすい制御を持っているときのみ有用です。設定 -> プライバシーパネルからできること:

オプションのクラウドコールを無効化
長文クラウド書き換えのオン/オフ切り替え
クラウド翻訳のオン/オフ切り替え
特定のアプリを Loqua から完全に除外
macOS システム設定でマイク権限を取り消し
macOS システム設定でアクセシビリティ権限を取り消し

規制されたまたはセキュリティ機密のワークフローには、フルオフラインモードを使い、自身のコンプライアンスレビューを実行してください。ブログ投稿を法的または HIPAA コンプライアンスアドバイスとして提示することはありません。製品境界は技術的であり、正式なコンプライアンス要件は適切なポリシーチャネルを通じて評価されるべきです。

参考文献

Loqua が使うオンデバイスランタイムについては Apple Core ML ドキュメント。
Loqua が構築する Mac プライバシーモデルのより広い概要については Apple のプライバシー機能概要。
コンパニオンノート: 三モデルアーキテクチャと音声と視覚の出会い: オムニモーダルディクテーション。

ここでアドレスされていない特定の音声入力プライバシーまたはセキュリティ要件があれば、メールしてください。私たちは小さなチームで、ジェネリックポリシードキュメントから推測されるよりも質問に直接答えたいです。これが Loqua がプライベート音声ディクテーション Mac 製品として最初に、そしてクラウド機能製品として 2 番目に構築されている短いバージョンです。

よくある質問

音声はクラウドに送られますか?

デフォルトでは送られません。音声認識は Apple Silicon 上のオンデバイスで動作します。クラウドが必要なクラウド機能を明示的に有効化した場合 (現在: 特定の長文書き換えと一部の翻訳ペア) のみ、音声がクラウドに送られます。設定 → プライバシーですべてのクラウドコールを無効化できます。

Loqua は私のディクテーションや音声で訓練しますか?

いいえ。音声でも、書き起こしでも、クラウド処理されたテキストでも。将来のモデルバージョンでも。ユーザーコンテンツを含まない注意深く curate された訓練データセットを使います。

Loqua を完全にオフラインで実行できますか?

はい。設定 → プライバシーですべてのクラウドコールをオフに切り替えます。コアディクテーション体験 — 音声認識、マルチモーダルコンテキスト、NER、アプリ認識フォーマット — は完全にオンデバイスで動作します。オプションのクラウド機能 (長文書き換え、特定の翻訳) を失い、ネットワークサーフェスのないスタックを得ます。

何がログされますか?

ローカルデバッグログには診断情報 (モデルロード時間、レイテンシ測定、エラートレース) が含まれますが、ディクテーションされたコンテンツは含まれません。クラウド側ログには音声や書き起こしは含まれません — サービス信頼性のための不透明なリクエストメタデータのみです。

GDPR / CCPA についてはどうですか?

コンプライアンスするよう設計されています。大半の処理がオンデバイスでクラウド処理がゼロ保持なので、通常アクセスや削除リクエストの対象となる個人データはありません。あなたの管轄の詳細については、プライバシーポリシーを参照するかメールしてください。

Loqua を HIPAA スタイルの規制ワークフローで使えますか?

このブログ投稿を法的または HIPAA コンプライアンスアドバイスとして扱わないでください。Loqua はオプションのクラウド機能を無効化して機密ワークフローに使えますが、規制された展開はコンプライアンスプロセスと必要な合意を通じてレビューされるべきです。