음성과 비전의 만남: 옴니모달 모델이 멀티모달 음성 입력을 가능하게 하는 방법
오디오 전용 ASR에서 오디오 + 비전 + 텍스트로 — 음성 입력을 "내가 말한 걸 받아 적기"에서 "내가 의도한 곳에, 의도한 대로 쓰기"로 바꿔놓은 패러다임 전환.
TL;DR
멀티모달 음성 입력은 시스템이 음성과 로컬 컨텍스트를 함께 사용해서 그 말이 어떤 텍스트가 되어야 할지를 판단한다는 뜻이에요. Loqua는 맥용 컨텍스트 인식 음성 입력 도구예요. 사용자의 음성을 듣고, 로컬 목적지 컨텍스트를 읽고, 앱에 맞는 텍스트를 써줘요. 이 글은 전체 아키텍처로 깊이 들어가지 않고, 화면 인식 음성 입력이 왜 중요한지를 소개해요.
Loqua는 맥용 컨텍스트 인식 음성 입력 도구예요. 중요한 변화는 단순한 전사에서 목적지를 인식하는 글쓰기로 넘어간다는 거예요. 똑같이 말한 문구가 Slack, Cursor, GitHub, Apple Notes, 코드 에디터에서 각각 다른 텍스트가 되어야 하니까요.
이 글은 저희 음성 + 비전 AI 사고방식의 입문 버전이에요. 오디오, 언어, 멀티모달 시스템에 대한 공개 연구는 분야에 유용한 어휘를 제공하지만, Loqua의 프로덕션 스택은 맥 받아쓰기를 위해 사내에서 학습하고 최적화한 독자적인 작업물이에요.
전사에서 컨텍스트로의 전환
오디오 전용 ASR은 하나의 질문에 답해요. 사용자가 어떤 단어를 말했는가? 받아쓰기는 두 번째 질문을 던져요. 그 단어들이 커서 위치에서 어떤 텍스트가 되어야 하는가? 이 두 번째 질문 때문에 멀티모달 음성 입력이 존재해요. 전사가 정확해도 목적지에는 틀린 결과일 수 있거든요.
코드 에디터에 받아쓰기를 한다면 구두점, 식별자, 주석, 선택된 텍스트가 중요해요. 이메일에 받아쓰기를 한다면 톤과 단락 구조가 중요하고요. 작업 앱에 받아쓰기를 한다면 담당자와 마감일이 중요하죠. 화면 인식 음성 입력은 이런 눈에 보이는 단서들을 글쓰기의 제약 조건으로 바꿔줘요.
화면 컨텍스트가 받아쓰기를 바꾸는 이유
같은 문구라도 어떤 앱에 있는지에 따라 의미가 달라져요. "Add a guard before fetch profile"은 IDE에서는 코드 인접 텍스트, Linear에서는 작업, Slack에서는 평범한 요청이 되어야 해요. 오디오만으로는 이 세 형태 중 어느 쪽인지 안정적으로 고를 수 없어요.
Loqua의 컨텍스트 레이어는 활성 앱, 선택된 텍스트, 옆에 보이는 텍스트, 목적지 필드 타입 같은 로컬 신호를 읽어요. 전체 스크린샷 서술 같은 건 필요 없어요. 식별자를 보존하고, 새로 쓰는 건지 편집하는 건지 판단하고, 올바른 출력 형태를 고를 만한 로컬 증거만 있으면 돼요.
커서 위치에서 달라지는 것
if (!user.isLoggedIn) { return redirect('/signin');}출력이 달라지는 이유는 목적지가 다르기 때문이에요. 이게 제품 카테고리로서 옴니 모델 받아쓰기의 실질적인 가치예요. 컨텍스트는 전사가 할 수 없는 글쓰기 결정을 내려줘요.
프라이버시 경계
화면 컨텍스트는 강력한 만큼 명확한 경계가 필요해요. Loqua의 컨텍스트 경로는 기본적으로 로컬 우선이에요. 활성 앱, 선택된 텍스트, 근처에 보이는 콘텐츠는 현재 발화를 다듬는 데 사용되지, 일반적인 화면 기록을 만드는 데 쓰이지 않아요.
전체 경계에 대해서는 하이브리드 아키텍처로 설계한 프라이버시를 확인해보세요. 짧게 말하면 오디오와 화면 컨텍스트는 민감한 로컬 신호로 다뤄지고, 선택적 클라우드 기능은 원본 주변 화면 콘텐츠를 받지 않아요.
더 깊이 들어가기
- Loqua의 옴니모달 음성 스택 내부 — 멀티모달 명령 파이프라인, MoE, 스트리밍.
- 당신이 보는 것을 보는 리스너 만들기 — 멀티모달 컨텍스트로 ASR 모호성을 해결하는 방법.
- 의미 있는 소리 — AED, 오디오 캡셔닝, 그리고 다음 영역.
추가 자료
관련 문헌이 궁금하시면 견고한 음성 인식에 대한 Whisper, 비주얼 인스트럭션 튜닝의 LLaVA, 그리고 크로스 모달 정렬의 ImageBind부터 시작해보세요. 이 링크들은 분야 설명일 뿐이고, Loqua의 출처에 대한 주장은 아니에요.
자주 묻는 질문
지금 Loqua를 사용해보세요
무료로 시작하세요. 맥 네이티브. 매일 직접 사용하는 알고리즘 연구자들이 만들었어요.
Download for Mac