Reference Research · 2026

전화 → 액션플랜 자동화
AI 영업비서 모바일 서비스 레퍼런스 리서치

"휴대폰 통화 녹음 → STT → AI 맥락분석 → 영업 액션플랜 + 부재중 자동응답"을 목표로, 2026년 글로벌·국내 레퍼런스 서비스와 기술 제약을 전수 조사해 정리했습니다.

작성일 · 2026-06-29 대상 서비스 · 글로벌 18 + 국내 14 요청 · 강호진 → 이철희 · VITO 대체 검토

📌 핵심 결론 5

  • 휴대폰(PSTN) 통화를 앱이 직접 녹음하는 건 iOS·Android 모두 사실상 불가능. iOS는 통화 오디오 스트림을 한 번도 개방한 적이 없고, Android는 2022년 Accessibility 녹음 경로를 차단했다. 합법 녹음 주체는 OS 네이티브 다이얼러(애플·구글·삼성)와 통신사(에이닷)뿐.
  • "통화 → 영업 액션플랜/CRM next step"을 제대로 하는 서비스는 국내에 콜라보(Callabo) 정도가 유일. 클로바노트·에이닷·갤럭시AI는 전부 범용 1건 요약에 머문다 → 명확한 차별화 공백.
  • VITO(리턴제로)는 2026년 5월 유베이스에 인수되어 콜센터 B2B로 선회. 소비자 앱은 종료는 아니나 2025.2 이후 정체. 강호진 님 체감("업데이트 멈춤")이 사실로 확인됨.
  • 부재중 자동 SMS는 iOS에서 단말 단독 불가, Android만 가능. 크로스플랫폼 정공법은 가상번호(Twilio·안심번호) 라우팅 후 서버 발송 — OS 제약 자체를 우회한다.
  • 한국어 통화 STT는 리턴제로가 압도적 1위(전화망 CER 3.56%, 클로바 5.89%, Whisper 11%대). 글로벌 모델은 한국어 전화망에서 명백히 열위.

🎯 한 줄 전략

"한국 휴대폰 통화 캡처 + 한국어 STT + 영업 액션플랜/CRM"을 모두 충족하는 직접 경쟁자는 전 세계에 없다. 단, 기술 병목(PSTN 직접녹음 불가)을 어떻게 우회하느냐가 제품 성패를 가른다.

01 글로벌 영업 콜 AI · Revenue Intelligence

18개 서비스 전수 조사. 결정적 차이는 "무엇을 녹음하느냐" — 대부분 줌/미트/팀즈 화상회의 봇이거나 VoIP 다이얼러이며, 실제 휴대폰(셀룰러) 통화를 녹음하는 곳은 사실상 없다.

📞 실제 전화녹음: Krisp(美발신만) · Nooks 🤝 대면녹음: Rilla · Read.ai · Otter · Granola 💻 화상회의만: Gong · Chorus · Fathom 🇰🇷 한국어 STT: Read.ai · Krisp · Avoma · tl;dv · Fireflies

엔터프라이즈 Revenue Intelligence

서비스포지셔닝휴대폰녹음녹음 경로액션플랜CRM 자동정리모바일가격(2026)한국
GongRevenue AI OS, 시장리더Zoom/Teams/Meet+VoIPO next-best action양방향 SF·HubSpotiOS/Android, 데스크톱중심~$3,300–4,000/석/년+α한국어 없음
Chorus (ZoomInfo)대화 인텔리전스화상+연동 다이얼러OSF 자동로깅기능 제한비공개 ~$1,200/석/년+미지원 추정
Clari CopilotRevenue Platform · Salesloft 합병(25.12)화상+외부 다이얼러OSF·HubSpot·Pipedrive품질 최하(크래시)~$60–100/mo한국어 미확인
SalesloftAI Revenue Orchestration "Rhythm"자체 VoIP+화상봇O Agent Tasks양방향 SF 98%+iOS 전용, 3.9/5~$75–200+/mo다이얼러에 한국 미포함
OutreachSales Execution, agentic자체 Voice+화상O Deal AgentSF 깊은 양방향빈약~$130–170/mo한국 텔레포니 없음

AI Notetaker (미팅 어시스턴트)

서비스포지셔닝휴대폰대면STT/AI액션플랜모바일 평가가격(/user/mo)한국어
FirefliesAI 미팅 어시스턴트 (유니콘)ODeepgram+Whisper+자체O 참가자별불안정/크래시Free/$10/$19/$39작동(1급 아님)
Otter.aiAI 미팅 어시스턴트O 강점자체(비Whisper) 탐지 약함강력 4.0/4.3Free/$8.33/$19.99STT 없음
AvomaMeeting Lifecycle AssistantO 업로드비공개, 60–75개어O Pain/NextStep재생 전용$19/$29+애드온STT O
Fathom"노트 그만", 무료 중심비공개, MCPO Ask Fathom앱 없음(iOS 예정)Free/$16/$15/$25STT O, 요약 제외
tl;dvCompany-Wide Meeting IntelLiteWhisper Large+AnthropicO약함 iOS 1.8/5Free/$10–18/$30STT O
Read.ai미팅+생산성 코파일럿O 앰비언트비공개, Sales AGIO sentiment강력 iOS 4.9/5Free/$19.75~$39.751급 추가

신흥·특수 도구 (전화녹음 관점 주목)

서비스포지셔닝전화녹음특징한국
KrispVoice AI(소음제거+노트)O 앱 발신(美만)대면+모든 콜앱, 96% 정확, 한국어 서버 STT O사용가능 한국 셀룰러 발신녹음만 미지원
NooksOutbound 다이얼러+CIO 자체 PSTNAI Prospector, 실시간 disposition, 웹 전용한국 발신 가능(분당과금), STT 미확인
Rilla현장/대면 영업 코칭 (~$70M ARR)종일 주머니 녹음, Rilla Live 실시간 코칭, 모바일 우선美 한정, 한국어 미지원
Granolabot-free AI 노트 ($1.5B) 스피커폰Mac+iOS, Android 없음, 폰콜 노트(iOS)사용가능, 한국어 미문서화
SuperhumanAI 이메일 클라이언트오디오 없음, 이메일 기반 팔로업, Grammarly 인수이메일 AI 사용가능

출처: gong.io · zoominfo.com/products/chorus · clari.com · salesloft.com · outreach.ai · fireflies.ai · otter.ai · avoma.com · tldv.io · read.ai · nooks.ai · rilla.com · granola.ai · krisp.ai

02 국내 STT · 영업 AI · 통화요약

14개 조사. 실제 휴대폰 통화를 자체 캡처해 STT 하는 앱은 통신사(에이닷)·제조사(갤럭시·애플)뿐이며, 나머지는 OS가 만든 녹음 파일을 사후 업로드/접근하는 우회 구조다. 영업 next-step·CRM 연동은 콜라보가 유일.

서비스회사 / 포지셔닝PSTN 통화 STT영업/액션 특화모델가격25~26 현황
VITO(비토)리턴제로 / 통화녹음 STT B2C OS 녹음파일 STT (Android 중심) 4분류+요약만자체 sommers + LLM무료+멤버십정체 26.5 유베이스 인수, B2B 선회
콜라보(Callabo)리턴제로 / B2B AI회의록·영업콜 Call Catcher(Android OS녹음 자동업로드)O 강함 SF·HubSpot·Pipedrive, 액션아이템VITO STT + sLMiOS/Android+크롬+CRM활발 직접경쟁 최유력
클로바노트네이버클라우드 / 회의록 1위 파일 업로드만 범용 실행항목CLOVA Speech + HyperCLOVA X무료 월300분, 기업 2만/인활발 164만
다글로(Daglo)액션파워 / 받아쓰기+AICC B2C / B2B는 API 영업미팅 템플릿자체 E2E STT + 멀티LLMPro 11,900~Premium 16,580매우 활발 26.3 시리즈B 60억
SKT 에이닷(A.)SKT / A.전화 통화요약O A.전화 앱 경유만 범용(일정·할일 추출은 O)자체 A.X LLMSKT 전용 무료, 요약 월30회 캡활발 MAU 1,120만
삼성 갤럭시AI삼성 / OS 통화요약O 네이티브 PSTN 직접 전사·요약 순수 OS 기능온디바이스+Google Gemini갤럭시 전용활발 26.1 기본 무료 확정
애플(참고)Apple / iOS 26 통화녹음O 네이티브 (한국어 전사 지원)Apple Intelligence 온디바이스iPhone 12+활발
소보로소리를보는통로 / 실시간 자막 파일 업로드외부 STT + 속기사 검수월 9,900정체
카카오 음성카카오 / 카나나 통화요약 보이스톡(VoIP) 위주카나나 자체(온디바이스)카톡 내장 추정활발 25.9 출시
클로바X네이버 / 한국어 챗봇HyperCLOVA X무료26.4.9 종료→검색 흡수

🔍 VITO 사실확인

2026년 5월 26일 BPO 대기업 유베이스가 리턴제로를 인수(금액 비공개). 회사 무게중심이 콜센터 AICC/아웃바운드로 이동. 공식 종료 공지는 없으나 마지막 메이저 업데이트가 2025.2(LLM 통화요약) 이후로 소비자 앱은 정체. "종료"가 아닌 "전략 우선순위 이탈에 따른 정체"가 정확. 자체 STT 엔진(sommers)은 RTZR OpenAPI로 B2B 판매 중 — 앱은 쇼케이스, 엔진이 본체.

⚠️ 통신사·제조사 통화요약이 영업비서를 대체할까? → 불가, 보완재

에이닷·갤럭시AI·애플은 모두 "통화 1건의 범용 요약기"에 머문다. ① 영업 도메인 추론(딜 단계·이의제기·next step) ② CRM 양방향 연동 ③ 파이프라인 누적 관리 ④ 후속 자동화(시퀀스·리마인더)를 전부 결여. 게다가 에이닷=SKT·갤럭시AI=삼성·애플=iOS 전용이라 영업팀 전원 통일 불가. 단발 요약의 상류 입력기로는 유용.

출처: aitimes.kr/40213 · platum.kr/287703 · developers.rtzr.ai · vito.ai · clova.ai

03 통화녹음 기술 제약 — 가장 중요한 병목

서드파티 영업비서 앱이 휴대폰(PSTN) 통화를 직접 녹음하는 것은 iOS·Android 양쪽 모두 현실적으로 불가능하다. 이 제약을 어떻게 우회하느냐가 제품 설계의 출발점이다.

🍎 iOS (18.1 ~ 26)

  • 네이티브 녹음 — iOS 18.1+ Phone앱 내장, Notes 저장 + Apple Intelligence 요약(iPhone 12+). 한국어 전사 공식 지원
  • 서드파티 PSTN 녹음불가 통화 오디오 스트림을 앱에 개방한 적 없음
  • CallKit — 시스템 통화 UI 통합·기본 전화앱 지정은 가능하나 오디오 buffer 접근은 불가
  • 녹음 고지음 강제 — 양측에 자동 안내음, 비활성화 불가

🤖 Android (10 ~ 16)

  • Accessibility 녹음 — 2022년 차단, Play 정책상 통화녹음 목적 사용 금지
  • 네이티브 녹음 — Google Phone앱(비-Pixel도 25.11 확대), 삼성 등 OEM 다이얼러 — 지역 한정
  • 서드파티 앱 — Play 밖 사이드로드 또는 root만 우회 가능, 정식 배포 불가
  • 통신사 차단 — 캐리어가 OS와 무관하게 끌 수 있음 + 고지음 강제

현실적 우회법 4가지

우회법품질실현성비고
네이티브 녹음 파일 → 사용자가 export → 앱 업로드합법·고품질이나 자동화 불가, UX 마찰
스피커폰 + 제2기기 녹음에코·잡음으로 STT 정확도 급락
VoIP 전환 (앱이 발신을 자체 VoIP로 라우팅)앱 안에서 통화 → 오디오 합법 접근. 2026 영업비서 앱의 정석
CPaaS 클라우드 브리지 (Twilio·Telnyx)통화를 클라우드 PSTN으로 브리지 → 서버 녹음·실시간 STT. 번호발급·동의처리 내장

💡 제1원리적 결론

"기기 위 PSTN 직접 녹음"은 포기하고, VoIP/CPaaS로 통화를 클라우드 브리지해 서버단에서 녹음+스트리밍 STT 하는 것이 정공법. iOS·Android 동일 동작 + 단말 권한 불필요 + 녹음 동의 처리 내장.

출처: recapmycalls.com · support.apple.com/en-us/121583 · developer.apple.com/videos/wwdc2025/277 · rokform.com · hackernoon.com call-recorder-banned

04 부재중 → 발신자 자동 SMS

Android는 단말에서 직접 가능, iOS는 단말 단독 불가능. 상용 솔루션은 전부 "단말 자동발송"이 아니라 "통화를 서버로 라우팅 후 서버가 SMS 발송"하는 구조라 OS 제약과 무관하게 동작한다.

📱 OS 네이티브 가능성

  • iOS — Driving Focus 자동회신만 존재(발신자가 문자를 보내야 회신, 전화만 와선 안 됨). 서드파티 앱의 부재중 자동 SMS는 불가
  • iOS 제약 근거 — 샌드박스가 통화상태 백그라운드 감시 차단 + MessageUI는 반드시 사용자가 직접 '보내기' 탭 필요(자동발송 API 부재, Apple 의도적 미제공)
  • Android — 서드파티 앱이 가능: PhoneStateListener로 부재중 감지 → SmsManager.sendTextMessage()로 발신번호에 자동 발송
  • Android 필요권한 — SEND_SMS(런타임), READ_PHONE_STATE, 배터리 최적화 예외(Doze 방지). 단 Play 심사 까다로움

☁️ 서버 경유 = OS 제약 회피 (권장)

  • Twilio — 가상번호 라우팅 → no-answer webhook → 서버가 SMS. 가장 유연한 빌딩블록
  • GoHighLevel / Podium — Missed Call Text-Back 내장 자동화(노코드)
  • 한국 — 카카오 알림톡 — 정보성 메시지 + 발송 실패 시 자동 문자 대체발송. "부재중 안내" 구현 가능(기업회원·템플릿 심사)
  • 한국 — 안심번호(050·1xxx) — 가상번호로 받아 미응답 시 서버 발송, 단말 권한 불필요

🏗 권장 크로스플랫폼 아키텍처

비즈니스 번호를 가상번호(Twilio / 한국 안심번호)로 받아, 미응답 webhook → 서버에서 발신자에게 SMS(또는 한국은 알림톡+대체문자). iOS·Android 동일하게 동작하고 단말 권한도 불필요 — 통화녹음 우회(§3)와 같은 CPaaS 인프라를 공유한다.

출처: developer.apple.com/forums/thread/763423 · support.apple.com/en-us/108384 · support.google.com/phoneapp · twilio.com/docs/studio · kakaobusiness.gitbook.io

05 STT 모델 비교 (2026)

한국어는 WER보다 CER이 적합한 지표. 저음질 전화망에서 리턴제로가 압도적이며, 글로벌 모델은 한국어 전화망에서 명백히 열위다.

🇰🇷 한국어 (CER 기준)

순위엔진평균 CER전화망 CER
1리턴제로6.18%3.56%
2리턴제로 Whisper7.79%5.44%
3Naver Clova9.52%5.89%
4ETRI10.19%
5Google STT v211.50%
6OpenAI Whisper11.39%

🌐 글로벌 (영어 WER 기준)

모델WER실시간가격(배치)
Deepgram Nova-35.26%$0.0043/min
AssemblyAI Universal-35.6%~$0.37/hr
gpt-4o-transcribe~8.9%$0.36/hr
Whisper large-v3오픈셀프호스팅
ElevenLabs Scribe v2다국어 1위$0.22~0.48/hr

파이프라인 베스트프랙티스 — "녹음 → STT → Gemini → 액션플랜"

결정축권장근거
실시간 vs 배치영업통화 정리는 사후 배치실시간은 50~80% 비싸고, 액션플랜은 통화 종료 후 생성으로 충분. 실시간은 라이브 코칭 때만
STT 엔진한국어=리턴제로 배치 / 글로벌=Deepgram·AssemblyAISTT는 전체 통화비용의 3~8%로 최저 비중 — 정확도 우선
화자분리2인(상담원-고객), 배치가 안정적스트리밍은 lookahead 불가로 초반 턴 불안정. 영업통화는 2인이라 배치로 충분
LLM 맥락분석화자라벨 포함 전사문 + 구조화 프롬프트를 Gemini에화자분리된 텍스트가 요약·액션추출 품질을 좌우
비용 모델링음성에이전트 풀스택 $0.12~0.25/mindiarization·감정·PII는 add-on(기본가 2배 가능). 총원가로 비교

⚖️ 컴플라이언스 참고

한국 통신비밀보호법상 일방 당사자 녹음은 합법이나, 글로벌(양자동의 관할)·OS 녹음 고지음 강제를 고려해야 함. PIPA 민감 시 온프렘 Whisper large-v3 + pyannote 대안 가능.

출처: blog.rtzr.ai/korean-speechai-benchmark · github.com/rtzr/Awesome-Korean-Speech-Recognition · coval.ai · deepgram.com/learn · assemblyai.com · bitbytes.io ai-voice-agent-pricing

06 권장 아키텍처 (앱린다 적용안)

기술 제약(§3·§4)을 모두 우회하는 단일 CPaaS 기반 파이프라인. 통화녹음과 부재중 SMS가 같은 인프라를 공유한다.

📞 수신 통화 처리 플로우

☎️
가상번호 라우팅안심번호(050·1xxx) 또는 Twilio/Telnyx로 비즈니스 번호 수신 — OS 통화녹음 제약 회피
받으면 ↓ / 못받으면 → §부재중
🎙
서버 녹음 + 배치 STT리턴제로(한국어 전화망 CER 3.56%)로 화자분리(상담원-고객 2인) 전사
🧠
Gemini 맥락분석화자라벨 전사문 → 통화 요약 · 고객 니즈 · 딜 단계 · 다음 액션플랜 구조화 출력
📲
모바일 표시 + CRM 적재액션플랜을 모바일에서 즉시 확인 · 고객/딜 단위 파이프라인 누적 · 후속 시퀀스/리마인더 자동화

📵 부재중 처리 플로우

미응답 webhook가상번호 미응답 감지 → 발신번호·시각·상태를 서버로 전달
💬
커스텀 메시지 자동발송"현재 출장중입니다" 등 → 한국은 카카오 알림톡 + 대체문자, 글로벌은 SMS. 단말 권한 불필요

✅ 이 설계의 이점

① iOS·Android 동일 동작(단말 OS 제약 전면 회피) ② 통화녹음·부재중 SMS가 같은 CPaaS 인프라 공유 ③ 녹음 동의·번호발급 내장 ④ 팀 전원 통일 가능(통신사·제조사 락인 없음) ⑤ 한국어 전화망 최고 정확도(리턴제로) 확보.

07 앱린다 제품 시사점

1

직접 경쟁자 부재 = 명확한 공백

"한국 휴대폰 통화 캡처 + 한국어 STT + 영업 액션플랜/CRM"을 모두 충족하는 서비스는 전 세계에 없다. 국내 콜라보(Callabo)가 가장 근접하나 영업 파이프라인·자동화는 미완.

2

진짜 경쟁선은 회의록 앱이 아니다

클로바노트·뤼튼이 아니라 콜라보 + 통신사/제조사 다이얼러(에이닷·갤럭시AI·익시오)가 경쟁선. 단, 후자는 범용 요약기라 영업 도메인·CRM·파이프라인에서 차별화 여지가 크다.

3

기술 병목을 CPaaS로 정면 우회

iOS PSTN 자동녹음 불가는 모두의 공통 병목. VoIP/CPaaS 클라우드 브리지가 사실상 유일한 정공법이며, 부재중 SMS와 인프라를 공유해 두 핵심 기능을 한 번에 해결.

4

STT는 리턴제로 OpenAPI로 시작

한국어 전화망 정확도 1위(CER 3.56%)이자 RTZR OpenAPI로 즉시 도입 가능. PIPA 민감 고객용으로 온프렘 Whisper+pyannote 옵션 병행.

5

VITO 이탈 사용자 = 즉시 타깃

VITO가 콜센터 B2B로 선회하며 정체된 지금, 강호진 님 같은 영업 현장 사용자가 대안을 찾는 공백 구간. "영업 특화 + 활발한 업데이트"로 포지셔닝하면 초기 확보 가능.