📌 핵심 결론 5
- 휴대폰(PSTN) 통화를 앱이 직접 녹음하는 건 iOS·Android 모두 사실상 불가능. iOS는 통화 오디오 스트림을 한 번도 개방한 적이 없고, Android는 2022년 Accessibility 녹음 경로를 차단했다. 합법 녹음 주체는 OS 네이티브 다이얼러(애플·구글·삼성)와 통신사(에이닷)뿐.
- "통화 → 영업 액션플랜/CRM next step"을 제대로 하는 서비스는 국내에 콜라보(Callabo) 정도가 유일. 클로바노트·에이닷·갤럭시AI는 전부 범용 1건 요약에 머문다 → 명확한 차별화 공백.
- VITO(리턴제로)는 2026년 5월 유베이스에 인수되어 콜센터 B2B로 선회. 소비자 앱은 종료는 아니나 2025.2 이후 정체. 강호진 님 체감("업데이트 멈춤")이 사실로 확인됨.
- 부재중 자동 SMS는 iOS에서 단말 단독 불가, Android만 가능. 크로스플랫폼 정공법은 가상번호(Twilio·안심번호) 라우팅 후 서버 발송 — OS 제약 자체를 우회한다.
- 한국어 통화 STT는 리턴제로가 압도적 1위(전화망 CER 3.56%, 클로바 5.89%, Whisper 11%대). 글로벌 모델은 한국어 전화망에서 명백히 열위.
🎯 한 줄 전략
"한국 휴대폰 통화 캡처 + 한국어 STT + 영업 액션플랜/CRM"을 모두 충족하는 직접 경쟁자는 전 세계에 없다. 단, 기술 병목(PSTN 직접녹음 불가)을 어떻게 우회하느냐가 제품 성패를 가른다.
01 글로벌 영업 콜 AI · Revenue Intelligence
18개 서비스 전수 조사. 결정적 차이는 "무엇을 녹음하느냐" — 대부분 줌/미트/팀즈 화상회의 봇이거나 VoIP 다이얼러이며, 실제 휴대폰(셀룰러) 통화를 녹음하는 곳은 사실상 없다.
엔터프라이즈 Revenue Intelligence
| 서비스 | 포지셔닝 | 휴대폰녹음 | 녹음 경로 | 액션플랜 | CRM 자동정리 | 모바일 | 가격(2026) | 한국 |
|---|---|---|---|---|---|---|---|---|
| Gong | Revenue AI OS, 시장리더 | ✗ | Zoom/Teams/Meet+VoIP | O next-best action | 양방향 SF·HubSpot | iOS/Android, 데스크톱중심 | ~$3,300–4,000/석/년+α | 한국어 없음 |
| Chorus (ZoomInfo) | 대화 인텔리전스 | ✗ | 화상+연동 다이얼러 | O | SF 자동로깅 | 기능 제한 | 비공개 ~$1,200/석/년+ | 미지원 추정 |
| Clari Copilot | Revenue Platform · Salesloft 합병(25.12) | ✗ | 화상+외부 다이얼러 | O | SF·HubSpot·Pipedrive | 품질 최하(크래시) | ~$60–100/mo | 한국어 미확인 |
| Salesloft | AI Revenue Orchestration "Rhythm" | ✗ | 자체 VoIP+화상봇 | O Agent Tasks | 양방향 SF 98%+ | iOS 전용, 3.9/5 | ~$75–200+/mo | 다이얼러에 한국 미포함 |
| Outreach | Sales Execution, agentic | ✗ | 자체 Voice+화상 | O Deal Agent | SF 깊은 양방향 | 빈약 | ~$130–170/mo | 한국 텔레포니 없음 |
AI Notetaker (미팅 어시스턴트)
| 서비스 | 포지셔닝 | 휴대폰 | 대면 | STT/AI | 액션플랜 | 모바일 평가 | 가격(/user/mo) | 한국어 |
|---|---|---|---|---|---|---|---|---|
| Fireflies | AI 미팅 어시스턴트 (유니콘) | ✗ | O | Deepgram+Whisper+자체 | O 참가자별 | 불안정/크래시 | Free/$10/$19/$39 | 작동(1급 아님) |
| Otter.ai | AI 미팅 어시스턴트 | ✗ | O 강점 | 자체(비Whisper) | △ 탐지 약함 | 강력 4.0/4.3 | Free/$8.33/$19.99 | STT 없음 |
| Avoma | Meeting Lifecycle Assistant | ✗ | O 업로드 | 비공개, 60–75개어 | O Pain/NextStep | 재생 전용 | $19/$29+애드온 | STT O |
| Fathom | "노트 그만", 무료 중심 | ✗ | ✗ | 비공개, MCP | O Ask Fathom | 앱 없음(iOS 예정) | Free/$16/$15/$25 | STT O, 요약 제외 |
| tl;dv | Company-Wide Meeting Intel | ✗ | Lite | Whisper Large+Anthropic | O | 약함 iOS 1.8/5 | Free/$10–18/$30 | STT O |
| Read.ai | 미팅+생산성 코파일럿 | ✗ | O 앰비언트 | 비공개, Sales AGI | O sentiment | 강력 iOS 4.9/5 | Free/$19.75~$39.75 | 1급 추가 |
신흥·특수 도구 (전화녹음 관점 주목)
| 서비스 | 포지셔닝 | 전화녹음 | 특징 | 한국 |
|---|---|---|---|---|
| Krisp | Voice AI(소음제거+노트) | O 앱 발신(美만) | 대면+모든 콜앱, 96% 정확, 한국어 서버 STT O | 사용가능 한국 셀룰러 발신녹음만 미지원 |
| Nooks | Outbound 다이얼러+CI | O 자체 PSTN | AI Prospector, 실시간 disposition, 웹 전용 | 한국 발신 가능(분당과금), STT 미확인 |
| Rilla | 현장/대면 영업 코칭 (~$70M ARR) | ✗ | 종일 주머니 녹음, Rilla Live 실시간 코칭, 모바일 우선 | 美 한정, 한국어 미지원 |
| Granola | bot-free AI 노트 ($1.5B) | △ 스피커폰 | Mac+iOS, Android 없음, 폰콜 노트(iOS) | 사용가능, 한국어 미문서화 |
| Superhuman | AI 이메일 클라이언트 | ✗ | 오디오 없음, 이메일 기반 팔로업, Grammarly 인수 | 이메일 AI 사용가능 |
출처: gong.io · zoominfo.com/products/chorus · clari.com · salesloft.com · outreach.ai · fireflies.ai · otter.ai · avoma.com · tldv.io · read.ai · nooks.ai · rilla.com · granola.ai · krisp.ai
02 국내 STT · 영업 AI · 통화요약
14개 조사. 실제 휴대폰 통화를 자체 캡처해 STT 하는 앱은 통신사(에이닷)·제조사(갤럭시·애플)뿐이며, 나머지는 OS가 만든 녹음 파일을 사후 업로드/접근하는 우회 구조다. 영업 next-step·CRM 연동은 콜라보가 유일.
| 서비스 | 회사 / 포지셔닝 | PSTN 통화 STT | 영업/액션 특화 | 모델 | 가격 | 25~26 현황 |
|---|---|---|---|---|---|---|
| VITO(비토) | 리턴제로 / 통화녹음 STT B2C | △ OS 녹음파일 STT (Android 중심) | ✗ 4분류+요약만 | 자체 sommers + LLM | 무료+멤버십 | 정체 26.5 유베이스 인수, B2B 선회 |
| 콜라보(Callabo) | 리턴제로 / B2B AI회의록·영업콜 | △ Call Catcher(Android OS녹음 자동업로드) | O 강함 SF·HubSpot·Pipedrive, 액션아이템 | VITO STT + sLM | iOS/Android+크롬+CRM | 활발 직접경쟁 최유력 |
| 클로바노트 | 네이버클라우드 / 회의록 1위 | ✗ 파일 업로드만 | △ 범용 실행항목 | CLOVA Speech + HyperCLOVA X | 무료 월300분, 기업 2만/인 | 활발 164만 |
| 다글로(Daglo) | 액션파워 / 받아쓰기+AICC | ✗ B2C / B2B는 API | △ 영업미팅 템플릿 | 자체 E2E STT + 멀티LLM | Pro 11,900~Premium 16,580 | 매우 활발 26.3 시리즈B 60억 |
| SKT 에이닷(A.) | SKT / A.전화 통화요약 | O A.전화 앱 경유만 | ✗ 범용(일정·할일 추출은 O) | 자체 A.X LLM | SKT 전용 무료, 요약 월30회 캡 | 활발 MAU 1,120만 |
| 삼성 갤럭시AI | 삼성 / OS 통화요약 | O 네이티브 PSTN 직접 전사·요약 | ✗ 순수 OS 기능 | 온디바이스+Google Gemini | 갤럭시 전용 | 활발 26.1 기본 무료 확정 |
| 애플(참고) | Apple / iOS 26 통화녹음 | O 네이티브 (한국어 전사 지원) | ✗ | Apple Intelligence 온디바이스 | iPhone 12+ | 활발 |
| 소보로 | 소리를보는통로 / 실시간 자막 | ✗ 파일 업로드 | ✗ | 외부 STT + 속기사 검수 | 월 9,900 | 정체 |
| 카카오 음성 | 카카오 / 카나나 통화요약 | △ 보이스톡(VoIP) 위주 | ✗ | 카나나 자체(온디바이스) | 카톡 내장 추정 | 활발 25.9 출시 |
| 클로바X | 네이버 / 한국어 챗봇 | ✗ | ✗ | HyperCLOVA X | 무료 | 26.4.9 종료→검색 흡수 |
🔍 VITO 사실확인
2026년 5월 26일 BPO 대기업 유베이스가 리턴제로를 인수(금액 비공개). 회사 무게중심이 콜센터 AICC/아웃바운드로 이동. 공식 종료 공지는 없으나 마지막 메이저 업데이트가 2025.2(LLM 통화요약) 이후로 소비자 앱은 정체. "종료"가 아닌 "전략 우선순위 이탈에 따른 정체"가 정확. 자체 STT 엔진(sommers)은 RTZR OpenAPI로 B2B 판매 중 — 앱은 쇼케이스, 엔진이 본체.
⚠️ 통신사·제조사 통화요약이 영업비서를 대체할까? → 불가, 보완재
에이닷·갤럭시AI·애플은 모두 "통화 1건의 범용 요약기"에 머문다. ① 영업 도메인 추론(딜 단계·이의제기·next step) ② CRM 양방향 연동 ③ 파이프라인 누적 관리 ④ 후속 자동화(시퀀스·리마인더)를 전부 결여. 게다가 에이닷=SKT·갤럭시AI=삼성·애플=iOS 전용이라 영업팀 전원 통일 불가. 단발 요약의 상류 입력기로는 유용.
출처: aitimes.kr/40213 · platum.kr/287703 · developers.rtzr.ai · vito.ai · clova.ai
03 통화녹음 기술 제약 — 가장 중요한 병목
서드파티 영업비서 앱이 휴대폰(PSTN) 통화를 직접 녹음하는 것은 iOS·Android 양쪽 모두 현실적으로 불가능하다. 이 제약을 어떻게 우회하느냐가 제품 설계의 출발점이다.
🍎 iOS (18.1 ~ 26)
- 네이티브 녹음 — iOS 18.1+ Phone앱 내장, Notes 저장 + Apple Intelligence 요약(iPhone 12+). 한국어 전사 공식 지원
- 서드파티 PSTN 녹음 — 불가 통화 오디오 스트림을 앱에 개방한 적 없음
- CallKit — 시스템 통화 UI 통합·기본 전화앱 지정은 가능하나 오디오 buffer 접근은 불가
- 녹음 고지음 강제 — 양측에 자동 안내음, 비활성화 불가
🤖 Android (10 ~ 16)
- Accessibility 녹음 — 2022년 차단, Play 정책상 통화녹음 목적 사용 금지
- 네이티브 녹음 — Google Phone앱(비-Pixel도 25.11 확대), 삼성 등 OEM 다이얼러 — 지역 한정
- 서드파티 앱 — Play 밖 사이드로드 또는 root만 우회 가능, 정식 배포 불가
- 통신사 차단 — 캐리어가 OS와 무관하게 끌 수 있음 + 고지음 강제
현실적 우회법 4가지
| 우회법 | 품질 | 실현성 | 비고 |
|---|---|---|---|
| 네이티브 녹음 파일 → 사용자가 export → 앱 업로드 | 高 | △ | 합법·고품질이나 자동화 불가, UX 마찰 |
| 스피커폰 + 제2기기 녹음 | 低 | △ | 에코·잡음으로 STT 정확도 급락 |
| VoIP 전환 (앱이 발신을 자체 VoIP로 라우팅) | 高 | ◎ | 앱 안에서 통화 → 오디오 합법 접근. 2026 영업비서 앱의 정석 |
| CPaaS 클라우드 브리지 (Twilio·Telnyx) | 高 | ◎ | 통화를 클라우드 PSTN으로 브리지 → 서버 녹음·실시간 STT. 번호발급·동의처리 내장 |
💡 제1원리적 결론
"기기 위 PSTN 직접 녹음"은 포기하고, VoIP/CPaaS로 통화를 클라우드 브리지해 서버단에서 녹음+스트리밍 STT 하는 것이 정공법. iOS·Android 동일 동작 + 단말 권한 불필요 + 녹음 동의 처리 내장.
출처: recapmycalls.com · support.apple.com/en-us/121583 · developer.apple.com/videos/wwdc2025/277 · rokform.com · hackernoon.com call-recorder-banned
04 부재중 → 발신자 자동 SMS
Android는 단말에서 직접 가능, iOS는 단말 단독 불가능. 상용 솔루션은 전부 "단말 자동발송"이 아니라 "통화를 서버로 라우팅 후 서버가 SMS 발송"하는 구조라 OS 제약과 무관하게 동작한다.
📱 OS 네이티브 가능성
- iOS — Driving Focus 자동회신만 존재(발신자가 문자를 보내야 회신, 전화만 와선 안 됨). 서드파티 앱의 부재중 자동 SMS는 불가
- iOS 제약 근거 — 샌드박스가 통화상태 백그라운드 감시 차단 + MessageUI는 반드시 사용자가 직접 '보내기' 탭 필요(자동발송 API 부재, Apple 의도적 미제공)
- Android — 서드파티 앱이 가능:
PhoneStateListener로 부재중 감지 →SmsManager.sendTextMessage()로 발신번호에 자동 발송 - Android 필요권한 — SEND_SMS(런타임), READ_PHONE_STATE, 배터리 최적화 예외(Doze 방지). 단 Play 심사 까다로움
☁️ 서버 경유 = OS 제약 회피 (권장)
- Twilio — 가상번호 라우팅 → no-answer webhook → 서버가 SMS. 가장 유연한 빌딩블록
- GoHighLevel / Podium — Missed Call Text-Back 내장 자동화(노코드)
- 한국 — 카카오 알림톡 — 정보성 메시지 + 발송 실패 시 자동 문자 대체발송. "부재중 안내" 구현 가능(기업회원·템플릿 심사)
- 한국 — 안심번호(050·1xxx) — 가상번호로 받아 미응답 시 서버 발송, 단말 권한 불필요
🏗 권장 크로스플랫폼 아키텍처
비즈니스 번호를 가상번호(Twilio / 한국 안심번호)로 받아, 미응답 webhook → 서버에서 발신자에게 SMS(또는 한국은 알림톡+대체문자). iOS·Android 동일하게 동작하고 단말 권한도 불필요 — 통화녹음 우회(§3)와 같은 CPaaS 인프라를 공유한다.
출처: developer.apple.com/forums/thread/763423 · support.apple.com/en-us/108384 · support.google.com/phoneapp · twilio.com/docs/studio · kakaobusiness.gitbook.io
05 STT 모델 비교 (2026)
한국어는 WER보다 CER이 적합한 지표. 저음질 전화망에서 리턴제로가 압도적이며, 글로벌 모델은 한국어 전화망에서 명백히 열위다.
🇰🇷 한국어 (CER 기준)
| 순위 | 엔진 | 평균 CER | 전화망 CER |
|---|---|---|---|
| 1 | 리턴제로 | 6.18% | 3.56% |
| 2 | 리턴제로 Whisper | 7.79% | 5.44% |
| 3 | Naver Clova | 9.52% | 5.89% |
| 4 | ETRI | 10.19% | — |
| 5 | Google STT v2 | 11.50% | — |
| 6 | OpenAI Whisper | 11.39% | — |
🌐 글로벌 (영어 WER 기준)
| 모델 | WER | 실시간 | 가격(배치) |
|---|---|---|---|
| Deepgram Nova-3 | 5.26% | ◎ | $0.0043/min |
| AssemblyAI Universal-3 | 5.6% | ◎ | ~$0.37/hr |
| gpt-4o-transcribe | ~8.9% | ◎ | $0.36/hr |
| Whisper large-v3 | 오픈 | △ | 셀프호스팅 |
| ElevenLabs Scribe v2 | 다국어 1위 | ◎ | $0.22~0.48/hr |
파이프라인 베스트프랙티스 — "녹음 → STT → Gemini → 액션플랜"
| 결정축 | 권장 | 근거 |
|---|---|---|
| 실시간 vs 배치 | 영업통화 정리는 사후 배치 | 실시간은 50~80% 비싸고, 액션플랜은 통화 종료 후 생성으로 충분. 실시간은 라이브 코칭 때만 |
| STT 엔진 | 한국어=리턴제로 배치 / 글로벌=Deepgram·AssemblyAI | STT는 전체 통화비용의 3~8%로 최저 비중 — 정확도 우선 |
| 화자분리 | 2인(상담원-고객), 배치가 안정적 | 스트리밍은 lookahead 불가로 초반 턴 불안정. 영업통화는 2인이라 배치로 충분 |
| LLM 맥락분석 | 화자라벨 포함 전사문 + 구조화 프롬프트를 Gemini에 | 화자분리된 텍스트가 요약·액션추출 품질을 좌우 |
| 비용 모델링 | 음성에이전트 풀스택 $0.12~0.25/min | diarization·감정·PII는 add-on(기본가 2배 가능). 총원가로 비교 |
⚖️ 컴플라이언스 참고
한국 통신비밀보호법상 일방 당사자 녹음은 합법이나, 글로벌(양자동의 관할)·OS 녹음 고지음 강제를 고려해야 함. PIPA 민감 시 온프렘 Whisper large-v3 + pyannote 대안 가능.
출처: blog.rtzr.ai/korean-speechai-benchmark · github.com/rtzr/Awesome-Korean-Speech-Recognition · coval.ai · deepgram.com/learn · assemblyai.com · bitbytes.io ai-voice-agent-pricing
06 권장 아키텍처 (앱린다 적용안)
기술 제약(§3·§4)을 모두 우회하는 단일 CPaaS 기반 파이프라인. 통화녹음과 부재중 SMS가 같은 인프라를 공유한다.
📞 수신 통화 처리 플로우
📵 부재중 처리 플로우
✅ 이 설계의 이점
① iOS·Android 동일 동작(단말 OS 제약 전면 회피) ② 통화녹음·부재중 SMS가 같은 CPaaS 인프라 공유 ③ 녹음 동의·번호발급 내장 ④ 팀 전원 통일 가능(통신사·제조사 락인 없음) ⑤ 한국어 전화망 최고 정확도(리턴제로) 확보.
07 앱린다 제품 시사점
직접 경쟁자 부재 = 명확한 공백
"한국 휴대폰 통화 캡처 + 한국어 STT + 영업 액션플랜/CRM"을 모두 충족하는 서비스는 전 세계에 없다. 국내 콜라보(Callabo)가 가장 근접하나 영업 파이프라인·자동화는 미완.
진짜 경쟁선은 회의록 앱이 아니다
클로바노트·뤼튼이 아니라 콜라보 + 통신사/제조사 다이얼러(에이닷·갤럭시AI·익시오)가 경쟁선. 단, 후자는 범용 요약기라 영업 도메인·CRM·파이프라인에서 차별화 여지가 크다.
기술 병목을 CPaaS로 정면 우회
iOS PSTN 자동녹음 불가는 모두의 공통 병목. VoIP/CPaaS 클라우드 브리지가 사실상 유일한 정공법이며, 부재중 SMS와 인프라를 공유해 두 핵심 기능을 한 번에 해결.
STT는 리턴제로 OpenAPI로 시작
한국어 전화망 정확도 1위(CER 3.56%)이자 RTZR OpenAPI로 즉시 도입 가능. PIPA 민감 고객용으로 온프렘 Whisper+pyannote 옵션 병행.
VITO 이탈 사용자 = 즉시 타깃
VITO가 콜센터 B2B로 선회하며 정체된 지금, 강호진 님 같은 영업 현장 사용자가 대안을 찾는 공백 구간. "영업 특화 + 활발한 업데이트"로 포지셔닝하면 초기 확보 가능.