본문 바로가기

하루 한 권

하루 한 권_보이스 캐처[조셉 터로우]

728x90

“서비스 품질 향상을 위해 통화 내용은 녹음 되며···” 너무나 익숙한 안내 멘트다. 어느 곳이든 고객 센터에 전화하면 늘 듣는 말이기 때문이다. 이 안내에 대해 좀 더 생각해보자. 서비스 품질 향상이라는 두루뭉술한 표현은 과연 무엇을 내포하고 있는가? 우리의 목소리가 이렇게 어디에나 녹음되고 이용되는 것이 괜찮은 걸까? 기억도 나지 않는 수많은 기업의 고객 센터에 남겨진 나의 음성 데이터는 지금 어디에, 어떻게 쓰이고 있을까?

 

“우리는 어디에나 알렉사가 있는 세상을 꿈꾼다” 2018년, 아마존의 한 간부가 했던 말은 음성 AI 산업의 전략을 보여준다. 거대 테크 기업들은 아마존의 알렉사, 구글의 구글 어시스턴트, 애플의 시리 등과 같은 음성 비서가 당신의 업무를 빠르게 처리하도록 보조하고, 각종 편의 서비스를 제공할 수 있도록 했다. 그리고 음성 비서를 음성인식 기기에 탑재해 우리 주변에 자리 잡게 했으며, 현재의 우리 일상에까지 깊숙이 파고들게 했다. 우리는 아마존의 간부가 꿈꾸던 편리한 세상에서 살고 있다. 기업은 편리한 세상을 누리기 위해서는 입장권이 필요하다고 말하는데, 우리의 음성 데이터가 바로 그 입장권인 셈이다. 음성 데이터에는 무수한 개인정보가 담겨 있다.

 

콜센터는 발신자의 음성에서 그 사람의 감정, 성격을 추론해서 대응할 수 있다고 여기며, 과학자들은 음성으로 그 사람이 앓는 질병부터 체중, 신장, 나이, 인종, 나아가 교육과 소득 수준까지 식별해낸다고 믿는다. 이 상세한 개인정보들은 기업의 다양한 비즈니스에 확실히 도움이 된다. 그렇기에 기업들은 당신의 음성 데이터를 절실히 원한다. 아마존, 구글, 애플과 같은 해외 기업에만 한정되는 이야기가 아니다. 국내에서도 일찍이 삼성의 빅스비가 이 작업을 착실히 수행해 왔고, 최근 KT는 메르세데스 벤츠, SKT는 BMW와 음성인식 사업의 협업을 예고하기도 했다.

 

《보이스 캐처》는 음성 AI 산업을 주제로, 음성인식의 탄생과 확산 그리고 그를 위한 거대 테크 기업들의 전략과 속임수까지 치열한 비즈니스 경쟁 현황을 다룬다. 책에는 펜실베니아 대학교의 교수인 저자가 직접 취재하고 모은 아마존, 구글, 애플 등 거대 테크 기업들의 관계자 인터뷰와 사례들이 풍부하게 소개됐다. 음성 AI 산업의 전략과 이를 가능케 하는 산업 구조를 읽다 보면, AI 시대의 음성 비즈니스 산업이 어디까지 왔고 앞으로는 어떻게 발전해 나갈 것인지 알 수 있을 것이다.


작가소개 조셉 터로우

미국 펜실베이니아 대학교의 교수로 《Media Today: Mass Communication in a Converging World》, 《The Aisles Have Eyes: How Retailers Track Your Shopping, Strip Your Privacy, Define Your Power》 등 매스미디어 산업에 관한 여러 권의 저서와 160편 이상 의 논문으로 커뮤니케이션 학계에 널리 알려져 있다. 《뉴욕 타임스》, 《디 애틀랜틱》, 《보스턴 글로브》 등 신문과 잡지를 통해 미디어 에 대해 활발한 기고 활동을 하고, 옥스퍼드 대학교로부터 Lady Astor Lectureship을 받는 등 언론과 학계의 주목을 받아왔다. 국제 커뮤니케이션학회 매스커뮤니케이션 분과위원장을 역임하기도 했다.

지난 수십 년간 주요 산업은 개인화를 발판으로 성장해왔다고 할 수 있다. 결국에는 마케팅 활동의 모든 것이 개인화를 중심으로 재편되어야 한다는 얘기다. 특히 디지털 상품 판매 그리고 고객 경험을 중요하게 생각하는 기업의 리더들이 가장 중요하게 생각하는 것은 바로 개인화 시장이다.

 

컨설팅 기업 가트너는 개인화 시장의 개념을 다음과 같이 정의하고 있다. “단순한 전통적인 시장 세분화 범주를 넘어 개인이 어떤 순간에 어디에 있는지, 다른 물건과 함께 사고 싶은 물건이 무엇인지, 좋아하는 브랜드, 자주 참여하는 이벤트, 가장 좋아하는 판매처 그리고 가장 많이 쓰는 물건이 무엇인지를 알아내는 것이 바로 개인화다.” 개인화 시장을 이끌 수 있는 가장 중요한 도구로 생각되었던 것은 바로 데이터 과학이다.

 

데이터 과학은 시장 세분화 개념을 통째로 뒤흔든다고 하기도 했다. 하지만 여기에는 문제가 작지 않았다. 기업이 수집한 사람들에 대한 데이터는 사실과 완전히 동떨어질 때 가 많았고 수집한 데이터에는 최신 정보가 포함되어 있지 않거나 때로는 그 자료가 한 사람의 데이터가 아닌 스마트기기를 공유하 는 여러 사용자의 자료가 한데 섞인 것일 수도 있었기 때문에 그 데이터에는 한계가 있었다.

 

게다가 어도비가 실시한 연구에 따르면 웹사이트 광고 트래픽의 28%는 클릭 사기였고 인터넷 사용자의 25% 정도는 광고를 차단하고 있었다. 상황이 이렇다보니 소비자는 자신들에게 접촉하는 기업을 별로 좋아하지 않는 수준까지 이르게 된 것이다. 하지만 이 분야에 드디어 음성인식이 등장하고 있다.

이 문제는 2019년부터 본격적으로 회자된 것으로 보인다. 2024년까지 인공지능은 개개인의 감정을 식별하는 알고리즘을 완성하고 온라인 광고에 영향을 줄 수 있다는 것은 통설로 자리잡은 상태다. 여기에 가장 선두에 있는 기업은 바로 아마존과 구글 그리고 애플이다.

 

이들 기업은 음성인식과 인공감성지능을 결합했고 사람들의 감정 상태를 추적할 수 있다고 말한다. 일부 연구에 따르면 음성인식은 개인이 선택한 단어, 단어와 단어 사이를 잇는 체계적 관계만이 아니라 음성으로 드러날 수밖에 없는 생리학적 특징까지 측정해 데이터화할 수 있다고 한다.

 

그리고 기업 규모가 크든 작든 모두가 개인화의 다음 단계를 만드는데 혈안이 되어 있는 상태이고 고객의 음성을 채집하는데 새로운 계획을 만들고 있다. 음성 산업이라고 하면 먼저 떠오르는 것이 바로 콜센터다. 첨단 기업들이 시작하고 있는 음성 산업은 원래 발화점이 바로 콜센터 사업이기 때문이다.

 

콜센터라는 이름을 가진 고객센터는 100년 전 부터 운영되어왔다. 콜센터는 대형 백화점이 최초로 만들었는데, 처음엔 거대한 전화 교환실에 불과했다. 1915년에는 한 백화점이 만든 콜센터가 가장 큰 전화 교환국이 되기도 했고, 이때 2000명 이 넘는 교환원이 180만 건의 통화 연결을 하기도 했다. 그리고 전화 기업인 AT&T는 매일 수백 건의 고객 상담 통화를 하기도 했다. 그러다가 고객 전화를 다루는 기업들이 하나둘 생겨났고 1960년 에 이르러서야 현대의 콜센터 고객 응대 방식이 만들어지게 된 것 이다.

 

그때부터 콜센터는 무엇을 해야 하는지를 깨닫게 된다. 즉 콜센터 기업들은 고객 데이터를 훨씬 더 많이 알아내는 쪽으로 발전하기 시작한 것이다. 그리고 컴퓨터가 발달하면서 개별 고객의 데이터 베이스를 구축하기 위해 데이터를 구매하기 시작했다. 발신자에 대해 더 많은 이해를 하기 위해서였다.

 

그런데 문제는 기업의 인건비가 올라가기 시작했고 고객은 상담원들에게 더 어려운 질문을 하기 시작했기 때문에 현실의 문제를 극복하기는 매우 어려웠다. 이때 선진국의 기업들이 선택한 것은 인건비가 낮은 나라에 콜센터를 옮기는 것이었다. 가령 미국의 콜센터가 인도에 위치하는 경우 등이었는데, 하지만 자본 유출의 문제 그리고 위탁 콜센터에서 사기 및 범죄가 발생하면서 이또한 철수하게 된다.

최근 들어서 마케팅 종사자 다수는 인간은 관계를 원하지만 꼭 진짜 사람과의 관계를 기대하는 것은 아니라고 믿게 됐다. 음성 만들기, 음성인식 그리고 기계 학습은 기업이 새로운 인공지능 콜센터를 만들어낼 수 있고 개인화된 메시지를 보낼 수 있다는 것을 알게 된 것이다.

 

그러나 이 문제가 단순히 비용을 줄이기 위해서 그렇게 한 것은 아니다. 이때 등장한 기업이 바로 아마존, 구글, 애플, 마이크로소프트이고, 이들은 음성 인식으로 미래를 바꿀 수 있다는 데 사활을 걸기 시작했다. 가장 중요한 것은 경쟁 우위 때문에, 다음으로 고객을 감시하고픈 욕망 때문에 기업들은 개인화 시장을 열겠다고 한 것이다. 그리고 이 모든 사업 추진의 최전방에 있는 도구가 있었는데, 그것이 바로 음성 비서라는 것이다.

 

음성 비서 프로그램을 제공하는 대표적인 회사가 있다. 첫 번째 애플이다. 애플이 만든 시리는 대중과 공개적으로 소통한 첫 번째 음성 비서 프로그램이라고 할 수 있다. 사람들은 일상에서 시리를 마주하게 되는 순간들이 신기했고 친근하다고 생각했기 때문에 별다른 거부반응 없이 받아들였다.

 

하지만 그것은 음성인식과 개인화된 데이터 수집이 만나는 마케팅 세상에 저항없이 걸어들어간 셈이다. 두 번째 아마존이 있다. 애플의 시리에 자극을 받아 아마존은 2014년에 알렉사를 출시하게 되는데, 아마존은 고객 데이터를 확보하기 위해 파이어폰을 만들고 거기에 알렉사를 탑재했다. 안타깝게도 파이어폰은 대대적으로 실패한 사례로 기록되고 말았다.

 

하지만 아마존은 에코라고 불리는 AI스피커를 출시하면서 음성 데이터를 수집하는 것으로 선회했다. 가격을 낮춰서 출시했기 때문에 초반부터 시장을 장악하기 시작할 수 있었다.

 

세 번째 구글이다. 아마존이 만든 AI 스피커가 시장을 강타하자 이번에는 구글이 뛰어든 것이다. 아마존 에코가 출시된지 정확히 2년 후에 출시했다. 하지만 구글의 전략은 AI 스피커보다는 전세계에 공급된 안드로이드 기반의 스마트폰들인 것이다. 즉 구글이 꿈꾸는 음성 기업의 미래는 스마트폰과 태블릿에서 실현될 것이라고 믿고 있다는 것이다.

 

네 번째는 마이크로소프트다. 마이크로소프트는 2014년부터 코타나로 음성 비서 경쟁에 뛰어들었다. 목표는 마이크로소프트폰 과 함께 미래의 윈도우 운영 시스템에 포함하는 것이라고 한다. 네 개 기업의 전략은 조금씩 다르다. 구글은 음성을 새로은 인터넷 검색 방법으로 보고 있는 것이고, 애플은 수익 추구가 명백한 광고를 하는게 아니라 모든 기기들을 연결하는 매개체로 목소리를 선택했다. 반면 마이크로소프트는 음성 비서 경쟁에서는 빠져있고 대신 코타나를 이용해 업무 스케줄 관리와 업무 전화에 주로 사용하는 비서라고 소개하고 있다.

 

그리고 아마존은 알렉사로 자사와 타사의 상품을 판매하는 것이 목표라고 한다. 음성 데이터가 얼마나 강력한지를 살펴보자. 음성인식 연구자들은 음성으로 사람을 파악할 수 있다고 말 한다. 그 사람의 신원정보는 물론이고 체형이나 나이, 계층, 특정 질병, 특별한 감정 상태 그리고 성격까 지도 알아낼 수 있다는 것이다. 그래서 최근 음성인식 분야에서는 음성지문이라는 용어가 사용되고 있 다.

 

개인마다 목소리가 다르기 때문에 목소리로 모든 것을 파악할 수 있다는 것이다. 그리고 연구자들은 음성만이 아니라 말 내용으로 패턴을 이해하는 법 을 이미 개발한 상태이고 심지어 때와 장소에 어울리는 음성과 말로 인간을 설득할 수 있는 알고리즘이 이미 개발되어 있다. 사실 그동안 기업들이 모아왔던 데이터는 그렇게 실효성이 없었던 것으로 보인다. 그런 데이터로 사업적 통찰에 이르기는 어려웠다는 것이다.

하지만 음성인식은 분명히 다른 차원으로 비즈니스를 이동시키고 있다. 예컨대, 어떤 보험회사는 구글에서 저렴한 자동차 보험을 검색한 사람이 전화를 걸어오면 고객센터는 그 발신자에게 즉시 응답하고 고객으로 만들기 위한 노력을 적극적으로 할 수 있다는 것이다. 특히 상품 권유를 언제해야 할지, 어떤 말투로 해야 할지 등도 정확하게 제시될 수 있다. 최근 포레스터는 한 보고서에서 음성은 미개척 금광이라고 언급했고 통화 중인 고객은 자신이 누군지, 뭘 원하는지, 기업과의 경험에 대해 어떻게 생각하 는지에 대한 고품질 데이터를 전달해준다고 했다.

 

하지만 음성기업들은 상당히 애매한 입장을 취하고 있다. 스마트폰과 AI 스피커로 음성을 새로운 통로로 수집 활용하는 노력을 한창하고 있고 음성과 관련한 기술특허를 끊임없이 쏟아내고 있다. 그럼에도 불구하고 애플과 구글 그리고 아마존은 음성을 수집해 이윤을 추구하는 행위는 하지 않고 있다고 말한다.

 

예컨대 아마존은 “음성 기록 등 데이터를 활용해 사용자 경험과 자사 서비스를 향상시킨다”라고만 적시하고 있다. 하지만 아마존 에코 기기 사용약관에 들어가보면 “음성을 이용해 사용자를 식별하고 서비스를 개인화하도록 돕는다” 라고 되어 있다. 사실 아마존이 가장 솔직하게 표현한 것이다. 이처럼 대부분의 기업들은 자신들이 하고 있는 가장 깊숙한 곳에 숨겨놓는 경우가 많은데 그럼에도 불구하고 그들이 제출한 특허를 보면 이미 이들 기업은 음성인식을 기반으로 새로운 마케팅을 할 것으로 보인다.

 

한편 이런 상황을 지켜보는 미디어의 반응은 어떨까. 거대기업들이 음성인식으로 만드는 세상이 좋은지 나쁜지를 판단하기 전에 이미 미디어들은 테크기업들의 움직임을 찬양하기 바쁘다. 즉 미디어들은 음성인식 기기가 가진 타당성과 정당성을 이미 강화하고 있고 우리가 신뢰하든 말든 어차피 이것은 영원히 우리 곁에 있게 될 것이라고 믿게 만들어 이른바 사람들로 하여금 체념하게 만든다.

 

특히 스마트폰을 사용하는 사람들이라면 자신의 목소리를 넘겨줘야 하는 건 당연한 일로 치부하고 있다는 것이다. 그렇기 때문에 음성인식 기술과 관련한 중요한 사건이 가끔 일어나지만 언론은 침묵하고 있다. 앞으로의 세상은 아마도 테크기업들은 음성인식을 이용해 각 개인을 파악하고 개별적인 제안을 할 수 있을 것으로 보인다. 시장세 분화라는 말은 아마도 무색해질지도 모른다.

하지만 미국에서조차 관련 법규는 마련되어 있지 않다. 일각의 주장에 따르면 음성 마케팅의 데이터 세계는 본질적으로 불법이고 미 연방거래위원회 차원에서 불법화할 수 있다는 주장도 있다. 그러나 아직 이 업계가 너무 초기 단계이고 기업들은 현재 음성 프로파일링을 향해 빠르게 움직이고 있는 것은 맞다. 그리고 그들에겐 기술도 있고 특허도 있기 때문이다.

 

한줄평

"AI스피커, 음성 비서를 통해 음성으로 주문과 결제까지 해결할 수 있다면?"

728x90