본문 바로가기

하루 한 권

하루 한 권_모두 거짓말을 한다[세스 스티븐스 다비도위츠]

728x90

선정이유

시원시원하게 읽히면서도 참신한 정보를 쏠쏠하게 제공해주는 전형적인 미국발 사회과학책.
다루는 주제는 인구에 회자된지 오래되었지만

때로는 천사의 목소리로, 때로는 악마의 속삭임으로 극과 극의 모습을 오가며 소개되는 '빅데이터'
풍부한 사례를 제공하며 책장을 넘기다 보면 자연스럽게 빅데이터가 무엇인지, 

이것을 가지고 어떤 일을 할 수 있는지 스케치를 그려보자

작가소개 세스 스티븐스 다비도위츠

전 세계가 주목하는 데이터 과학자이자 《뉴욕타임스》 칼럼니스트. 하버드대학교 경제학과 박사과정에 있으면서 특정 검색어의 추세를 보여주는 ‘구글 트렌드’를 연구해 ‘흑인 후보가 인종 때문에 손해 본 표는 얼마나 되는지’를 밝혀냈다. 실제로 버락 오바마는 노골적인 인종주의만으로 4퍼센트의 유권자를 잃었는데, 스스로 자신이 인종주의자라고 말하는 유권자는 거의 없었기에 여론조사 전문기관도 알지 못했던 사실이었다. 미국에 인종주의자가 이렇게나 많다는 사실은 받아들여지기 어려웠지만, 이 연구는 나중에 도널드 트럼프의 지지층이 누구인지 설명하는 자료가 되면서 더 큰 신뢰를 얻게 된다. 스티븐스 다비도위츠는 검색어를 통해 사람들의 숨은 생각을 읽어내면서 단숨에 학계의 슈퍼루키로 떠올랐다. 그는 구글에서 데이터 과학자로 일했고 와튼경영대학원에서 학 생들을 가르쳤으며, 지금은 《뉴욕타임스》에 검색창 속에 담긴 사람들의 솔직한 욕망에 관해 칼럼을 쓴다.

 

3분요약

사람들은 자주 거짓말을 한다. 의사, 친구, 연인, 설문조사원은 물론 자기 자신에게도 거짓말을 한다. 기업 엔지니어의 40퍼센트 이상이 자신의 실력이 상위 5퍼센트에 든다고 말하고, 대학교수의 90퍼센트 이상은 자신이 평균 이상의 성과를 내고 있다고 말한다. 고등학교 졸업생의 4분의 1은 자신의 사교성이 상위 1퍼센트에 든다고 생각한다. 이렇게 사람들의 보고가 부정확한데도 사회과학 연구의 많은 부분이 여기에 의존한다. 그렇다면 사람들의 진솔한 생각은 어디에서 알 수 있을까?

 

바로 구글과 같은 검색엔진이다. 구글 검색이 그토록 귀중한 이유는 데이터가 많아서가 아니다. 사람들이 솔직한 생각을 내놓기 때문이다. 사람들은 다른 사람에게는 하지 않을 이야기를 구글, 네이버, 다음과 같은 거대 검색엔진에는 한다. 겉으로 드러나지 않을수록 밝혀지는 것도 많은데 그 대표적인 주제가 성생활이다. 구글에 드러난 결혼생활의 가장 큰 불만이 뭔지 알고 있는가? 섹스를 하지 않는 것이다. ‘섹스 없는 결혼생활’이 ‘불행한 결혼생활’보다 3.5 배 많이 검색되고 ‘사랑 없는 결혼생활’보다 8배 많이 검색된다.

 

그리고 대화하지 않는 배우자에 대한 불만보다 성관계를 원하지 않는 배우자에 대한 불만이 16배 많다. 결혼하지 않은 커플도 마찬가지다. 문자메시지에 답을 하지 않는 애인보다 성관계를 원하지 않는 애인에 대한 불만이 5.5배 많다. 그리고 그 불만은 놀랍게도 남자친구보다 여자친구 쪽에서 두 배 많다. 구글에는 ‘게이 포르노’와 ‘게이 테스트’를 번갈아 검색하는 성정체성에 혼란을 보이는 사람들도 포착된다. 모두 전통적인 설문조사에서는 감춰져 있던 모습이다.

 

* 남성 중 동성애자는 얼마나 많은가?

* 어떤 사람이 탈세를 하는가?

* 두 번째 데이트를 하려면 첫 번째 데이트에서 어떤 이야기가 오가야 하는가?

* 부모는 아들과 딸을 어떻게 차별하는가?

* 사는 곳에 따라 수명이 달라지는가?

* 광고는 효과가 있는가?

 

1. 새로운 유형의 데이터를 제공한다

빅데이터 시대가 되면서 우리는 기본적인 질문을 놓치고 있다. 즉, 우리는 일단 많아야 한다고 생각하고 있다. 빅데이터 혁명의 시대라면 당연히 그렇게 해야할 것 같다. 그러나 그것은 본질이 아닐 수도 있다. 많은 것이 문제가 아니라, 적절한 데이터를 찾는 것이 더 중요한 문제라는 것이다.

 

대표적인 사례를 살펴보자. 골드만삭스를 비롯한 금융기관이 시장의 변동을 예측하기 위해 가장 중요하게 생각하는 데이터가 있다. 바로 월간 실업률이다. 하지만, 이 실업률이 어느 정도인지 파악하기 위해서는 정부의 조사가 끝나고 3주나 기다려야 한다. 그렇다면 금융기관들은 이 문제를 어떻게 해결했을까? 바로 구글 코릴레이트다. 코릴레이트는 특정 검색어가 얼마나 인기가 높았 는지를 알려주는 구글의 서비스인데, 코릴레이트로 2004년부터 2011년까지 가장 인기가 높았던 검색어를 조사한 결과는 무엇이 적절한 데이터인지를 알려준다. 즉 실업률을 알 수 있는 데이터는 바로 ‘슬럿로드’라는 포르노 사이트에 대한 조회수였던 것이다. 물론 실업률과 포르노 사이트가 무슨 상관이 없다고 생각할 수도 있다.

 

그러나 직장에 출근하지 않는 사람들이 늘어나면서 포르노 사이트가 더 많이 검색되는 것은 연관성이 있을수도 있다. 물론, 이 책은 실업률을 알아내기 위해 포르노 사이트의 검색 순위를 살핀다는 것이 최적의 방법이라고 주장하려고 하는 것은 아니다. 단지, 우리가 생각하는 것처럼 연관성이 없어 보이는 현상이 매 우 연관성이 있는 데이터가 될 수 있다는 것이다.

 

즉, 우리는 다른 사람들이 사용하지 않는 데이터가 내용을 증명해줄 수 있는 그 경우를 찾아야 한다. 그리고 어떤 모델이 예측에 효과적인지에 대한 이유는 구체적으로 생각하지 않아도 된다. 중요한 것은 그 이유까지 알 필요는 없다는 것이다. 월마트는 이미 허리케인이 상륙하기 전에 ‘스트로베리 팝타르트’가 잘 팔린다는 것을 알고 있다고 한다. 중요한 것은 잘 팔린다는 것을 아는 것이 지, 왜 잘 팔리는지는 분석하지 말라는 것이다.

 

2. 솔직한 데이터를 제공한다

우선 사람들이 거짓말을 한다는 것은 이미 1950년대에 밝혀진 사실이라는 점을 기억해보자. 사람들을 대상으로 설문조사로 알게된 내용과 연구원들이 찾아낸 데이터는 달랐다는 것이다. 사람들은 설문조사가 익명인데도, 멀쩡하게 보이기를 원했기 때문으로 분석할 수 있다. 그렇다면, 사람들은 수십 년이 지난 지금, 거짓말을 하지 않을까?

 

물론 그것은 아니다. 사람들은 여전히 거짓말을 잘한다. 그 이유는 몇 가지가 있다. 첫 번째, 우리는 ‘선의의 거짓말’을 좋아한다는 것이다. 그리고 두 번 째, 설문조사를 하는 사람들에게 좋은 인상을 주고 싶어 하는 강한 욕구가 있다. 그리고 마지막 세번째, 설문조사를 받게되면 솔직히 말해서 진실을 말할 이유가 없다는 것이다. 덕분에 우리 삶에서 거짓말은 일상적으로 일어나고 있다. 2016년 미국 대선에서 도널드 트럼프의 승리가 조사되지 않았던 것도 사람들의 거짓말 때문이라고 해석되고 있다.

 

게다가, 기업 내에서도 구성원들은 자신의 실력을 둘러싼 거짓말을 하기도 한다. 결국, 빅데이터는 거짓말을 밝혀낼 수 있는 디지털 자백약이 될 수 있다는 것입니다 사람들은 일반적인 견해보다 거짓말을 더 많이 하는 것으로 나타나고 있다. 우선 사람들이 날씨보다 더 많이 검색하는 것은 무엇 일까? 미국인들의 경우라면 날씨보다 포르노를 더 많이 검색한다. 그러니까, 남성 25%, 여성 8%만이 포르노를 본다고 인정한 설문조사와는 거리가 한참 멀다. 그리고 사람들은 동성애자에 대한 설문조사에 거짓말을 하고 , 증오와 편견과 같은 민감한 문제에 대해서도 거짓말을 많이 하는 것으로 드러났다. 그리고 페이스북에서도 거짓말을 자주 하는 것으로 판명되고 있다. 왜냐하면 우리는 자신을 그럴싸하게 포장하고 있기 때문이다.

 

예컨대, 식자층이 이용하는 월간지 <애틀랜틱> 그리고 선정적인 잡지 <내셔널인콰이어러>가 있다. 물론 이 두 잡지는 판매부수도 비슷하고 구글에서 검색되는 비율도 비슷하다. 그렇다면, 페이스북에서도 좋아요는 아마도 비슷해야 할 것이다. 하지만 그렇지 않다. 페이스북에서 <애틀랜틱>에 ‘좋아요’를 누르는 사람은 150만 명이나 되지만, <내셔널인콰이어리>에 좋아요를 누른 사람은 5만명 밖에 되지 않는다.

 

그렇다면 사람들은 왜 페이스북에서 거짓말을 하는 것일까. 가장 중요한 요인은 소셜미디어에는 진실을 이야기할 어떤 이유도 없다는 것이다. 사람들에게 잘 보이고 싶은 마음이 크기 때문이다. . 

 

3. 작은 집단에 클로즈업할 수 있다

빅사이크라는 단어가 있다. 이것은 빅데이터를 이용해서 심리적인 의문에 답을 구하는 것인데, 이는 이미 선진국에서 많이 사용 되고 있다. 예컨대, 미국에서는 이미 한 프로야구팀의 팬은 언제 그 팬심이 형성되는지를 조사한 적이 있다. 그 결과 5세부터 15세 사이에 결정된다는 것이 밝혀졌다. 그러니까, 8세때 그 팀을 응원하게 되면 성인이 되어서도 그 팀의 팬이 될 가능성이 높다는 것이다. 물론 이와 같은 맥락은 정치적 기호, 성적 취향, 음악 취향 그리고 재정 습관에도 적용될 수 있다.

 

그리고 도플갱어를 찾아서 방법을 구하기도 한다. 도플갱어는 클로즈업의 또다른 방법인 것이다. 2003년 통계학자 네이트 실버는 선수의 성적을 예측하는 모델을 발표했다. 그 모델의 이름이 바로 PECOTA라는 것이었는데, 한 선수를 예측하기 위해서는 나이와 성향, 그리고 성적이 비슷했던 선수가 향후 어떤 성적을 냈는지를 알게 되면 그 선수의 성적 또한 예측할 수 있다는 것이다. 그리고 이 방법은 매우 정확하다는 것이다.

 

그래서 아마존을 비롯한 글로벌 기업들은 이미 도플갱어를 이용한 빅데이터 분석을 도 입하고 있다. 우선 아마존은 유사 도플갱어 검색을 사용해서 책을 추천하고 있고, 판도라와 넷플릭스도 이미 도플갱어 검색을 이 용하고 있는 것으로 파악되고 있다.

 

4. 바로 인과적 실험을 가능하게 한다

우선 인과적 관계를 이해하기 위해서는 상관관계를 기반으로 한 연구가 무엇인지 알아야한다. 예컨대 적절한 양의 알코올을 섭취 하는 사람이 더 건강하다는 조사 결과가 있다. 이것이 바로 상관관계다. 사실 적절한 양의 술을 마시면 건강이 개선될 가능성은 별로 없다. 어쩌면 건강한 사람이기 때문에 친구들과 적당한 술을 마시고 있다고 해석하는 것이 더 맞을 수 있다. 즉, 조사를 끊임없이 하다보면 상관관계가 있는 데이터가 보이게 되는데, 데이터 과학자들은 유독 이 상관관계를 신뢰하게 되기도 하는 것이다.

 

반면 빅데이터는 진정한 인과관계를 찾아낼 수 있는 무작위 실험을 할 수 있게 만든다. 이미 구글은 오래전부터 이른바 A/B 테스트라고 불리는 실험을 계속하고 있다. 즉, A 집단, B 집단에 각기 다른 색조에 노출시키고 클릭수를 비교하는 것이다. 일부 직원은 이에 불만을 품고 퇴사하기도 했다지만, 여전히 구글은 많은 실험을 실시하고 있다. 그리고 페이스북도 A/B 테스트를 하고 있다. 특히 페이스북은 A/B 테스트를 하루에 1,000건 진행하고 있다고 하는데, 어떻게 해야 사람들이 더 페이스북에 중독되는지를 찾기 위해 버튼 색상, 폰트 그리고 이메일의 발송 시간을 바꾸고 있다는 것이다.

 

한줄평

"검색 데이터를 이용해 사람들의 숨겨진 진짜 욕망과 생각을 까발리는 책"

728x90