본문 바로가기

하루 한 권

하루 한 권_우리에게는 다른 데이터가 필요하다[김재연]

728x90

모든 시민을 대표하는 민주주의 정부의 고유한 사명은 모든 시민을 위하는 정책을 만드는 것이다. 정책의 접근성을 높여야 한다. 정부가 그 일을 더 잘할 수 있게 돕는 것이 데이터다. 데이터는 지렛대다. 어떤 문제를 풀어야 할지 안다면 데이터는 그 목적지에 더 빠 르고 쉽게 가도록 도와준다.

 

그러나 문제 정의가 잘못되어 있다면 데이터는 오히려 문제를 더 빠르게, 더 크게 악화시킬 것이다. 이 책은 시빅 테크에 관해서 설명하고 있는 책이다. 미국에서는 오바마 정부 이후 데이터 과학자들이 정부 주요 기관에서 일을 하고 있다. 정부 정책에 있어서 접근성을 높이자는 취지다. 저자는 미국의 사례와 한국의 현실을 비교하며 시빅 테크를 공공영역에 있어 적용해야 한다고 주장하고 있다.


작가소개 김재연

미국의 대표적 시빅 테크 단체인 코드 포 아메리카(Code for America)의 시니어 데이터 사이언티스이자 존스홉킨스대 SNF 아고라 연구소(SNF Agora Institute)의 연구위원이다. 코드 포 아메리카에서 데이터를 활용해 더 많은 사람들이 더 쉽고, 편하게 정부의 복지 혜택을 누릴 수 있도록 돕는다. 존스홉킨스대 SNF 아고라 연구소에서 빅데이터를 이용해 민주주의와 시민사회를 분석하는 '오 늘날의 아고라 지도 만들기(Mapping the Modern Agora)' 프로젝트를 공동 개발했다. 한국에서는 KDI 국제정책대학원 교수로 공공 조직의 중간관리자들에게 데이터 과학을 가르쳤다. UC 버클리에서 정치학 박사학위를 받았고, 미국정치학회(APSA)의 도시 및 지역정치 부문 최우수 박사학위 논문상을 수상했다. 네 이처 자매지인 Nature Human Behaviour, Scientiific Data를 비롯한 국제 학술지에 논문을 게재했고 공공 데이터 활용을 위한 공개 소프트웨어를 개발했다. 실리콘밸리가 있는 샌프란시스코 베이 에어리아에 아내와 딸과 함께 거주한다. 사람이 중심이 되고, 기술은 사람을 보조하는, 모두가 조금씩 불편해 함께 잘 사는 사회를 꿈꾼다.

시빅 테크가 뜬다

미국 공공 영역에서 데이터 과학자가 활동하기 시작한 것은 10년이 되지 않았다. 그 시작은 오바마 행정부 때 시작되었다. 환자보호 및 부담적정보험법(PPACA), 이른바 오바마 케어가 시작되면서 본격적으로 데이터 과학자가 공공영역에 진입하기 시작했다. 당시 미국 인구 중 4,700만 명에 해당하는 사람들은 의료보험이 없었다.

 

오바마 케어는 이들을 위한 사회안전망을 만들기 위해 시작한 것이다. 이 정책을 위한 웹사이트는 헬스케어닷가브(HealthCare.gov)로 정해졌고, 2013년 10월 1일에 오픈했다. 하지만 오픈 당일 하루 만에 470만 명이 방문하면서 사이트는 다운됐고, 결국 다음날 이 사이트에 가입한 사람은 여섯 명에 불과했다. 이를 계기로 오 바마 정부는 실리콘밸리 인재들을 중용하게 되었다. 그래서 미국에는 시빅 테크라는 분야가 이미 자리를 잡았다.

 

백악관을 비롯해 중앙부처, 지방자치단체에도 CDS, 이른바 최고 데이터 과학자를 채용하기 시작했다. 이들은 정부의 데이터를 미국 시민을 위해 효율적이고 책임 있게 사용하는 전략, 조직, 그리고 체계를 만든다. 우리나라에서는 아직 생소한 개념이다. 하지만 미국에서는 팬데믹을 거치면서 시빅 테크의 규모가 더 커졌다.

 

정부의 도움이 필요한 사람은 더 늘어났고, 이들을 도울 정부의 역량이 부족하기 때문에 이 빈틈을 메우기 위해 기술적 지원이 필요해진 탓이 다. 보통 많은 사람이 데이터 과학에 대해서는 들어봤고, 대충 어떤 일을 하는지 짐작할 수 있다. 데이터 과학은 통계학, 컴퓨터공학 등의 학문에 기초한다. 데이터를 통해 유용한 지식을 생산하는 분야를 말한다.

 

하지만 데이터 과학은 잘 정리되고 체계를 갖춘 학문 영역이라기보다는 데이터로 문제를 푸는 기술, 즉 사용법에 가깝다. 사실 데이터 과학이라고 하면 구글 같은 빅테크 기업을 먼저 떠올릴 수 있다. 하지만 정부의 데이터 과학의 역사는 민간 데이터 과학의 역사보다 더 깊다. 정부 데이터가 원래 빅데이터의 원조라고 할 수 있다.

 

정부가 일찍부터 데이터 수집과 처리와 관련된 기술 개발에 투자했던 이유는 데이터 없이 효과적으로 통치하는 것은 불가능한 일에 가깝기 때문이다. 그러나 기업의 데이터 과학과 정부의 데이터 과학이 같아 보이지만 사실 완전히 다른 구조라고 할 수 있다. 기업에서는 효율성을 높이고 비용을 줄이기 위해 데이터 과학을 사용한다.

 

하지만 정부가 데이터 과학을 사용하는 목적은 바로 모든 사람에게 접근성을 높이기 위함이다. 따라서 공공영역에서의 데이터 과학은 인간 중 심적 디자인 접근법을 따라야 한다. 보통 어떤 문제가 있을 때, 그 문제를 경험한 사람의 관점에서 문제를 정의하고 해결하는 방법을 말한다. 현장에 가서 의견을 경청하고 그 피드백을 바탕으로 제품을 설계하는 것이다.

데이터에 관한 세 가지 상식

첫 번째, 신뢰하기 위해서는 의심해야 한다. 데이터는 측정하고자 하는 대상 외에 편향과 노이즈를 포함하고 있다. 이것은 모든 데이터가 가진 속성이다. 따라서 데이터를 신뢰하기 위해서는 먼저 데이터를 의심하는 법을 배워야 한다. 이것은 데이터 과학자가 가장 먼저 배워야 하는 덕목이고 기술이라고 할 수 있다.

 

보통 노이즈는 데이터가 작으면 작을수록 커지고 데이터가 크면 클수록 작아지 는 경향이 있다. 하지만 반대로 데이터가 커지면 편향을 포착하기가 어려워질 수도 있다. 따라서 데이터를 접할 때는 먼저 의심부터 해야 한다. 두 번째, 날것의 데이터는 존재하지 않는다. 데이터에는 원래부터 인간의 편향이 들어있다고 봐야 한다. 따라서 데이터 과학자는 데이터 제조 과정을 추적하는 데 가장 많은 시간을 들여야 한다.

 

왜냐하면 인간은 데이터를 생성하는 과정에서 편향을 집어넣거나 조작하기도 하고 인간이 만든 지표에 의해 의도하지 않았던 결과가 나오기 때문이다. 예컨대, 1980년대와 1990년대에 미국에서는 신공공관리 이론을 경찰 행정에 도입했다. 이른바 경찰 행정에 효율성을 높이자는 의도였다. 그런데 이 프로그램을 시작하고 나서 부작용이 생겼다.

 

미국 경찰은 단기적 성과에만 치중했고, 실적을 올리기 위해 데이터를 조작하기도 했다. 국가별 GDP도 마찬가지다. 원래 이 개념이 만들어진 것은 미국과 영국이 1930년대에 정부가 어떻게 얼마나 개입해야 하는지를 측정하기 위해서였다. 하지만 이 개념이 널리 퍼지고 나서는 국가 지도자들이 이 데이터를 조작하기 시작했다.

 

왜냐하면 자기 능력을 더 선전할 수 있다는 인센티브가 주어졌기 때문이다. 세 번째, 쓰레기를 넣으면 쓰레기가 나온다. 데이터는 편향된 데이터가 들어가면 편향된 결과가 나온다. 인간은 본래 게으르기 때문에 인지적 편향을 갖고 있다. 따라서 데이터를 입력할 때 원래부터 편향된 데이터를 입력할 수 있다.

 

그런데 이렇게 데이터가 만들어지면 여기에 인공지능을 더한다고 해도 결과는 달라지지 않는다. 2021년 국내 스타트업이 개발한 챗봇 ‘이루다’가 성차별 이슈를 드러낸 적이 있었다. 이렇게 될 수밖에 없었던 이유는 실제 연인들이 주고받은 100억 건의 데이터를 기초로 만들어 낸 인공지능이기 때문이었다. 즉 인간의 편향이 그대로 적용될 수밖에 없었다.

 

시빅 테크는 왜 필요한가?

대형마트가 고객 데이터를 바탕으로 고객들의 소비 패턴을 분석한다고 가정해보자. 해당 빅데이터를 보면 20~30대 젊은 부부는 커피를 살 때, 기저귀도 같이 구입하는 것으로 드러났다. 이 빈도는 다른 집단보다 높다고 가정하게 되면 두 상품을 가까운 곳에 배치한다든가 아니면 별도의 프로모션을 하든가 하는 방법들을 찾을 수 있다.

 

하지만 여기에서 한 단계 더 들어가면 문제가 복잡해진다. 기저귀 가격이 올라가게 되면 어떻게 될까? 커피 소비량은 줄어들까, 아니면 그대로일까? 따라서 이렇게 복잡한 문제를 해결하기 위해서는 경제학 지식이 필요하다. 이론과 실행 사이에는 4가지 조합이 있다. 이론이 탄탄하고 실행이 능숙하면 필요한 일을 제대로 할 수 있다.

이론이 부실하고 실행이 능숙하면 필요하지 않은 일을 제대로 할 수 있다. 하지만 이론이 탄탄한데 실행이 어설프면 필요한 일을 제대로 하지 못하고, 이론도 부실하고 실행도 미숙한 사람에겐 애초에 일을 맡기면 안 된다. 따라서 가장 이상적인 조합은 단 하나. 이론을 잘 알고 실행도 잘하는 경우뿐이다. 그렇다면 시빅 테크가 하려고 하는 것은 무엇일까?

 

바로 차별은 줄이고 기회를 늘리는 사회를 만드는 것이다. 공익, 이른바 모든 사람의 이익을 최대한 늘리는 것이다. 사실 차별은 구조의 문제일 수 있다. 많은 이슈가 복잡하게 얽혀서 만들어진 현상이기 때문이다. 이 문제를 풀기 위해서는 가장 핵심적인 부분에서 접근성을 높여야 한다. 예컨대, 미국 콜로라도주 에서 2014년 전면적으로 우편투표를 도입했던 적이 있다. 굳이 투표소로 올 필요도 없이 우편으로 자신이 편한 시간에 편한 곳에서 투표하고, 그 결과를 선거관리위원회로 보낼 수 있게 한 것이다. 이렇게 투표에 대한 접근성을 높이자, 투표율이 8% 증가했고, 청년, 노동자, 저학력자 그리고 유색인종 집단에서 더 높게 나타났다.

 

접근성을 높이기 위한 3가지 방법

첫 번째, 인터페이스가 있다. 공공영역에서는 기본적으로 공문서 작성 방식이 존재한다. 사실 공문서는 그렇게 친화적이지 않다. 왜 냐하면 대부분 행정용어는 그들만의 코드로 만들어져 있기 때문이다. 그리고 최근에는 기계화, 자동화가 효율성을 높인다는 측면에서 도입되고 있다. 여전히 기술에 적응하지 못한 사람들은 접근이 더 어렵기 때문에 불평등이 만들어지고 있는 셈이다.

 

따라서 이 문제를 사람 중심적인 입장에서 볼 필요가 있다. 즉 프로젝트 매니저, 소프트웨어 개발자, UX 디자이너, 연구자 그리고 데이터 과학자가 사람 중심적인 입장을 가져야 한다. 그리고 현장에서 어떻게 적용해야 할지를 판단할 수 없다면 기업에서 많이 사용하고 있는 A/B 테스트를 해야 한다.

 

두 번째, 인프라가 있다. 시대와 기술의 변화에도 불구하고 공공정책이 뒤처지는 이유 그리고 여전히 정책들이 남용되고 있는 이유 는 공무원의 자질과 열정이 부족해서 만들어지는 것이 아니다. 그 이유는 바로 현실의 제약 조건, 즉 데이터 인프라의 부족 때문이다. 데이터가 서로 연결되어 있지 않고, 이를 구축할 수 있는 인력이나 판단할 수 있는 인력도 부족한 게 현실이다.

 

따라서 새로운 복지프로그램이 만들어져도 이를 적용할 수 있는 대상을 해당 지역에서 찾아내는 것은 어려워지고 있다. 물론 최근 정부에서는 민간 테크 기업과 비슷한 수준으로 서비스를 제공하자는 디지털 플랫폼 정부를 표방하고 있다. 한국 복지 영역에서의 문제점은 빅데이터와 인공지능을 조연이 아니라 주연으로 쓰는 데 문제가 있다. 아무리 정부가 빅데이터와 인공지능을 사용하더라도 현장에서 복지 급여 신청 서류를 검토하고 승인하는 것은 현장 공무원들의 선택에 따른다.

 

따라서 데이터 인프라를 확보하되, 도대체 무엇을 어떻게 해야 하는지를 명확히 알아야만 한다. 세 번째, 피드백이 있다. 피드백은 데이터 인프라의 일부라고 할 수 있다. 좋은 데이터 인프라는 시민들의 피드백을 다시 모아서 정책 결정자가 볼 수 있도록 해야 한다. 이 데이터에 따라 의사결정을 내릴 수 있도록 돕는 것은 좋은 데이터 인프라가 갖춰야 하는 기본이다.

 

하지만 정부의 가장 근본적인 문제는 피드백을 받기가 매우 어렵다는 데 있다. 2017년부터 2022년까지 우리나라 정부가 만든 앱 중에 이용자가 없어서 폐기 대상인 것은 600개가 넘는다. 여기에 투여된 세금만 180억 원이다. 문제는 만들어 놓고 관리하지 않는다는 데 있다. 예컨대, 정부24앱의 구글 평점은 5점 만점에 1.7이지만 개선되지 않는다. 많은 사람이 불만을 느끼고, 안 되는 것도 많다고 이야기하지만, 아직도 해결되지 않는 문제가 산적해 있다.

개인정보보호의 문제와 공공영역의 비전

미국의 사회보장번호는 우리나라 주민등록번호에 해당한다. 미국에서 사회보장번호는 개인만 알아야 하는 극히 민감한 정보이다. 어떤 디지털 서비스도 이 정보를 요구하지 않는다. 하지만 우리나라의 현실은 다르다. 한국에서 주민등록번호는 시작부터 공공재 로 시작했다. 지난 수십 년 동안 주민등록번호를 요구하지 않았던 서비스는 찾기 힘들다. 주민등록번호 신규 수집이나 이용을 제한 하기 시작한 것은 2012년 이야기일 뿐이다.

 

사실 코로나19 팬데믹 상황에서 우리나라가 방역 모범국가가 된 것은 개인의 인권을 침해했기 때문이다. 통신사 기지국의 위치 정 보와 카드 정보, 교통카드 사용내역, 진료 기록, 출입국 기록 등을 전부 사용했기 때문에 가능했던 일이라고 봐야 한다. 데이터가 연결될수록 가치도 올라가지만 함께 위험도 올라간다는 생각을 해야 한다. 따라서 앞으로 더 민감해질 개인정보보호에 대한 문제는 정교한 해결책이 나와야 한다.

 

한국 디지털 정부 정책에는 빅데이터, 인공지능, 메타버스 등 첨단 용어들이 전부 다 들어가 있다. 늘 그렇듯 유행에서는 밀리지 않 는다. 하지만 시빅 테크는 유행이 아니라 제대로 된 비전이 있어야 한다. 사명에 집중하고 기본에 충실해야 한다. 시민의 부담을 줄이고, 차별을 줄이고, 기회는 늘려야 한다. 그렇게 접근성을 높여야 하는 것이다. 사명을 명확하게 만들고 구체적인 핵심 결과, 지속 적인 피드백을 받아야 한다.

 

물론 한국의 외양은 그럴듯하다. 하지만 내실과 역량이 부족하고 정부의 문제해결 능력이 떨어진다. 앞으로 한국은 고령사회에서 초고령사회에 진입하게 될 것이다. 따라서 공공영역에서의 정책들은 더 높은 접근성을 만들어 가야 한다.

 

한줄평

"모두 만족시킬 수 없단 걸 알지만, 만족시키려 노력하는 것이 중요하다"

728x90