경제학자이자 데이터과학자인 저자가 바라본 세상

검색 관련 통계...‘세상을 읽는 또 다른 수단’

‘빅데이터의 한계와 위험성도 고민해야’

범죄가 더 늘어날까 걱정하고, 물가가 더 오를까 염려하고, 미세먼지가 더 심해질까 우려하는 등 많고도 많은 갖가지 불안이 존재합니다.

투표를 하지 않을 사람 절반 이상이 선거 직전의 설문조사에서는 투표를 할 예정이라고 말해서 투표율 예측을 왜곡한다. 반면, 선거 전 몇 주 전에 걸쳐 '투표하는 법' '투표 장소'가 구글에서 얼마나 검색됐는지를 살펴보면 어떤 지역의 투표율이 높을 지 정확하게 예측할 수 있다.



'모두 거짓말을 한다' 24쪽



구글 검색이 그토록 귀중한 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이라고

빅데이터를 통해 기업은 고객이 기꺼이 지불하는 금액에 관해 훨씬 더 잘 알 수 있고 따라서 특정 집단에 바가지를 씌울 수도 있다고 염려했습니다.

세상은 우리에게 많은 수의 성공한 하버드 졸업생을 보여주고 성공한 펜실베이니아 졸업생은 많이 보여주지 않는다. 그래서 우리는 하버드에 가는 것이 아주 유리하다고 생각하게 된다.



'모두 거짓말을 한다' 295쪽



현대는 불안의 시대라고도 합니다. 각종 안전사고나 교통사고에 대한 불안은 물론,'침대 밖은 위험하다'는 우스갯소리가 있을 정도입니다.'불안한 세상'이 된 여러 원인이 있겠지만, '현대인'의 불안감이라는 말이 내포하고 있듯이 이들 불안은 아무래도 바쁘게 돌아가기 마련인 도시에서 더 크게 나타날 것 같습니다. 그렇지만, 그게 꼭 그렇지 않다고 말하는 자료가 있습니다. 구글의 검색 데이터입니다.미국의 경제학자이자 데이터과학자인 세스 스티븐스 다비도위츠는 불안감을 반영하는 구글 검색어인 '불안감의 증상'이나 '불안감에 도움이 되는 것' 등은 오히려 도시에서 더 적게 검색된다고 말합니다. 그는 '교육 수준이 낮고 소득 수준이 중위인 곳, 인구 대부분이 농촌 지역에 사는 곳에서 이들 단어가 구글 검색창에 더 많이 등장한다'고 얘기합니다.'뉴욕시보다는 뉴욕주 북부의 시골 지역에서 불안에 대한 검색 비율이 더 높았다'는 겁니다. 적어도 미국의 경우, 시골 사람들이 도시 사람들보다 더 마음 편히 살고 있을 것이라는 생각이 편견일 수도 있음을 구글의 검색 통계 자료는 보여주고 있는 것이죠.구글의 검색창은 이처럼 우리가 몰랐거나 미처 생각하지 못했던 수많은 데이터를 제공해 줄 수 있습니다. 설문조사나 여론조사 때 체면을 생각해서, 또는 으레 하던 대로 마음에도 없는 소리를 하는 사람조차도 남들 눈치 볼 필요 없는 검색창 앞에 서면 자신의 속마음을 그대로 드러낸다는 게 저자의 말입니다.살다 보면 흔히들 친구나 연인, 의사는 물론 자기 자신에게도 '거짓말'을 하지만, 검색창에 들어가면 남들에게 물어보기 어색할 수도 있는 정신질환이나 성생활, 건강과 관련한 내용 등을 있는 그대로 털어놓는다는 것이죠. 세스 스티븐슨 다비도위츠는 일상생활에서는 꺼내지도 못하던 인종 차별이나 혐오성 발언을 구글 검색창에 들어가서는 열심히 찾아보는 사람도 존재하는 게 현실이라고 밝혔습니다.저자는 검색 통계의 활용 예로, 투표율 예측을 들기도 했습니다. 그는 구글 데이터는 사람들이 투표하러 얼마나 나올지도 미리 보여줄 수 있다고 말합니다. 세스 스티븐스 다비도위츠의 설명은 이렇습니다.설문조사나 여론조사 때는 꼭 그렇게 하겠다는 마음이 없는 데도 일단 투표를 하겠다고 대답하는 사람들이 있는 반면, 구글 검색창에 투표하는 법이나 투표 장소를 검색해 보는 사람들은 투표 의향이 확고한 편이라는 것이죠. 그렇기에 특정 지역에서 투표 장소 등과 관련한 검색 비율이 높아지면, 그 지역의 투표율이 더 높아질 수 있다는 나름의 합리적 추론이 가능하다는 뜻입니다.저자는 검색창에서 벌어지는 민심의 흐름에 관한 논의를 이어 나갑니다. 선거를 앞두고 사람들이 더 많이 검색하는 후보가 당선 확률이 더 높다는 얘기가 있습니다. ABC 후보보다 XYZ 후보를 더 많이 검색했다는 통계 결과가 나오면 이는 XYZ 후보에 대한 관심도가 더 크다는 의미가 되기 때문에, XYZ 후보의 당선 가능성도 더 크다는 말이 될 수 있습니다. 하지만 여기에는 주의할 점이 있습니다. 사람들은 흔히 자신이 싫어하는 후보도 많이 검색하고 있기 때문입니다.이런 사정을 염두에 뒀기 때문일까요. 저자는 조금 더 나아갑니다. 두 후보의 이름을 포함한 검색어를 입력할 때, 이름을 적는 순서도 의미가 있다고 말합니다.'XYZ ABC'라고 검색한 횟수보다 'ABC XYZ'라고 검색한 횟수가 많다면, ABC 후보의 당선 가능성을 조금 더 크게 볼 수 있다는 뜻입니다. 연구 결과에 의하면, 사람들이 자신이 지지하는 후보를 앞에 쓰는 경향이 있기 때문이라고 합니다. 물론 이런 방법이라고 해서 완전한 것은 아닙니다. 투표나 선거 결과와 관련해 민심의 흐름을 읽어낼 수 있는 가장 강력한 도구를 하나 꼽는다면 역시 여론조사일 겁니다. 다만, 기술 발전과 함께 검색 관련 통계도 사람들 속마음을 읽을 수 있는 또 하나의 도구가 되고 있다는 것이죠.말하는 세스 스티븐스 다비도위츠는 동시에, 검색 통계와 같은 빅데이터의 오용이나 남용 가능성에 대한 우려감도 드러냅니다. 그는 하나의 예로, 금융회사에서 돈을 빌리려는 사람들이 대출할 때 사용하는 언어를 수집하고 분석한 연구를 들었습니다.저자는 한 연구 결과에 의하면 '하나님'이나 '갚을', '병원', '약속', '고마움'이라는 단어를 많이 사용하면 채무 불이행 가능성이 크다고 나왔다며, 만약 기업이 '우리가 빌린 돈을 갚을지 안 갚을지 예측하기 위해 우리가 사용한 단어를 활용하는 세상이 된다고 생각하면 으스스하고 무섭기까지 하다'라고 말했습니다. 또빅데이터의 예측 정확성을 떠나, 기업 이익 극대화나 감시와 통제의 수단으로 빅데이터가 사용되는 빅 브러더 사회의 도래에 대해 경고를 한 겁니다.이와 함께 저자는 불완전한 데이터는 사람들을 현혹할 수도 있다고 설명합니다. 세스 스티븐스 다비도위츠는 아래와 같은 예를 들었습니다.이처럼 '모두 거짓말을 한다'는 빅데이터의 쓸모와 가능성, 한계와 위험성을 함께 말하고 있는 책입니다. 구성 또한 '1부 빅데이터와 스몰데이터', '2부 빅데이터의 힘'에 이어 '3부 빅데이터: 취급 주의'로 돼 있습니다. 원서 제목은 'Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are'로 2017년 첫 출간 됐습니다.