"가설을 시험하기에, 독백은 이상적인 데이터 세트가 아니다."

시장조사든 설문이든 다수의 응답을 모아 함의를 찾는 일을 해본 분들은 바로 와닿는 이야기입니다. '자기 보고' 언제든 오류의 가능성을 내포하고 있기 때문이지요.

 

이유는 다양합니다. 설문조사자 또는 응답내용을 들을수 있는 근처 사람을 의식해서 그럴수도 있습니다. 하지만 프라이버시가 보장된 응답에도 이런 경향성이 보입니다. 트럼프 대통령의 설문된 지지율 응답과 실제 투표율간 괴리를 정밀히 조사해 보면, 일관되게 2% 과소평가가 관찰되었으니까요.

, 허영(vanity)이건 정치적 올바름(PC)이건 어떤 항목은 스스로가 스스로를 속이는 셈이기도 합니다. 그래서 제목이 모두가 거짓말을 한다는겁니다. 악의가 없을지라도, 진실을 말하지 않는다는 의미에서의 거짓말입니다.

 

그런데, 신도 모르고 부모님도 모르고, 심지어 나조차 모르는 은밀한 진심을 아는 존재가 있습니다. 바로 구글 같은 빅데이터이지요. 전문가는 물론, 친구에게도 묻기 힘든 내밀한 궁금증을 우리는 구글에 묻습니다. 성적취향을 반영한 포르노를 검색하거나, 플루의 증상이 될지도 모르는 고통을 물어보기도 합니다.

 

SethStephens-Davidowitz

(Title) Everybody lies


책이 파고드는 부분이 바로 지점입니다. 빅데이터로 파악하는 진솔한 시대정신이지요. 실은 구글 검색이 지식을 사용자에게 공개한 서비스 이름이 시대정신 (zeitgeist)였습니다. 지금은 구글 트렌드로 변경이 되었지만요.

 

저자는 구글 검색의 빅데이터 측면을 연구하여 논문을 발표했고, 다소간의 논란 끝에 유명세가 생긴 구글에 취직하여 데이터에 몰입합니다. 그렇게 회사의 전폭적 지원하에 연구한 다양한 결과가 소개된 책입니다.

 

처음 트럼프 사례를 조금 보면 데이터는 다소 끔찍합니다. 여러가지 상관관계 인과관계를 찾다가 저자는 트럼프 지지가 오바마 전임 대통령에 대한 흑인 감정임을 알아냅니다. 이게 설문에 잡히는건데요. 오바마가 당선되었을 , 미국 국민은 국가적인 진보성과 개방성을 자축했고 여러 설문에도 그렇게 잡힙니다. 그러나, 구글에서 인종차별적 검색이 나오는 시점과 지역이 이후 트럼프 지지 투표의 축이 되어가는게 구글 검색으로 드러납니다.

 

물론 이런 음울한 결과만 있는건 아닙니다.

스포츠의 팬덤이 생성되기 가장 좋은 나이는 8세입니다.  이건 구글이 아니라 페이스북의 좋아요와 연령을 분석하고 팀별 최빈 연령과 우승시기를 매칭하면 바로 잡혀 나옵니다. 빅데이터 분석의 전형적 사례이지요.

 

정치적 입장이 형성되는 시기는 18세입니다. 언저리 시기 대통령의 인기도에 따라 정치적 견해가 형성되는 것이 데이터로 보입니다. 세월호 세대가 촛불집회에 많이 나온 것은 미래 한국 정치에 대단한 변곡점을 만든것이지요.

 

경제적인걸 볼까요. 같은 소득이라도 부자동네와 가난한 동네 사는 것은 평균 수명에 차이가 있습니다. 부자동네 사람이 통계적으로 의미있게 오래 삽니다. 이유는 행동양식의 전염성입니다.

 

외에도, 섹스, 동성애, 편견, 아동학대 등에 대한 데이터는 놀랍게 솔직하거나, 놀랍게 반직관적이기도 합니다. 저자는 디지털 자백 (truth serum)이라고 표현할 정도지요.

 

책의 진가는 이러한 빅데이터 사례를 나열함에 있지 않습니다. 저자 스스로도 인정하듯, 아직도 한계가 많고 시작 단계에 머무는 빅데이터 분석에서, 먼저 경험한 자로서 취했던 접근법, 겪었던 시행착오를 찬찬히 적어두고자하는 자세가 인상적입니다. 커지기전 괴물의 힘을 알아보고 같이 길들여가자는 초대장 같습니다. 사회과학이 진짜 과학이 되는 의미깊은 순간이니까요.


Inuit Point ★★★★★

읽다 보면 괴짜경제학 같은 느낌이 납니다. 매우 학문적인 저자가 꽤나 대중적으로 흥미롭게 책입니다. 읽다보면, 저자가 괴짜경제학의 빅데이터 버전을 쓰고 싶었다고 이야기 합니다. 그랬다면 성공이라고 말해주고 싶습니다. 깊이와 재미 놓치지 않았으니까요. 다섯 줍니다.


'Review' 카테고리의 다른 글

H팩터의 심리학  (0) 2019.02.17
거대한 코끼리, 중국의 진실  (0) 2019.01.20
모두 거짓말을 한다  (0) 2019.01.13
골목의 전쟁  (0) 2018.05.08
비트코인, 블록체인과 금융의 혁신  (0) 2017.08.08
모든 비즈니스는 브랜딩이다  (0) 2017.07.22

다음소프트 6인

트렌드가 트렌드인 시대

트렌드라고 명명된 얄팍한 버즈워드를 보며 하찮게 여기면서도 스윽 눈길이 가는게 낚시 키워드(hooking words) 본령이다. 빅데이터를 통해 비즈니스 키워드를 본다는 담대한 발상에 얼마나 잘했나 어디한번 보자는 못된 마음으로 책을 샀다.

 

동네 빅데이터

처음 참신했던 빅데이터, 이제 도처에 널린 식상함을 넘어 의미마저 상실한 습관적 수식어로 전락했다. 책은 공들여 연관 키워드를 통해 분주히 의미를 끌어내려 애를 쓰지만 연관 검색어는 연관 검색어지 빅데이터는 아니다. 그냥 많은 데이터를 뒤지면 빅데이터라고 자기들끼리 인정해주는 상황이니 넘어가는거지.

 

 시대정신의 심리학

하지만 트렌드니 빅데이터니 상업적 성공을 갈망하는 수식어를 제외하면 책의 내용은 재미있다가장 많이 회자되는 키워드를 연관 단어를 통해 세태를 추정해가는 과정에서 생각해볼 거리가 많기 때문이다. 예컨대, 평타와 추천이 엄청난 무게와 부피를 지닌 젊은 세대. 결정장애 공화국의 떠오르는 세대에는 남보다 튀기는 싫지만 뒤쳐지기는 싫은 평균회귀의 심리 그리고 무언의 억압이 기저에 있음을 추정한다.

 

빅데이터와 인문학

추정이 맞다. 인과는 냅두고 상관관계를 추구하는게 빅데이터라면 이부분은 빅데이터다. 다만, 데이터로 증명하기보다는 인문학의 소양으로 합리적인 추정을 하자는게 책의 기조일뿐이다. 내가 빅데이터라 인정하지 못하는 이유이지만 방법론 자체는 전혀 잘못이 아니다. 원래 인문학이 그런거다. 논리적 문제만 없다면 추정의 전개 자체로 의미있는거다. 지금까지 그래왔고. 하지만 명칭의 호도성만 짚어 두고 싶었다.


여섯저자

그러다보니 여섯 저자의 여섯 챕터가 관점의 색채와 본질탐구의 열기가 다르다. 다양성이 좋았다. 하지만 읽는 RoI 따지는 독자에겐 끼워팔기 같은 느낌이 들지도 모르겠다.

 

Inuit Points ★★★★

아침 지하철은 일상성에 묻히다보니 충전적이진 않다. 하지만 책을 읽는 동안은 발랄한 기운이 좋았다. 솔직히 크게 배울 점이나 눈여겨볼 내용은 없었다. 그래도 내가 가진 크고 작은 화면 밖의 다른 화면들 세상을 정리해서 보여주니 내겐 그런 느낌 모두가 배움이었다. 그리고 필력과 사고의 깊이가 다른 여섯 저자의 챕터들이 그래도 표피적 일관성을 유지하려는 노력도 높이 평가할만하다. 그래서 3점은 주기 미안해 4점이다. 재미있었으니까.

빅데이터 관련, 세번째 책이다.
둘째 책 '빅데이터가 만드는 세상'에서 내가 필요한 빅데이터 관련한 함의는 이해했다.
이번에 이 책은 가볍게 관점을 틀어보고자 하는 목적이었다.

함유근 채승병

그런 면에서 이 책 역시 만족이다.

SERI의 데이터 연구 전문가 답게 꼼꼼한 논증과 풍부한 사례가 강점이다.

책이 짚고 있는 빅데이터의 함의는 다음과 같다.
1. 생산성 향상: 센서의 적극 활용 및 SCM의 재설계
2. 검색이 아닌 발견에 의한 문제해결: 예측 및 맞춤화
3. 의사결정의 과학화, 자동화: MIS에서 BI를 넘어, 빅데이터를 통한 비즈니스 insight를 통해 의사결정

그리고, 빅데이터를 활용한 비즈니스 케이스를 정리한 것은 매우 좋은 참고가 된다.
고객 행태, 컨텍스트 인식, 센서에 의한 의사결정, 스마트화, 복잡성하에서의 불확실성을 다루는 주제별로 유관한 사례를 모아 놓았다.

미리 사놓은게 아까와서 읽었는데, 시간 낭비란 생각은 들지 않았다.
그리고, 앞서 읽은 책에서 필요한 부분을 파악해 두었기에 부담없이 볼 수 있었다.

총평이다.
이 책은 매우 알뜰살뜰하다. 글쓴이의 공들인 흔적이 느껴져 독자로서 만족스럽다.
굳이 따지자면, 빅데이터 관련한 쇤버그의 책이 철학적이라면 이 책은 공학적이다.
장단점보다는 색깔의 문제라고 본다. 
그리고 유사 주제 공간 상, 포지션을 잘 잡은 책이기도 하다.


'Biz > YES!' 카테고리의 다른 글

빅데이터, 경영을 바꾸다  (3) 2013.08.10
당신의 인생을 어떻게 평가할 것인가  (5) 2013.06.22
호두까기인형  (8) 2009.12.25
[잉여부활 YES!] 인간은 한마리 정서적 도마뱀이다  (15) 2009.10.21
아직 끝나지 않은 이벤트  (31) 2009.10.12
Errata  (14) 2009.10.09
  1. BlogIcon 고어핀드 2013.08.14 00:32

    한 마디 덧붙이자면, 채승병 박사님의 다른 책인 '복잡계 개론'도 매우 좋은 책입니다. :) (*저도 이 책 조만간 사서 읽을 계획입니다.)

    • BlogIcon Inuit 2013.08.15 14:03 신고

      네. 원래 복잡계 쪽이 더 전문인듯 하던데요..

  2. 2013.08.24 12:13

    비밀댓글입니다

Viktor Mayer-Schonberger

(Title) Big data: A revolution that will transform how we live, work and think


'빅데이터는 이 책으로 완성이다.'

TRIZ에서도 보듯, 난 한 주제를 공부할 때 관련된 책을 여러권 집중적으로 읽는다. 대개 내게 생소한 분야니까 시행착오도 있지만 여러권 읽다보면 분명 내가 원하는 줄거리와 통찰을 찾게 마련이다.

빅데이터 관련한 두번째 책인데, 이 책을 1/3 정도 읽었을 때 그런 확신이 들었다.
'빅데이터 개념 잡기에는 이만한 통찰과 퀄리티가 없겠군.'
'나머지 책은 각주다.'

어찌보면 먼저 읽은 책의 대비효과일수도 있겠다.
그러나, 이 책은 최소한 내 입맛에 꼭 맞췄다.
빅데이터의 함의와 비전 같은 큰 그림을 원했기에.

제일 먼저 이 책의 매력을 느낀 것은 짧은 한 마디 선언이다.

빅데이터는 인과관계에서 상관관계로의 전환이다.

이 말을 듣는 순간 정말 모호하던 빅데이터가 내겐 또렷이 이해되었다.
인과관계(causality) 사고에서 상관관계(correlation) 사고의 틀로 이동하는 것은 혁명적 전환이다.
피 흘리고 땀 흘리지 않으면 닿기 힘들다는 뜻이기도 하다.
또한, 기득권의 권력구조에 심대한 변화가 생긴다는 의미다.
왜? 인과관계를 찾아주는 전문가가 필요 없이, 빅데이터로 상관관계만 뽑으면 어차피 정확한 답을 얻을 수 있으니까.

빅데이터 관련한 수많은 명제를 이렇게 하나로 추려내니 다음은 쉽다.
빅데이터의 가치사슬을 저자는 data - tech - idea로 정리하는데, 솔직히 이 부분은 통찰이 넘치지는 않는다.
오히려 간결하고 아름다운 개념에 누가 되는 프레임웍이다.

그러나, 좀 더 지나면 빅데이터가 가져올 미래의 리스크들, 프라이버시에 대한 다양한 문제 소지들에 대한 정리는 눈여겨 볼만하다.

이미 우린 빅데이터 세상에 살고 있다. 내가 행위의 주체든 객체는 나의 모든 행동은 매일 축적되는 데이터를 구성하며, 또 내가 일하는 재료가 빅데이터가 되기도 한다. 개인정보는 물론이고 법적 클레임의 소지가 다분하다. 빅데이터는 그 자체로 너무 크기 때문에 모든 경우를 법적으로 보장하기 매우 어렵다. 또한 인과관계가 아니라 상관관계이므로 지금 허용한 데이터의 용도는 미래에 다르게 사용될 가능성이 훨씬 많다. 때 되면 정리 되겠지만 그 안에 리스크를 쌓지는 않을 필요도 있다.

아무튼, 매우 만족스럽게 읽었다.
빅데이터 관련해서 딱 한권만 읽겠다면 단연 이책을 추천한다. 


'Review' 카테고리의 다른 글

10년 후 미래를 바꾸는 단 한장의 인생설계도  (0) 2013.08.18
One page 정리기술  (2) 2013.08.03
빅데이터가 만드는 세상  (0) 2013.07.27
맥루언 행성으로 들어가다  (0) 2013.07.20
빅데이터 혁명  (0) 2013.07.13
실용 트리즈  (0) 2013.07.06

권대석

(부제) 클라우드와 슈퍼컴퓨팅이 이끄는 미래


빅데이터 공부로 읽는 첫번째 책이다.
빅데이터에 대해 어느 정도는 알고 있다.
하지만, 빅데이터가 가진 디테일한 함의를 알고 싶었다.

그중 고르고 고르다 첫째로 뽑은 책인데, 이유는 권대석 저자의 이력 때문이다.
클루닉스라는 클라우드 컴퓨팅 업체의 사장으로, 인더스트리 입장에서 전체적인 조감을 할 수 있으리라 여겼다.

결론은 그냥 저냥 나쁘지 않다.
빅데이터의 개념을 잡기에 좋고, 즐겁게 읽을만한 사례도 많다.
예를 들면..
양판점 Target에서 여고생에게 임신 용품 할인 쿠폰을 보내왔다.
아버지는 여고생에게 그런걸 보냈다고 찾아가 화를 냈고, 점포에서는 사과를 했다.
하지만 며칠지나 아버지는 다시 사과를 했다고 한다. 임신 맞다고.
어떻게 타겟에서는 여고생의 임신을 그 누구보다도 먼저 알았을까.
물론 답은 빅데이터다.

단점부터 말한다.
망치가진 사람은 모든게 못으로 보인다고 했다.
권대석 저자는 빅데이터를 슈퍼컴퓨팅의 관점에서 해석하는 경향이 강하다.
물론 슈퍼컴퓨터와 클라우드가 빅데이터를 유효하게 만드는 주요 인프라임에는 틀림없다.
하지만, 책 전반에 흐르는 슈퍼컴퓨팅의 기조는 빅데이터에 대한 개념을 편향되게 한다.
최소한, 사회적, 사업적 함의보다 기술레벨에 머물게 만든 점이 아쉽다.

하지만, 이런 관점적 아쉬움을 떼어 놓으면 내용은 나쁘지 않다.
빅데이터의 3대요소인 3V (Variety, Volume, Velocity) 측면에서 기술적 토대부터 탄탄히 서술하는 점은 나도 많이 배웠다.
전체 내용의 편제도, 공부한 사람답게 논리적이고 깔끔하다.

마지막 챕터는 사족이다.
국가 정책에 대한 제언의 형태로 사회적 함의를 짚는 시도는 좋았다.
하지만, 이건 책의 범주를 넘어 시사 컬럼 같은 느낌을 자아내는 무거운 기조는 의아했다.
마치 책 쓴 목적이, 정책적인 부분에 반영되길 바라는 마음이고 마지막 챕터가 사실 책의 존재이유이기라도 하듯 한없이 무겁고 끈끈한 느낌이다.

결국, 별 세개 줬다.


'Review' 카테고리의 다른 글

빅데이터가 만드는 세상  (0) 2013.07.27
맥루언 행성으로 들어가다  (0) 2013.07.20
빅데이터 혁명  (0) 2013.07.13
실용 트리즈  (0) 2013.07.06
이것은 수학입니까  (2) 2013.06.29
비즈니스 트리즈, 성공하는 기업의 문제해결 노하우  (0) 2013.06.15

+ Recent posts