빅데이터 인문학이라고 하면 빅데이터라는 기술을 인문학적 관점에서 대략적으로 설명한 것이라고 생각할 것이다. 그러나 ‘800만권의 책에서 배울 수 있는 것들’이라는 부제를 잘 봐야 한다. 실제로 이 책의 내용은 전반적이고 추상적인 설명과는 거리가 멀다. 오히려 아주 현실적이고 구체적이며, 책의 내용 전체가 하나의 일화같이 느껴진다. 작가 장바티스트 미셸과 에레즈 에이든은 800만권의 책을 디지털화해서, 단어들을 엔그램이라는 단위로 나눈다. 그리고 책 속에 등장하는 단어의 빈도를 그래프로 나타내는 엔그램 뷰어(Ngram Viewer)이라는 프로그램을 만든다. 이 프로그램을 활용하면 각 단어의 생성과 소멸이 당시 어떤 사회현상으로 인한 것인지 알 수 있다. 예를 들어 ‘진화’라는 단어는 1859년 다윈의 책 <종의 기원>이 출간된 후로 급격하게 늘었고, ‘DNA’라는 말은 1953년 왓슨과 크릭, 프랭클린의 이중나선 구조 발견 이전에는 한 번도 안 쓰이다가 발견 후 급속도로 늘어서 2000년대에는 ‘진화’라는 말보다 더 많이 쓰이고 있다.
이렇게 단순한 것들을 넘어선, 더 깊은 논의도 충분이 가능하다. 나치 정권은 ‘반게르만적 정서’를 가진 책들을 불태우고 미술작품을 아무렇게나 전시하고 조롱했으며 사상이 맞지 않는 사람들을 죽이고 목소리를 탄압했다. 나치는 블랙리스트를 만들어서 작가, 정치인, 역사학자, 철학자, 종교인들을 억압하기 시작했는데, 이것은 선명하게 하나의 그래프로 나타난다.
억압당한다는 것은 명성이 깎인다는 것을 의미한다. 나치의 블랙리스트에 오른 사람들은 억압의 대상이 되자 작품이 파괴되고 언급이 확연히 줄었다. 그래프를 보면 (167쪽) 1933년과 1945년 나치정권 사이 블랙리스트 인사들은 독일어 책에서 언급된 빈도가 약 10년 전 수준으로 되돌아갔다. 반면 나치 관련 인사들의 명성은 그 기간에 최고조를 찍었다. 이보다 더 대조적일 수 없는 것이다.
엔그램 뷰어의 특출난 기능이 소개되자 구글은 구글 북스에 엔그램 뷰어를 설치했다. 미셸과 에이든이 그렇게 많은 책을 디지털화할 수 있었던 것도 구글이 책 디지털화 사업을 먼저 시작했고 구글의 데이터를 쓸 수 있었기 때문이다. 그러나 책 말고도 SNS 자료 등 다른 것들까지, 더 긴 시간동안 모인다면? 몇 학자들은 빅데이터가 보여준 과거를 통해 미래를 예측할 수 있을 것이라고 말한다. 부익부 빈익빈 현상처럼, 어떤 상승하는 데이터는 계속 상승하고 하강하는 데이터는 계속 하강하기 때문이다. 이것은 더 나아가 미래는 이미 정해져있다는 결정론적 관점과 맞닿기도 한다. 자연과학자들은 사회현상에는 통제할 수 없는 변인이 너무 많기 때문에 과학이 아니라고 하지만, 이제 그것이 바뀔지도 모르겠다. 인간이 축적한 데이터가 인간의 미래를 결정짓는다면 심리상태나 갑작스러운 사건 등을 ‘통제될 수 없는 변인’이라고 할 수 없을 것이다. 오히려, 그것들은 통제변인의 한 요소가 되어 미래를 보여주는데 일조할 수도 있다. 이런 결정론적 관점은 아직 확실하지 않으며 그저 가능성으로만 남아있을 뿐이다. 그러나 지금 빅데이터가 맞춤 광고를 내보내는 등 소비자가 미래에 뭘 필요로 하는지 맞출 수 있다면, 나중 빅데이터는 사회현상을 알아맞출 잠재력을 갖출 정도로 성장할 것이라고 생각한다.