두 달 전 쯤 연구모임 소식지에 쓴 간단한 글이다. 거창한 제목에 이런 저런 말을 했지만 한 줄로 요약하면 다음과 같다. “종교연구자들이여 가끔 엔그램 하고 놀자.”
1. 요즘 유행하는 ‘빅데이터’라는 것이 혹시 내 공부와도 연결될 수 있을까 궁금해서 책을 조금 뒤적거려 보았다. <빅데이터로 세상을 지배하는 사람들>(세종서적, 2014)에는 빅데이터가 어떻게 사용되는지 여러 사례들이 나온다. 누군가는 쇼핑카트로부터 정보를 수집하여 구매 패턴과 브랜드 충성도를 분석한다. 누군가는 블로그 글들을 수집하여 성향에 따라 인간군을 선별한다. 선별된 인간 유형은 마케팅, 선거 전략, 수사, 연애 사업 등에 활용된다. 이전 같으면 별 쓸모가 없는 잡스러운 정보들이 ‘많음’을 바탕으로 새로운 쓸모를 찾아나가는 방식이 흥미롭다. 하지만 돈을 벌거나 실제적인 활용을 위한 고민들이 대부분이다 보니 학자의 입장과는 다른 것도 사실이다. 새로 등장한 다량의 데이터를 종교를 이해하는 데 쓸모 있는 것으로 만들기 위해서는 뭔가 획기적인 아이디어가 필요하다는 막연한 투지가 솟아오른다.
2. 학문적 입장에서 빅데이터의 실질적인 사용은 <빅데이터 인문학>(사계절, 2015)을 통해 볼 수 있다. 이 책의 저자는 구글과 협력하여 엔그램Ngram(
링크 참조1)이라는 툴을 개발한 인문학 대학원생들이다. 그들은 빅데이터가 전통적 학문의 기준에서 유효한 자료임을 잘 안다. 하지만 그들은 연도별로 단어의 수를 세는 시스템을 통해, 학문적 유용성을 지니면서 저작권 문제도 없는 자료를 생산하는 데 성공한다. 최근에 구글은 세계 도서의 4분의 1에 해당하는 3000만 권의 책을 디지털화했는데(그리고 이 수치는 앞으로 급증할 것이다.), 엔그램이라는 도구는 그 책더미에서 특정 단어가 몇 번 나오는지는 세어준다.
단어의 수라는 단순무식한 통계가 의미가 있을까? 저자들은 여러 가능성을 보여준다. 그들은 영어에서 사용빈도가 높은 동사들을 제외하고는 불규칙동사가 규칙동사로 전환되는 언어적 추이가 있다는 가설을 세운다. 엔그램을 돌려보면 ‘thrive’의 과거형인 ‘throve’가 어느 시점부터는 ‘thrived’로 대체되었음을 볼 수 있다. 반면에 ‘drove’처럼 사용빈도가 높은 불규칙동사들만 여전히 사용되고 있다. 단어 수를 세어서 확인하는 엄청난 노가다가 이제 몇 초만에 가능하기에 때문에 이 가설을 입증할 수 있는 것이다.
3. 종교학자는 ‘사람들이 무엇을 일컬어 종교라고 하는가?’에 관심을 갖고 있다. 단어수라는 단순무식한 정보는 사람들의 인식 속의 종교라는 대상을 그려 보이는 데 도움을 줄 수 있다. 저자들은 종교와 관련해서 이런 예들을 제시한다. “데이터data가 신God을 이겼다”(
링크 참조2), “종교와 과학”(
링크 참조3), “이슬람과 가톨릭”(
링크 참조4). 엔그램의 사용법은 간단하다. 입력창에 원하는 단어나 단어들을 넣기만 하면 표를 작성해준다. 이 글을 읽고 있는 선생님들도 다양한 사고 실험들을 해보았으면 한다. 갖고 놀다보면 뜻밖의 결과가 나올 수 있는 도구이다.
4. 대학교 저학년 시절에 윌프레드 캔트웰 스미스의 <종교의 의미와 목적>을 읽을 때 일이 생각난다. 책의 의미를 제대로 파악하지 못했던 미숙한 독자였지만, 그런 내게도 도표 하나가 인상적이었다. 표를 보니까 ‘religion’은 유럽이 비서구권을 만나기 이전에는 별로 사용되지 않았던 언어임을 대번에 알 수 있었다. 종교가 만남에서 비롯한 언어라는 핵심 주제가 시각적으로 전달된 셈이었다. 1960년에 스미스는 이 도표를 만들기 위해 대영박물관의 서지목록에 수록된 639권의 책제목에서 ‘religion’이나 ‘faith’의 숫자를 세었다. 그런데 이제 우리는 그와는 비교도 되지 않는 고도의 데이터를 순식간에 작성할 수 있다.(
링크 참조5) 이 도구를 사용해서 우리는 ‘종교학’의 영어 명칭의 변화도 순식간에 알 수 있다.(
링크 참조6)
5. 이 정도 빅데이터는 아니어도 내 작업에 단어수라는 수치 자료가 사용된 것은 몇 년 되었다. 글을 쓰거나 번역어를 선택할 때, 어느 단어가 좋을지를 고민할 때, 나는 습관적으로 구글에서 검색결과가 몇 개 나왔는지를 비교해본다.(예를 들어 주물숭배 2만 9천개, 서물숭배 1만개, 물신숭배 25만개, 페티시즘 93만개) 어느 단어가 한국어 언중에게 지지받는 지를 확인하는 것이다. 물론 수가 많다고 그 단어를 선택하는 것은 아니지만, 적어도 검색결과 수치는 그 단어에 대한 언중의 반응(친숙함 혹은 낯섦)을 짐작하게 해주는 데이터로 참고가 된다.
위에서 소개한 엔그램은 아직 서양 언어만을 대상으로 한다. 한국어 자료의 디지털화도 많이 진행되었지만, 하나의 통합적 체계 안에 검색하기까지엔 다소 시간이 걸리리라 생각된다. 만약 한국어 단어도 셀 수 있다면, 나는 기독교라는 단어가 언제부터 예수교나 다른 명칭을 압도하게 되었는지부터 검색할 것 같다. 하느님/하나님, 무속/무/무교의 빈도 추이 등 한국인이 종교전통을 일컫는 방식에 대한 빅데이터가 금방 생성될 것이라는 즐거운 상상을 해본다.