얼마 전 농촌진흥청에서 보도자료 하나가 왔다. 반가운 소식이었다. “농촌관광이 활성화되고 있다”는 이야기였다. 제목도 거창했다. “459만 명의 국민들이 농촌 관광 경험이 있다는 조사 결과가 나왔다.” 적어도 인구의 12분의 1은 농촌을 방문해서 식사를 하고, 주변을 둘러 보고, 기념품을 산다는 뜻이다. 고무적인 일이었다.

그러나 문제는 그 다음부터였다. “이 조사는 3000명의 응답자를 대상으로 뿌렸고, 24.2%가 충실히 답변을 기입했다.” 기함을 토할 수 밖에 없었다. 농촌진흥청과 같은 박사 조직이 통계학과 연구윤리를 이해하지 못하고 있는 것인가?

통계학 이론을 적용해 보면 왜 농진청의 주장이 잘못됐는지 알 수 있다. ‘5000만 국민들’은 조사자들이 궁금해 하는 ‘모집단’이다. 전문가가 분석하고 싶어 하는 대상을 뜻하는 말이다.

그러나 경제적, 물리적 이유로 5000만 명을 대상으로 전수 조사를 하기 어렵기 때문에 ‘3000명’이라는 표본집단을 대상으로 설문 조사를 돌릴 수 있다. 표본 집단을 추출해 내는 방식도 통계적 타당성이 있어야 한다. 응답 방식이 편향적일 수 있기 때문이다. 통계학자들은 그래서 임의 추출(random sampling) 방식, 특정 분야 전문가에게 조사 자료를 자문받아 돌리는 선택적 추출(selective sampling) 방식 등 다양한 조사 기법을 고안해 냈다. 데이터의 신뢰를 강화하고, 보다 객관적인 현상 분석이 가능하게 하기 위해서다.

예를 들어 농촌진흥청의 분석 자료는 “우리 국민들 중 XX%는 농촌 관광 경험이 있다고 판단 된다”는 식으로 요약 가능하다. 그러나 3000명과 24.2%의 응답자 그리고 ‘이용 경험이 있다’고 말한 사람들의 비중을 곱한 다음 5000만 명에 적용하는 방식은 이론적으로도, 연구윤리 관점으로도 말이 안 된다.

더 심각한 것은 이런 식으로 생산되는 공공 데이터와 통계가 매우 많다는 것이다. 어떤 산업에 대해 10~20년 치 패턴을 분석해 보려고 해도 자료들이 제대로 기입되어 있지 않거나 아예 몇 년 치 자료가 빠져 있는 경우가 많다. 정부 당국자들에게 물어보면 “사정이 그러하니 이해하라”는 답변이 돌아오기 일쑤다. 이래가지고서 과연 빅데이터 행정이 가능하겠으며, 제대로 된 판단에 기초한 정책이 되겠는가.

정부출연 연구기관 사람들을 저녁에 만나 보면 하는 이야기가 있다. “한국은 통계적 허구에 빠져 있는 나라다.” 입맛에 맞게, 홍보하기 좋게 가공돼 나오는 데이터가 넘쳐날수록 손해를 보는 것은 산업이고 국민이다.