빅 데이터 분석에서 상관성과 인과성

On correlation and causality in the analysis of big data

마이어-쉔베르거와 쿠키어(Mayer-Schönberger and Cukier, 이하 MSC)는, 빅 데이터의 세계에서는 인과성보다 상관성이 실용적으로 더 유용하고 효율적이라고 주장한다.[4] 더 나아가, 빅 데이터의 세계에서는 인과성에 토대한 분석이나 예측이 상관성에 토대한 분석이나 예측에 밀려 주목받지 않거나 도태될 것이라 주장한다. 이 글에서 필자는, 상관성이 빅 데이터의 현상을 분석하고 이를 토대로 미래를 예측하는 데에 충분하다는 MSC의 논증들을 비판적으로 검토한다. 2장에서는 빅 데이터의 세계에서 상관성이 우월하다는 MSC의 논증을 소개한다. 3장에서는 상관성은 그 자체만으로 충분히 실용적이고 유용하다는 MSC의 논증을 비판한다. 상관성과 인과성의 차이에 대한 오해를 지적하고 심슨(Simpson) 역설로 그 차이가 왜 중요한지를 보여준다. 4장에서는 빅 데이터 분석에서 인과성이 상관성보다 비효율적이라는 MSC의 논증을 비판한다. 특별히 인과성을 증명하는 수학적 방법이 없다는 주장의 오류를 보여준다. 구조방정식에 토대한 인과 모형의 수학적 이론들을 제시하고, 이들 이론으로 인과성이 빅 데이터 분석에서 매우 유의미하고 유용한 역할을 할 수 있다는 것을 보여준다.

Mayer-Schönberger and Cukier(2013) explain why big data is important for our life, while showing many cases in which analysis of big data has great significance for our life and raising intriguing issues on the analysis of big data. The two authors claim that correlation is in many ways practically far more efficient and versatile in the analysis of big data than causality. Moreover, they claim that causality could be abandoned since analysis and prediction founded on correlation must prevail. I critically examine the two authors’ accounts of causality and correlation. First, I criticize that corelation is sufficient for our analysis of data and our prediction founded on the analysis. I point out their misunderstanding of the distinction between correlation and causality. I show that spurious correlation misleads our decision while analyzing Simpson paradox. Second, I criticize not only that causality is more inefficient in the analysis of big data than correlation, but also that there is no mathematical theory for causality. I introduce the mathematical theories of causality founded on structural equation theory, and show that causality has great significance for the analysis of big data.



1. 들어가는 말

2. 빅 데이터의 세계에서 상관성의 우월성에 대한 주장들

3. 상관성과 인과성의 관계에 대한 오해와 문제

4. 인과의 수학적 모형: 인과모형 이론과 빅 데이터 분석에서 그 이론의 응용

5. 나가는 말

