4 고차원 분산분석
4.1 Three-way ANOVA에 대해 알아보자
4.1.1 독립변수가 더 많아진다면?
이제 분산분석을 다 공부했습니다. 남아있는 의문이 있다면 아마도 독립변수가 3개 이상이라면 어떨까? 라는 생각이 들 수 있습니다. 사실 얼마든지 분석이 가능합니다. 특히나 지금은 컴퓨터의 성능이 좋아져서 계산이 불가능하지 않습니다. 결론적으로 문제는 해석이 매우 어려워진다는 점입니다. 솔직히 3 개 이상의 독립변수를 넣어서 분산분석을 하는 것을 저는 개인적으로 추천하지 않습니다. 가끔 논문에 Three-way ANOVA가 등장하기는 하지만 솔직히 해석도 어렵고 특히나 이를 그래프로 그리기도 어렵습니다. 3D로 그려야 하기 때문인데 이 경우 3D 그래프를 움직이면서 interactive하게 보지 않으면 이해가 어렵기 때문입니다.
단수한 예로, 만약 독립변수가 3 개라면 Main Effect는 당연히 3 개이고, Two-way interaction은 \(3 \times 2 \div 2 = 3\)개가 되고 Three-way interaction은 한 개가 됩니다. 여기서 다시 독립변수가 한 개 더 늘어서 4 개가 되면, Main Effect 4개, Two-way interaction \(4 \times 3 \div 2 = 6\)개가 되고, Three-way interaction \(4 \times 3 \times 2 \div 6 = 4\)개, 그리고 Four-way interaction 한 개가 됩니다. 이런 식이 되면 이제 interaction이 많아서 문제이기도 하지만 각 interaction에 대한 해석이 어려워집니다. 그래서 일반적으로는 이원배치 분산분석 이상을 하지 않습니다.
Three-way ANOVA의 F-value 계산방법은 유투브 강의에 올려놓았습니다만, 그 방법을 여기서 반복 설명하는 것은 큰 의미는 없을 것 같습니다. 어차피 계산이야 컴퓨터와 통계 소프트웨어가 해주니까요. 문제는 테스트 결과를 해석하는 것도 매우 어렵다는 것입니다. 예를 들면 이렇습니다.
4.1.2 Three-way ANOVA에서 Two-way interaction의 해석
- 변수 A와 B의 interaction effect는 다른 변수 C의 모든 그룹(=레벨)의 평균을 전제하고 난 후, 변수 A의 효과가 모든 그룹(=레벨)의 변수 B에서 똑같이 나타나는지 아닌지 확인하는 것을 의미
- 변수 A와 C의 interaction effect는 다른 변수 B의 모든 그룹(=레벨)의 평균을 전제하고 난 후, 변수 A의 효과가 모든 그룹(=레벨)의 변수 C에서 똑같이 나타나는지 아닌지 확인하는 것을 의미
- 변수 B와 C의 interaction effect는 다른 변수 A의 모든 그룹(=레벨)의 평균을 전제하고 난 후, 변수 B의 효과가 모든 그룹(=레벨)의 변수 C에서 똑같이 나타나는지 아닌지 확인하는 것을 의미
위의 설명이 이해가 되시나요? 이렇게 복잡해지는 이유는 변수가 3개이기 때문입니다. 두 변수의 interaction이지만 나머지 한 변수의 수준이 바뀌면 interaction 자체가 바뀔 수 있기 때문에 기본적으로 나머지 변수에 대해서는 평균을 전제로 합니다. 만약 Three-way가 Four-way로 확장되면 나머지 두 변수의 수준이 모두 평균으로 전제 혹은 가정하고 보는 것입니다. 쉽게 이해되기 어렵습니다. 문제는 또 있습니다.
4.1.3 Three-way ANOVA에서 Three-way interaction의 해석
- \(Interaction_{A \times B}\)의 효과가 모든 레벨(=그룹)의 변수 C에서 똑같이 나타나는지 확인하는 것을 의미
- \(Interaction_{A \times C}\)의 효과가 모든 레벨(=그룹)의 변수 B에서 똑같이 나타나는지 확인하는 것을 의미
- \(Interaction_{B \times C}\)의 효과가 모든 레벨(=그룹)의 변수 A에서 똑같이 나타나는지 확인하는 것을 의미
게다가 Three-way ANOVA가 되면 3D로 그림을 그리면서 설명해야 하는데, 정확한 의미를 전달하고 설명하려면 단순한 그림이 아니라 움직이는 그래픽이나 아예 영상으로 돌려가면서 보여줘야 합니다. 설명도 어렵지만 보여주기도 쉽지 않습니다.
4.1.4 고차원 분산분석에 대한 집착
사실 통계를 처음 공부하다 보면 좀 더 복잡하고 어려운 방법이 더 좋은 것이라는 착각을 하기도 합니다. 하지만 전혀 그렇지 않습니다. 많은 변수를 투입한다고 하여 좋은 모델이라거나 연구가 되지는 않습니다. 또한, 이 세상의 모든 변수를 다 집어넣어야 하는 것도 아닐 뿐더러 그럴 수도 없습니다. 핵심은 분석의 목적에 맞게 중요한 변수를 중심으로 분석하는 것이 필요합니다.
통계에는 Parsimonious라는 개념이 있는데 이 개념이 중요합니다. Parsimonious란 가장 단순한 모델 혹은 이론을 바탕으로 최소한의 전제조건과 변수를 이용해 분석할 때, 가장 훌륭한 결과와 해석이 가능하다는 의미입니다. 결과 해석도 못하면서 아무 변수나 때려 박는 것은 무책임할 뿐 아니라 바보입니다. 통계분석의 목적이 학문적 연구일 경우에는 특히 이론을 바탕으로 기존의 연구를 충분히 읽고 이를 이용해 논리적인 가설을 세워 진행해야 합니다. 어떠한 경우에도 통계분석의 목적이 실질적인 이득을 위한 경우라면 parsimonious 원칙은 중요합니다.
4.2 Three-way ANOVA를 실습해 보자
- 실습용 데이터: Two-way ANOVA 실습 데이터와 동일
- https://www.kaggle.com/ 에 접속하여 좌측 상단의 검색창에 Telco Customer Churn을 검색하여 검색된 최 상단의 것을 클릭
- 우측 중간의 Download를 클릭하여 데이터 다운로드
- Github 다운로드