반응형
상황 파악부터 결론 도출까지 데이터에 숨겨진 진실을 찾는 4단계 의사결정 프레임워크 ![]() |
추론 통계학의 설계도![]() |
| ※ “무엇을 비교/분석하는지, 왜 이 방법 쓰는지”까지 반드시 쓰기 ※ 무엇을 위해 (목적, ~하기 위해 ), 왜 이 방법 (이유, ~이므로 적절하다 ), 결과 해석 (유의하면 뭐라고?) ※ “~을 비교하기 위해 ○○을 사용한다.”, “~이므로 적절하다.”, “유의하다면 ~라고 해석할 수 있다.” 1. 두 그룹 평균 비교 → 독립표본 t-검정 (두 집단 비교) - 상황 : 두 집단 (남자 / 여자, A / B) - 두 집단의 평균 차이를 비교하기 위해 독립표본 t-검정을 사용하며 두 집단은 서로 독립적이므로 적절하다. - 남학생과 여학생 두 집단의 평균 점수 차이를 검정하기 위해 독립표본 t-검정을 사용한다. 두 집단은 서로 독립적인 집단이므로 해당 방법이 적절하다. 검정 결과 유의수준 하에서 통계적으로 유의한 차이가 나타난다면 두 집단 간 평균 점수에는 차이가 있다고 해석할 수 있다. 2. 세 그룹 이상 평균 비교 → 분산분석 ANOVA (3개 이상 비교) - 상황 : A반, B반, C반 - 세 집단 이상의 평균 차이를 비교하기 위해 분산분석(ANOVA)를 사용하며 t-검정은 두 집단만 가능하므로 ANOVA가 적절하다. - A반, B반, C반 세 집단 이상의 평균 차이를 비교하기 위해 분산분석(ANOVA)을 사용한다. t-검정은 두 집단 간 비교에만 적합하므로 세 집단 이상의 비교에는 ANOVA가 적절하다. 분석 결과 유의한 차이가 나타나면 적어도 한 집단의 평균은 다른 집단과 차이가 있다고 해석할 수 있다. 3. 같은 대상 전후 비교 → 대응표본 t-검정 (전후 비교) - 상황 : 시험 전 / 시험 후, 치료 전 / 치료 후 - 동일한 대상의 전후 차이를 비교하기 위해 대응표본 t-검정을 사용하며 두 집단이 서로 연결된 자료이므로 적절하다. - 동일한 학생들의 시험 전후 점수 차이를 비교하기 위해 대응표본 t-검정을 사용한다. 두 측정값은 동일한 대상에서 얻어진 대응 자료이므로 해당 방법이 적절하다. 검정 결과 유의한 차이가 나타난다면 학습 전후 점수 변화가 통계적으로 유의하다고 해석할 수 있다. 4. 두 변수 관계 확인 → 상관분석 (관계 확인) - 상황 : 키 / 몸무게, 공부시간 / 점수 - (피어슨) 두 연속형 변수 간 선형 관계를 확인하기 위해 피어슨 상관분석을 사용한다. 공부시간과 시험점수 간의 선형적 관계를 확인하기 위해 피어슨 상관분석을 사용한다. 두 변수는 연속형 자료이며 선형 관계를 가정할 수 있으므로 적절하다. 상관계수가 유의하다면 두 변수 간에는 통계적으로 유의한 상관관계가 존재한다고 해석한다. - (스피어만) 순위 또는 비정규 데이터의 관계를 확인하기 위해 스피어만 상관분석을 사용한다. 두 변수의 순위 간 관계를 파악하기 위해 스피어만 상관분석을 사용한다. 비정규분포 또는 순위 자료에 적합한 방법이다. 분석 결과 유의하다면 변수 간 순위 관계가 존재한다고 해석할 수 있다. 5. 예측 문제 (가장 중요) → 회귀분석 - 상황 : 점수를 예측, 매출을 예측 - (단순회귀) : 하나의 독립변수를 이용해 종속변수를 예측하기 위해 단순 선형회귀분석을 사용한다. 공부시간이 시험점수에 미치는 영향을 분석하고 점수를 예측하기 위해 단순 선형회귀분석을 사용한다. 하나의 독립변수를 이용하여 종속변수를 설명하는 상황이므로 적절하다. 회귀계수가 유의하다면 공부시간은 점수에 유의한 영향을 미친다고 해석할 수 있다. - (다중회귀) : 여러 독립변수를 활용하여 종속변수를 예측하기 위해 다중 선형회귀분석을 사용한다. 공부시간, 수면시간 등 여러 요인이 시험점수에 미치는 영향을 동시에 분석하기 위해 다중 선형회귀분석을 사용한다. 복수의 독립변수를 고려하는 상황이므로 적절하다. 각 회귀계수가 유의하다면 해당 변수는 점수에 유의한 영향을 미친다고 해석할 수 있다. 6. 비율 차이 비교 → 카이제곱 검정 (비율 비교) - 상황 : 남녀 합격률, 흡연 여부 / 질병 - 범주형 변수 간 비율 차이를 분석하기 위해 카이제곱 검정을 사용한다. - 남녀 간 합격 여부와 같은 범주형 변수 간의 비율 차이를 분석하기 위해 카이제곱 검정을 사용한다. 두 변수 모두 범주형 자료이므로 해당 방법이 적절하다. 검정 결과 유의하다면 두 변수 간에는 독립이 아니며 즉 관련성이 있다고 해석할 수 있다. 7. 데이터 요약/탐색 → 탐색적 데이터 분석 (EDA) - 상황 : 분석 전 데이터 확인 - 데이터의 전반적인 특성을 파악하기 위해 평균, 분산 등의 기술통계 및 그래프를 활용한 탐색적 데이터 분석을 수행한다. - 분석에 앞서 데이터의 전반적인 분포와 특성을 파악하기 위해 평균, 분산 등의 기술통계와 그래프를 활용한 탐색적 데이터 분석을 수행한다. 이를 통해 데이터의 이상치 및 분포 형태를 확인하고 이후 분석 방법 선택에 도움을 줄 수 있다. |
통계 분석 의사결정 트리![]() 공식을 외우는 것이 아니라 데이터의 형태와 분석 목적에 맞는 정확한 도구를 선택하는 것이 추론 통계학의 핵심 |
![]() ![]() |
![]() |
![]() ![]() ![]() |
![]() ![]() |
![]() |
![]() ![]() |
![]() ![]() |
![]() ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
반응형
'[Industry Knowledge Sharing] > Graduate' 카테고리의 다른 글
| Social Network Analysis Python (0) | 2026.05.17 |
|---|---|
| Graph Neural Networks(GNN) / Graph Convolutional Networks(GCN) (0) | 2026.05.17 |
| 10. 상관분석에서 다중회귀분석까지 관계의 발견과 인과관계 (3) | 2026.05.05 |
| Social Network Analysis (0) | 2026.05.02 |
| Statistical Research Methodology Key Definition Description (0) | 2026.04.28 |

























