본문 바로가기
[Industry Knowledge Sharing]/Graduate

10. 상관분석에서 다중회귀분석까지 관계의 발견과 인과관계

by David Jeong7 2026. 5. 5.
반응형

상관분석 및 회귀분석의 핵심 내용

 

상관분석과 회귀분석의 개념 및 실무적 적용 방법을 체계적으로 다룬 자료입니다. 상관분석은 변수 간의 밀접도와 방향성을 수치화하며, 회귀분석은 변수 사이의 인과관계를 구체적인 함수식으로 표현하여 미래 수치를 예측하는 데 중점을 둡니다. 단순 회귀부터 다중 회귀까지의 이론적 모형과 함께, 최소자승법을 활용한 회귀식 유도 과정과 SPSS를 이용한 데이터 분석 사례를 상세히 제시합니다. 또한 모형의 신뢰성을 확보하기 위해 선형성, 독립성, 등분산성, 정규성이라는 네 가지 전제 조건과 잔차분석을 통한 적합도 판정의 중요성을 강조합니다. 마지막으로 변수 선택법과 분석 절차를 정리함으로써 통계적 데이터를 올바르게 해석하고 결론을 도출하는 전 과정을 포괄하고 있습니다.

 

1. 상관분석 (Correlation Analysis)

 

변수들 간의 관련성을 분석하여 한 변수의 변화에 따른 다른 변수의 변동 방향과 정도를 파악하는 단계

 

1) 상관계수 (r) : -1에서 1 사이의 값을 가지며 두 변수 간의 선형 관계 정도를 나타냄

   - r = 1 : 완전한 양의 상관관계

   - r = 0 : 상관관계 없음

   - r = -1 : 완전한 음의 상관관계

2) 주의사항 : 상관관계는 확률적인 관계를 의미할 뿐 인과관계(원인과 결과)를 뜻하지 않음

                    상관계수끼리는 산술 연산(가감승제)이 불가능

3) 측정 수준 : 등간척도 이상은 피어슨(Pearson), 서열척도는 스피어먼(Spearman)이나 켄달(Kendall) 순위상관계수를 사용

 

2. 회귀분석의 기초 (Regression Analysis)

 

두 개 이상의 변수가 인과관계에 있을 때, 독립변수(X)가 종속변수(Y)에 미치는 영향을 함수식으로 표현하는 분석

1) 회귀분석의 목적 : 변수 간 상호관련성 확인, 영향력의 크기 및 유의도 판정, 관계의 성격 파악

2) 단순 회귀모형 : Yi = alpha + betaXi + ei (독립변수가 1개인 경우)

3) 다중 회귀모형 : Yi = alpha + beta1X1i + beta2X2i + ... + ei (독립변수가 여러 개인 경우)

 

3. 회귀식의 유도 : 최소자승법 (Least Squares Method)

 

회귀분석에서 가장 적합한 직선을 찾기 위해 사용하는 방법론

1) 잔차 (Residual, ei) : 실제 관측값과 회귀식에 의해 예측된 값의 차이

2) 최소자승법의 원리 : 잔차의 합은 0이 될 수 있으므로 잔차의 제곱합(시그마 ei2)을 최소화하는 회귀계수 a와 b를 구하여

                                   최적의 회귀선을 도출

 

4. 회귀모형의 적합도 및 유의성 판정

 

구해진 회귀식이 데이터를 얼마나 잘 설명하는지 통계적으로 의미가 있는지를 검정

1) 결정계수 (R2) : 전체 변동 중 회귀식이 설명하는 비율(0~1)

                             1에 가까울수록 설명력이 높음 (R2 = SSR / SST)

2) F-검정 : 회귀모형 전체가 통계적으로 유의한지 검정 (H0 : 관계가 없음)

3) t-검정 : 개별 독립변수의 회귀계수(beta)가 유의한지 검정 (H0 : beta = 0)

4) 회귀진단(기본가정) : 선형성, 등분산성, 독립성(더빈왓슨 검정), 정규성을 충족해야 함

 

5. 다중회귀분석 및 변수 선택

 

여러 독립변수가 복합적으로 종속변수에 영향을 줄 때 사용하며 최적의 변수 조합을 찾는 것이 중요

1) 다중공선성 : 독립변수들끼리 강한 상관관계를 가져 분석 결과를 왜곡하는 현상을 주의해야 함

2) 변수 선택 방법

   - 전진 선택법 : 영향력이 큰 변수부터 하나씩 추가

   - 후진 제거법 : 모든 변수 포함 후 유의하지 않은 변수를 제거

   - 단계적 선택법 : 추가와 제거를 반복하며 최적의 모형 탐색

 

예제1) 연간 수입(x)과 보유 주택 면적(y) 사이의 상관관계

1. 분석의 목적

"수입이 많은 사람일수록 넓은 집에 살까?"라는 질문에 대해 그 관계의 깊이(상관계수 r)를 수치로 확인하는 것

 

2. 계산 과정의 이해

   - Sxx (수입의 변동) : 1,489.6

      . 각 개인의 수입이 평균에서 얼마나 떨어져 있는지(편차)를 제곱해서 합산한 값

   - Syy (주택 면적의 변동) : 1,642.4

      . 주택 면적들이 평균에서 얼마나 퍼져 있는지를 나타냄

   - Sxy (두 변수의 공통된 변동) : 1,530.8

      . 수입이 변할 때 주택 면적도 함께 어느 방향으로 변하는지를 보여주는 수치(공분산 관련)

 

3. 상관계수(r) 도출

 

4. 결과 해석 (가장 중요)

계산된 값 0.979가 무엇을 의미하는지 해석하는 것이 분석의 핵심

   - 방향 : 값이 플러스(+)이므로 수입이 늘어나면 주택 면적도 커지는 양의 상관관계를 가짐

   - 강도

      . 상관계수는 최대치가 1

      . 0.979는 1에 매우 가까운 수치이므로 두 변수 사이에는 "아주 밀접하고 높은 상관관계"가 있다고 판단

   - 결론 : 대도시 아파트 주민들의 경우 수입 수준을 알면 그 사람이 사는 집의 넓이를 매우 정확하게 예측할 수 있을 만큼

              두 변수가 강하게 연결되어 있음

상관계수가 0.9 이상이면 실무에서는 거의 완벽한 선형 관계로 봄

다만, 이것이 "수입 때문에 넓은 집에 산다"는 인과관계를 100% 보장하는 것은 아니며

단지 두 현상이 함께 움직인다는 것을 수학적으로 증명한 것임

 

예제2) 광고비(x)와 판매량(y) 데이터를 바탕으로 한 회귀분석 예제

1. 회귀방정식 구하기 (표의 '비표준화 계수 B' 확인)

회귀분석의 목적은 두 변수의 관계를 하나의 직선(y = a + bx)으로 나타내는 것

계수 표의 '비표준화 계수 B' 열에 있는 숫자가 핵심

   - 상수(a) : 15.202 (광고비를 전혀 쓰지 않았을 때의 기본 판매량 예상치)

   - 광고비 계수(b) : 7.507 (광고비가 1단위 증가할 때 변하는 판매량)

   - 완성된 회귀식 : y = 15.202 + 7.507x

 

2. 결과 해석하기

이 식을 통해 광고비가 판매량에 어떤 영향을 주는지 알 수 있음

   - 영향의 방향 : 광고비 계수가 플러스(+)이므로 광고비 지출이 늘어날수록 판매량도 늘어나는 양(+)의 관계

   - 영향의 크기 : 월간 광고비를 100만원(x) 추가로 지출할 때마다 월간 판매량(y)은 약 7.5대 정도 증가할 것으로 예측할 수 있음

 

3. 회귀계수의 유의성 검정 (T-검정)

이 수치가 우연히 나온 것인지 통계적으로 믿을만한지 확인해야 함

   - t 값 : 광고비의 t값이 13.550으로 매우 높게 나타났음

   - 유의확률 (p-value) : 표의 '유의확률' 항목이 .000입니다.

   - 판정 : 유의수준 0.05보다 훨씬 작으므로(p < .05), "광고비는 판매량에 유의미한 영향을 미친다"고 결론 내릴 수 있음

요약하자면

회귀식 : y = 15.202 + 7.507x

해석 : 광고비 100만 원 증가 시 판매량 약 7.5개 증가

적합도 : 유의확률이 0.000으로 매우 낮아 이 모델은 통계적으로 아주 믿을만함

이 결과는 기업이 마케팅 예산을 세울 때 "광고비를 늘리는 것이 실제 판매 증대로 이어진다"는 강력한 근거 데이터로 활용될 수 있음

 

예제3) 광고비와 판매량 데이터를 바탕으로 한 회귀분석 예제

1. 회귀방정식 도출과 해석

회귀분석의 핵심은 독립변수(x, 광고비)와 종속변수(y, 판매량) 사이의 관계를 나타내는 최적의 직선 식을 찾는 것

   - 도출된 회귀식 : y = 15.2017 + 7.5072x

   - 상수(15.2017)의 의미 : 광고비를 전혀 쓰지 않아도(x = 0) 기본적으로 발생할 것으로 예상되는 판매량

   - 기울기(7.5072)의 의미 : 광고비를 1단위(100만원) 늘릴 때마다 월간 판매량이 약 7.5단위씩 증가한다는 것을 뜻

 

2. 회귀모형의 적합도 검정 (ANOVA 표 해석)

구해진 회귀식이 데이터를 얼마나 잘 설명하는지 그리고 통계적으로 의미가 있는지를 확인하는 과정

   - F-통계량 : 183.613

      . 이 값은 회귀식이 설명하는 변동(회귀 제곱합)이 오차에 의한 변동(잔차 제곱합)보다 얼마나 큰지를 보여주는 지표

   - 유의확률(p-value) : .000 (0.05보다 훨씬 작음)

      . 통상적인 유의수준 0.05를 기준으로 할 때 p < 0.05이므로 "이 회귀모형은 통계적으로 유의하다"고 결론 내림

        즉, 광고비와 판매량 사이에는 우연이 아닌 유의미한 관계가 존재함

3. 설명력 확인 (결정계수)

직접 수치가 나와 있지 않으나 ANOVA 표의 데이터를 통해 회귀식의 성능을 알 수 있음

   - 결정계수 (R2) : 전체 제곱합(6122.5) 중 회귀 제곱합(5866.88)이 차지하는 비중

      . R2 = 5866.88 / 6122.5 = 0.958

   - 결과 해석 : 이 회귀식은 전체 판매량 변동의 약 95.8%를 설명할 수 있음

                       이는 매우 높은 수준의 설명력이며 광고비가 판매량을 예측하는 데 아주 중요한 변수임을 입증

최종 결론이 회사의 광고비는 판매량에 매우 유의미하고 긍정적인 영향을 미치고 있음

따라서 광고비를 투입할수록 판매량이 규칙적으로 증가하며 도출된 회귀식을 통해 향후 광고비 투입 대비 예상 판매량을 신뢰도 높게 예측할 수 있음


[분석적 진화 모델] 데이터의 숨겨진 패턴을 읽다.

 

반응형