본문 바로가기
[Industry Knowledge Sharing]/Graduate

Statistical Research Methodology Key Definition Description

by David Jeong7 2026. 4. 28.
반응형

※ 단순 암기식 나열보다는 명확한 [개념 정의]와 [예시], [계산 풀이 과정]을 숙지해야 함

※ 정의형 7개 + 계산형 12~15개를 반복해 손으로 써보는 것이 효율적

 

① 반드시 정의 → 공식 → 판정 → 해석

   • 정의형은 개념을 한 문장으로 규정하고 계산형은 어떤 공식을 왜 쓰는지 먼저 적은 뒤 숫자를 대입하고

     마지막에 통계적 의미를 해석하면 작성 완성도가 높아짐

② p값과 유의수준 α 비교 문장 예시

   • p값이 0.03이고 유의수준이 0.05이면 “p값(0.03)이 유의수준 0.05보다 작으므로 귀무가설을 기각한다.”

   • p값이 0.03이고 유의수준이 0.01이면 “p값(0.03)이 유의수준 0.01보다 크므로 귀무가설을 기각할 수 없다.”

③ 신뢰구간 해석의 올바른 문장 vs 잘못된 문장

   • 올바른 표현 - “동일한 표집 절차를 무한히 반복하면, 구성된 구간의 약 95%가 참모수를 포함한다.”

   • 잘못된 표현 - “모수가 95% 확률로 이 구간 안에 있다.”

④ 두 집단 평균 비교 전 흐름 - 등분산 검정 → pooled t 또는 Welch t

   • 두 집단 평균을 비교할 때는 곧바로 t검정으로 들어가지 말고 먼저 F검정으로 등분산성 여부를 확인합니다.

     등분산이면 합동분산 t검정(pooled t), 이분산이면 Welch t검정을 적용함

⑤ 제1종오차 / 제2종오차 우산 비유

   • 제1종오차(α) - 사실 비가 오지 않는데 비가 온다고 판단하여 우산을 챙기는 오류

   • 제2종오차(β) - 사실 비가 오는데 비가 안 온다고 판단하여 우산을 챙기지 않는 오류

   • 검정력은 실제로 비가 오는데도 그것을 올바르게 감지하는 능력이라고 기억하면 쉬움

   • 숫자만 맞는다고 끝나지 않으며 “어떤 검정을 왜 썼는지, 그리고 그 결과를 어떻게 해석하는지”를 마지막 한 문장으로 정리할 것


0. 체크리스트 & 최종 요약

   • 모집단, 표본, 모수, 통계량의 차이를 1문장씩 말할 수 있다.

   • 명목, 서열, 등간, 비율척도의 차이를 예시와 함께 설명할 수 있다.
   • 조건부확률 공식과 베이즈 정리를 직접 쓸 수 있다.
   • 이항분포의 평균과 분산을 바로 쓸 수 있다: E(X)=np, V(X)=npq.
   • 정규분포 표준화 Z=(X-μ)/σ 를 실수 없이 적용할 수 있다.
   • 표본평균의 분산이 σ²/n, 표준오차가 σ/√n 임을 기억한다.
   • 신뢰구간에서 σ를 알면 Z, 모르면 t를 사용한다는 원칙을 기억한다.
   • 표본크기 계산 후에는 반드시 올림한다.
   • 가설검정 5단계(가설-공식-대입-판정-해석)를 순서대로 쓸 수 있다.
   • p값과 α의 비교 문장을 정확히 말할 수 있다.
   • 제1종오차/제2종오차를 우산 비유로 설명할 수 있다.
   • 두 집단 평균 비교 전 F검정 후 pooled t / Welch t 흐름을 기억한다.
   • 정의형은 “무엇인가 → 어떤 성질이 있는가 → 어디에 쓰이는가” 순서로 기술

   • 계산형은 “공식 제시 → 수치 대입 → 기각역/임계값 또는 p값 비교 → 해석” 순서로 작성
   • 신뢰구간과 가설검정은 연결됩니다. 구간에 기준값이 포함되는지 여부는 기각 여부 판단에 매우 중요

 

1. 학습전략

   1) 개념 및 정의 이해

      - 통계학 기본 용어 (모집단, 표본, 모수, 통계량) 및 4가지 측정척도 특징 서술

      - 확률의 공리, 조건부확률, 베이즈 정리 서술 및 계산식 이해

      - 이산/연속 확률변수 구분 및 기대값, 분산의 선형변환 성질 숙지

 

   2) 분포, 추정, 가설 검정 이해

      - 정규분포 표준화 및 중심극한정리의 의의 서술

      - 신뢰구간 공식(σ 앎=Z, σ 모름=t) 및 표본크기 공식 이해

      - 가설검정 절차 및 수식 이해

 

   3) 수식 구조 이해 5단계

      ① 가설설정 - 귀무가설(H0)과 대립가설(H1)을 기호로 명확히 기재
      ② 공식제시 - 사용할 검정통계량 또는 신뢰구간 공식을 명시
      ③ 값 대입 - 문제의 수치를 공식에 대입하는 계산 과정을 보여줌
      ④ 판정 - 도출된 통계량을 임계값과 비교하거나 p값을 유의수준과 비교
      ⑤ 해석 - "유의수준 α에서 귀무가설을 기각/채택한다. 따라서 ~이다."라는 실무적 해석 작성

 

   4) 개념 이해 3단계

      ① 개념 - 핵심을 관통하는 명확한 정의

      ② 핵심 특징 - 주요 성질이나 수식 1 ~ 2가지 언급

      ③ 의의/용도 - 통계학적 의미나 실제 상황에서의 쓰임새

 

2. 핵심 공식 정리

개념 공식 설명
조건부 확률
사건 B가 발생했다는 전제 하에 A가 일어날 확률
베이즈 정리
결과(우도)를 바탕으로 원인(사전확률)의 사후확률을 역추적
기대값 / 분산
무수히 반복 시 평균적으로 예상되는 값과 그 흩어짐의 정도
이항분포
성공/실패뿐인 독립시행을 n번 반복할 때 성공 횟수의 특성
표준화 (Z)
서로 다른 정규분포를 N(0, 1)로 변환해 확률을 비교/계산
표본평균 분포
중심극한정리에 의해 표본평균의 확률분포를 구할 때
모평균 신뢰구간 (σ 앎)
모분산을 아는 상태에서 모평균의 범위를 확률적으로 추정할 때
모평균 신뢰구간 (σ 모름)
모분산을 모르고 표본표준편차(s)를 이용해 추정할 때
표본크기 결정
원하는 오차한계(d) 내에서 추정하기 위한 최소 표본수
단일모평균 Z검정
모분산을 알거나 표본이 클 때 모평균이 특정 값인지 검정
단일모평균 T검정
모분산을 모르고 소표본(n<30)일 때 모평균 검정
두 모평균 차이
두 독립 모집단의 평균 차이가 유의미한지 확인할 때
두 모비율 차이
두 집단의 특정 특성(비율) 차이를 검정/추정할 때
쌍체비교 T검정
동일 대상의 사전/사후 측정값(차이 D)을 비교할 때
모분산 추정
카이제곱분포를 이용해 단일 모집단의 분산을 추정할 때
두 모분산 비교
두 집단의 분산이 같은지(등분산성) 검정할 때(F검정)

3. 핵심 정의

1) 통계학 - 데이터를 다루어 과학적 추론을 하고 불확실한 미래의 합리적 의사결정을 돕는 학문
   - 조사연구는 모집단 전체의 특성을 파악하기 위해 그 일부인 표본을 추출하여 조사하는 것입니다.

     통계적 실험은 과학적 방법의 두 가지 요건인 '객관성'과 '반복성'을 갖추어야 합니다.

   - 기술통계학 : 수집된 자료를 표나 그래프로 요약하는 것

   - 추론통계학 : 표본 통계량(statistic)을 통해 모집단의 모수(parameter)를 과학적으로 추론하는 것

   - 통계적 추론에는 객관적 빈도를 중시하는 빈도주의와 사전 신념을 반영하는 베이지안 접근이 있으며 정규분포를 가정하는

     모수적 방법과 분포 가정이 필요 없는 비모수적 방법이 있습니다.
   - 표본 추출 방식에서 단순무작위, 층화(집단 내 동질/간 이질), 군집(집단 내 이질/간 동질), 계통(체계적) 추출은

     확률표본추출입니다. 반면 편의, 판단, 할당, 자원, 눈덩이 추출은 연구자의 주관이 개입되는 비확률표본추출입니다.

     표집오차는 표본을 추출하기 때문에 필연적으로 발생하나 비표집오차(설문오류 등)는 표본을 늘린다고 줄어들지 않습니다.

 

2) 데이터의 특성 및 유형

   - 자료는 범주형과 수치형(이산/연속)으로 나뉘며 그 중심위치와 흩어짐을 대표값과 산포도로 측정한다.

   - 데이터의 측정척도 4가지 (식별만을 위한 명목척도, 순위를 나타내는 서열(순서)척도, 간격이 의미 있으나 절대 0점이 없는

     등간척도, 절대 0점이 존재하여 비율 계산이 가능한 비율척도)

   - 자료의 중심위치를 나타내는 대표값에는 산술평균, 조화평균, 기하평균, 중앙값, 최빈값이 있음

   - 흩어짐의 정도를 나타내는 산포도에는 분산, 표준편차, 범위, 사분위범위(IQR)가 있음

   - 자료가 비대칭으로 뻗친 정도는 왜도, 분포의 뾰족한 정도는 첨도로 측정합니다. 탐색적 자료분석(EDA) 기법으로는

     줄기-잎그림과 상자그림(Box Plot)이 대표적

   - 극단적인 이상치(Outlier)가 존재할 경우 산술평균은 크게 왜곡될 수 있으므로 대표값으로 평균보다 중앙값(Median)을

     사용하는 것이 통계적으로 더 적절함

 

3) 확률이론 / 조건부확률

   - 확률은 불확실한 사건의 발생 가능성을 측정하는 수단이며 조건부확률은 특정 사건 발생을 전제로 한 확률

   - 확률은 세 가지 공리를 따릅니다. 비음성(0≤P(A)≤1), 완전성(P(S)=1) 그리고 상호배반인 사건들에 대한 가법성입니다.

      . 주변확률이 단일 사건의 확률이라면 결합확률은 두 사건이 동시에 발생할 확률을 의미

      . 조건부확률은 P(A|B) = P(A∩B)/P(B)로 정의

      . 한 사건의 발생이 다른 사건 확률에 영향을 주지 않을 때 두 사건은 독립사건이라 하며 P(A∩B) = P(A)P(B)가 성립함

      . 베이즈 정리는 새로운 정보(우도)를 바탕으로 사전확률을 사후확률로 갱신하는 논리적 틀을 제공함
   - 배반사건(동시 발생 불가, P(A∩B)=0)과 독립사건(서로 영향 없음, P(A∩B)=P(A)P(B))을 절대로 혼동해서는 안됨

 

4) 확률분포

   - 확률변수란 실험 결과를 실수로 대응시킨 것이며 이 변수가 특정 값을 가질 확률의 규칙이 확률분포이다.
   - 확률변수는 셀 수 있는 이산형 확률변수와 측정값처럼 연속된 연속형 확률변수로 구분

      . 이산형은 확률질량함수(pmf)를 연속형은 확률밀도함수(pdf)를 가집니다. 연속형의 경우 특정 한 점에서의

        확률 P(X=x)는 0이 됩니다. 기대값 E(X)는 무수히 반복 시 예상되는 평균이며 분산 V(X)는 E(X2)-[E(X)]2로 계산됩니다.

        선형변환 시 E(aX+b) = aE(X)+b, V(aX+b) = a2V(X)가 성립하며 두 변수가 독립일 경우 V(X±Y) = V(X)+V(Y)가

        성립합니다.
   - 분산의 선형변환에서 더해지는 상수 b는 무시되고 곱해지는 상수 a는 반드시 제곱(a2)되어야 합니다.

 

5) 이항분포와 정규분포, 중심극한정리

   - 중심극한정리는 표본 크기가 충분히 크면 모집단 분포와 관계없이 표본평균의 분포가 정규분포에 근사한다는 원리

   - 성공(p)과 실패(q=1-p) 두 결과만 있는 베르누이 시행의 기대값은 p, 분산은 p(1-p)

      . 독립적으로 n번 반복한 성공 횟수 X의 분포가 이항분포 X~B(n,p)이며, E(X)=np, Var(X)=npq

      . 정규분포는 평균을 중심으로 대칭인 종모양의 연속확률분포로 68-95-99.7 법칙을 따르고 Z=(X-μ)/σ 로 표준화하면

        표준정규분포 Z~N(0,1)이 됩니다.

      . 중심극한정리에 의해 표본평균의 분포는 근사적으로 정규분포를 따르며 표본평균의 분산은 σ2/n, 표준오차는 σ/√n이 됩니다.
   - 이항분포에서 시행횟수 n이 크고 확률 p가 매우 작을 경우에는 포아송 분포로 근사하여 계산할 수 있다

 

6) 통계적 추정

   - 표본 통계량(점추정치)을 활용하여 모수를 하나의 값으로 추측하거나 확률적 구간(신뢰구간)으로 범위를 설정하는 과정
   - 추정량은 모수를 추정하는 통계량의 공식이며 좋은 추정량은 불편성(기대값이 모수와 일치), 효율성(최소분산),

     일치성(n이 커지면 모수에 수렴)을 갖추어야 합니다.

   - 모평균 추정 시 모분산(σ2)을 알면 Z분포를, 모르면 t분포(df=n-1)를 사용

   - 모분산 자체를 추정할 때는 카이제곱 분포를 이용

   - 오차한계(d)를 고려하여 필요한 표본의 크기를 결정할 때는 n = (zσ/d)2 공식을 사용
   - 신뢰구간 해석 시 "모수가 95% 확률로 구간 안에 있다"라고 쓰면 안 됩니다. 모수는 고정된 상수이므로 "동일한 절차를

     무한히 반복할 때 약 95%의 구간이 참모수를 포함한다"라고 적어야 합니다.

 

7) 가설검정
   - 모수에 대한 가설을 세우고 표본 데이터를 바탕으로 귀무가설의 기각 여부를 통계적으로 판정하는 절차
   - 귀무가설(H0)은 차이가 없다는 기본 가설이고 대립가설(H1)은 연구자가 입증하려는 가설

   - 제1종오차(α)는 귀무가설이 참인데 기각하는 오류(우산을 비유하면 비 안오는데 우산 챙김)이고

     제2종오차(β)는 대립가설이 참인데 귀무가설을 채택하는 오류

   - 검정력(1-β)은 올바르게 기각할 확률

   - p값은 귀무가설 하에서 현재보다 더 극단적인 결과가 나올 확률이자 기각을 위한 최소 유의수준으로 p < α 이면 귀무가설을

     기각합니다.

   - 두 집단 평균을 비교할 때는 먼저 등분산 검정(F-test)을 거쳐 등분산이면 합동분산(pooled) t검정을 이분산이면

      Welch t검정을 수행합니다.

   - 사전-사후 비교 시에는 쌍체비교(Paired)를 진행
   - 단측검정은 대립가설이 '크다' 혹은 '작다'의 방향성을 가질 때 사용하며 양측검정보다 기각역이 한 쪽으로 몰려 있어 H0를

     기각하기가 상대적으로 더 쉽습니다.

 

4. 서술형 기재 템플릿

1) 정의형

"{A}란 ~하는 것을 의미합니다. 이 개념의 핵심적인 특징으로는 ~가 있으며 통계학에서 ~을 분석하거나 파악할 때 필수적으로 사용됩니다."

 

2) 비교형
"{A}는 ~한 특징(또는 조건)을 가지는 반면 {B}는 ~한 특징을 가집니다. 따라서 {상황1}에서는 {A}를 적용하고 {상황2}에서는 {B}를 적용하는 것이 통계적으로 타당합니다."

3) 과정형 (가설검정 절차)
"먼저 검증하고자 하는 귀무가설(H0)과 대립가설(H1)을 수식으로 설정합니다. 이후 주어진 유의수준(α)에 따라 기각역(임계값)을 설정하고 표본 데이터를 검정통계량 공식에 대입하여 계산합니다. 마지막으로 도출된 통계량이 기각역에 속하는지 판정하여 가설을 기각 또는 채택합니다."

4) 신뢰구간 해석
"신뢰수준 XX%에서 모수(모평균 등)의 신뢰구간은 [A, B]로 산출되었습니다. 이는 동일한 방법으로 표본 추출과 구간 추정을 무한히 반복할 때 만들어진 구간들 중 약 XX%가 실제 참 모수를 포함한다는 의미입니다."

5) 가설검정 결론 문장
[기각 시] "산출된 검정통계량이 임계값보다 커서 기각역에 속하므로 (또는 p값이 유의수준 α보다 작으므로), 유의수준 α 하에서 귀무가설 H0를 기각합니다. 따라서 [대립가설 내용]이라고 판단할 통계적 근거가 충분합니다."

[기각 못함 시] "산출된 검정통계량이 임계값보다 작아 기각역에 속하지 않으므로 (또는 p값이 유의수준 α보다 크므로), 유의수준 α 하에서 귀무가설 H0를 기각할 수 없습니다. 따라서 [대립가설 내용]이라고 주장하기에는 통계적 근거가 부족합니다."

 

5. 계산문제

Q1 [조건부확률/베이즈 정리 기본형] 질병 발병률이 0.001이다. 질병이 있을 때 양성 판정 확률이 0.99, 질병이 없을 때 음성 판정 확률이 0.98이다. 양성 판정을 받았을 때 실제로 질병이 있을 확률은?

베이즈 정리를 이용하여 사전확률을 사후확률로 갱신하는 과정의 이해
   P(질병|양성) = P(양성|질병)P(질병) / [P(양성|질병)P(질병) + P(양성|정상)P(정상)]

      = (0.99 × 0.001) / [(0.99 × 0.001) + ((1 - 0.98) × 0.999)]
      = 0.00099 / [0.00099 + (0.02 × 0.999)]
      = 0.00099 / [0.00099 + 0.01998]
      = 0.00099 / 0.02097 ≈ 0.0472 (4.72%)
   • 베이즈 정리를 적용하여 계산한 결과, 양성 판정을 받았더라도 실제 질병을 가지고 있을 확률은 약 4.72%로 추정됩니다.
   • 분모 두 번째 항에 특이도(0.98)를 그대로 곱하는 실수. 질병이 없는데 양성일 확률인 위양성률(1-0.98=0.02)을 곱해야 합니다.

 

Q2.1 [이산확률분포] 확률변수 X가 0, 1, 2의 값을 가질 확률이 각각 0.2, 0.5, 0.3일 때, E(X)와 V(X)를 구하시오.
이산확률분포의 기대값과 분산 산출 공식 적용.
E(X) = Σx·P(x) = (0 × 0.2) + (1 × 0.5) + (2 × 0.3) = 0 + 0.5 + 0.6 = 1.1
E(X2) = (02 × 0.2) + (12 × 0.5) + (22 × 0.3) = 0 + 0.5 + 1.2 = 1.7
V(X) = E(X2) - {E(X)}2 = 1.7 - (1.1)2 = 1.7 - 1.21 = 0.49
• 확률변수 X의 확률분포표에 따라 기대값 공식과 분산의 간편식을 적용하면, E(X)는 1.1, V(X)는 0.49가 산출됩니다.
• 분산을 구할 때 E(X2) 값(1.7)을 구하고 끝내는 실수. 반드시 평균의 제곱(1.21)을 빼야 합니다.

 

Q2.2 [이산확률분포 기대값과 분산] 투자 이익(X)이 -0.5억(0.1), 1.0억(0.4), 2.0억(0.3), 3.0억(0.2) 확률을 가질 때 기대값과 분산을 구하시오.
• E(X) = (-0.5×0.1) + (1.0×0.4) + (2.0×0.3) + (3.0×0.2) = -0.05 + 0.4 + 0.6 + 0.6 = 1.55
  E(X2) = (0.25×0.1) + (1.0×0.4) + (4.0×0.3) + (9.0×0.2) = 0.025 + 0.4 + 1.2 + 1.8 = 3.425
  V(X) = E(X2) - {E(X)}2 = 3.425 - 1.552 = 3.425 - 2.4025 = 1.0225
• "해당 투자의 평균적인 기대 이익은 1.55억 원이며, 이익의 변동성(분산)은 1.0225입니다."

 

Q3.1 [이항분포] 확률변수 X가 이항분포 B(5, 0.3)을 따를 때, 정확히 2번 성공할 확률 P(X=2)와 X의 평균, 분산을 구하시오.
이항분포의 확률질량함수 조합(nCx) 계산 및 np, npq 적용
P(X=2) = 5C2 (0.3)2 (0.7)3 = 10 × 0.09 × 0.343 = 0.3087
평균 E(X) = np = 5 × 0.3 = 1.5
분산 V(X) = npq = 5 × 0.3 × 0.7 = 1.05
P(X=2) = 0.3087, 평균 = 1.5, 분산 = 1.05
• 이항분포의 확률질량함수에 따라 정확히 2번 성공할 확률은 0.3087이며 시행의 평균 성공 횟수는 1.5, 변동성(분산)은 1.05입니다.
• [매우 중요] 이전 일부 자료나 예시에서 실패확률(q)의 지수를 잘못 적용하여 10 × 0.32 × 0.72 = 0.441 로 잘못 계산하는 오류가 빈번합니다. 시도 횟수가 5번이므로 성공이 2번이면 실패는 3번(0.73)이 맞습니다. 절대 0.441이라고 쓰지 마세요.

 

Q3.2 [이항분포 확률 및 평균/분산] 성공률이 0.5인 동전 던지기를 3번 할 때 앞면(성공)이 나오는 횟수 X의 기대값과 분산은?
• X ~ B(3, 0.5)
E(X) = np = 3 × 0.5 = 1.5
V(X) = npq = 3 × 0.5 × 0.5 = 0.75
• "이항분포 B(3, 0.5)를 따르므로, 앞면이 나올 기대 횟수는 1.5회, 분산은 0.75입니다."

 

Q4.1 [정규분포 표준화] 확률변수 X가 정규분포 N(100, 152)을 따를 때, X가 130보다 클 확률 P(X>130)을 구하시오. (단, P(0<Z<2)=0.4772 로 계산)
정규분포를 표준정규분포로 변환하는 표준화 Z 공식 적용
Z = (X - μ) / σ = (130 - 100) / 15 = 30 / 15 = 2
P(X > 130) = P(Z > 2) = 0.5 - P(0 < Z < 2) = 0.5 - 0.4772 = 0.0228
• 정규분포의 확률을 구하기 위해 Z값으로 표준화하면 Z=2가 도출되며 표준정규분포표를 이용해 구한 상위 꼬리 확률은 0.0228(2.28%)입니다.
• 표준화 시 분모에 분산 152(225)을 그대로 나누는 실수. 반드시 표준편차인 15로 나누어야 합니다.

 

Q4.2 [정규분포 표준화 확률] 확률변수 X가 N(μ, σ2)을 따를 때, P(μ - 2σ ≤ X ≤ μ + 2σ)의 확률은?
• P(-2 ≤ Z ≤ 2) ≈ 0.9545
• "정규분포의 경험적 법칙에 따라, 평균으로부터 표준편차의 2배 범위 내에 데이터의 약 95.45%가 존재합니다."

 

Q5.1 [표본평균 분포 / 중심극한정리] 모평균이 100, 모표준편차가 10인 모집단에서 크기가 n=30인 표본을 추출했다. 표본평균(x̄)의 분포를 정의하고, 분산과 표준오차를 구하시오.
중심극한정리의 개념과 표본평균 분산(σ2/n) 공식 적용
분포: 중심극한정리에 의해 x̄는 근사적으로 정규분포 N(μ, σ2/n)을 따름
분포 표기: N(100, 102/30)
E(x̄) = 100
V(x̄) = 100 / 30 ≈ 3.333
표준오차(SE) = σ / √n = 10 / √30 ≈ 10 / 5.477 ≈ 1.826
최종 답 분포: 근사적 N(100, 3.333), 분산: 3.333, 표준오차: 약 1.826
• 중심극한정리에 의하여 표본 크기 30은 충분히 크므로, 표본평균은 근사적으로 정규분포를 따릅니다. 이때 표본평균의 분산은 3.333, 표준오차는 1.826으로 계산됩니다.
• 표본평균의 분산을 모집단의 분산(100)과 혼동하여 표본 크기 n으로 나누지 않는 실수

 

Q5.2 [표본평균의 분포 (중심극한정리)] 모평균 μ, 모표준편차 σ인 모집단에서 크기 n인 표본을 추출할 때 표본평균 x̄의 평균과 분산은?
• "중심극한정리에 의해 n이 충분히 크면 x̄는 정규분포 N(μ, σ2/n)에 근사합니다. 따라서 기대값 E(x̄) = μ, 분산 V(x̄) = σ2/n 입니다."

 

Q6. [모평균 신뢰구간 (모분산 아는 경우)] 광고비 표본평균이 380, 모집단 표준편차 σ=100, 표본크기 n=10일 때, 95% 신뢰구간을 구하시오. (Z0.025 = 1.96)
모분산을 알고 있을 때 Z분포를 활용한 구간추정 공식 적용.
신뢰구간 공식: x̄ ± Zα/2 · (σ/√n)
380 ± 1.96 × (100 / √10) = 380 ± 1.96 × 31.622
                                        = 380 ± 61.98
하한: 380 - 61.98 = 318.02
상한: 380 + 61.98 = 441.98

최종 답 (318.02, 441.98)
• 모집단 표준편차를 알고 있으므로 Z분포를 적용합니다. 95% 신뢰수준에서 월 광고비 모평균은 318.02만 원에서 441.98만 원 사이에 있을 것으로 추정됩니다.
• 오차항을 계산할 때 √n 대신 n(10)을 그냥 분모로 나누는 실수.

Q7.1 [모평균 신뢰구간 (모분산 모르지만 n이 큰 경우)] 항공편 빈 좌석의 표본평균이 17.2, 표본표준편차 s=8.9, n=100일 때 90% 신뢰구간을 구하시오. (Z0.05 = 1.645)
모분산을 모르면 원칙적으로 t분포를 써야 하지만, 표본의 크기 n이 30 이상으로 매우 커서 Z분포로 근사하여 푸는 실무적 접근.
신뢰구간 공식: x̄ ± Zα/2 · (s/√n)
17.2 ± 1.645 × (8.9 / √100) = 17.2 ± 1.645 × 0.89
                                           = 17.2 ± 1.464
하한: 17.2 - 1.464 = 15.736
상한: 17.2 + 1.464 = 18.664

최종 답 (15.736, 18.664)
• 모분산을 모르나 표본 크기(n=100)가 충분히 커서 중심극한정리에 의해 Z분포로 근사합니다. 90% 신뢰수준에서 특정 노선의 빈 좌석 수 모평균은 15.736석에서 18.664석 사이로 추정됩니다.
• 신뢰수준 90%의 Z값인 1.645를 대입해야 하는데 습관적으로 95% Z값인 1.96을 대입하는 실수.

 

Q7.2 [모분산을 아는 경우 신뢰구간] 광고비 표본평균 x̄=380, 모표준편차 σ=100, n=10일 때 95% 신뢰구간을 구하시오. (Z0.025=1.96)
• 380 ± 1.96 × (100 / √10) = 380 ± 1.96 × 31.622
                         = 380 ± 61.98
                         = (318.02, 441.98)
• "모분산을 아는 경우 Z-분포를 적용하며, 95% 신뢰수준에서 월간 광고비 모평균은 318.02만 원에서 441.98만 원 사이에 있을 것으로 추정됩니다."

Q7.3 [모분산을 모르는 경우 신뢰구간] 빈 좌석 표본평균 17.2, s=8.9, n=100. 신뢰수준 90% 구간을 구하시오. (Z0.05=1.645)
*n이 30 이상으로 충분히 커서 t대신 Z 근사 사용한 강의자료 예시 반영
• 17.2 ± 1.645 × (8.9 / √100) = 17.2 ± 1.645 × 0.89
                           = 17.2 ± 1.464
                           = (15.736, 18.664)
• 서술 : "90% 신뢰수준에서 특정 노선의 빈 좌석 수 모평균은 15.736석에서 18.664석 사이에 존재한다고 추정할 수 있습니다."


Q8.1 [표본크기 결정] 모표준편차 σ=5, 허용오차한계 d=1, 90% 신뢰도로 모평균을 추정하기 위한 최소 표본 크기는? (Z0.05 = 1.645)
오차한계 공식을 역산하여 n의 식 유도 및 보수적 올림 처리.
공식: n = (Zα/2 · σ / d)2
n = (1.645 × 5 / 1)2
n = (8.225)2 ≈ 67.65
최종 답 68
• 계산 결과 표본 크기는 67.65가 도출됩니다. 오차한계를 충족하기 위해서는 최소한 이 값보다 커야 하므로 소수점을 무조건 올림하여 최소 68개의 표본을 추출해야 합니다.
• 일반적인 반올림/내림 규칙을 적용하여 67로 적는 실수. 표본크기는 오차를 줄이기 위해 무조건 올림(Round up)해야 합니다.

 

Q8.2 [표본크기(n) 결정] 모표준편차 σ=5, 오차한계 d=1, 90% 신뢰도(z=1.645)일 때 필요한 최소 표본 크기는?
• n = (1.645 × 5 / 1)2 = (8.225)2 = 67.65
• 서술 : "계산 결과 67.65가 도출되므로, 허용 오차 1 이내를 만족하기 위한 최소 표본 크기는 올림하여 68개 이상이어야 합니다."


Q9.1 [단일모평균 양측 Z검정] 설탕함량 표시가 12.5%라고 주장된다. 표본 64개를 조사한 결과 표본평균 11.5, 표준편차 2.0이 나왔다. 유의수준 α=0.05에서 검정하시오. (Z0.025=1.96)
큰 표본에서 단일 모평균 검정통계량 산출 및 임계값 비교 판정.
가설: H0: μ = 12.5, H1: μ ≠ 12.5
검정통계량: Z = (x̄ - μ0) / (s/√n)
Z = (11.5 - 12.5) / (2.0 / √64)
Z = -1.0 / (2.0 / 8) = -1.0 / 0.25 = -4.0
판정: |-4.0| = 4.0 > 1.96 (기각역 속함)
최종 답 Z = -4.0, H0 기각
• 유의수준 0.05 하에서 산출된 검정통계량의 절대값(|-4.0|)이 임계값(1.96)보다 크므로 기각역에 속합니다. 따라서 귀무가설을 기각하며 기존의 함량표시가 정당하다고 할 수 없습니다.
• Z값을 산출할 때 분자 순서(표본평균 - 귀무가설평균)를 바꿔 양수로 계산하거나 분모의 √n을 빠뜨리는 실수.

 

Q9.2 [단일모집단 Z-검정 (양측)] 설탕 함량 12.5% 표시 확인. 표본 n=64, 평균 x̄=11.5, s=2.0. α=0.05에서 검정하시오. (Z0.025=1.96)
• H0: μ = 12.5, H1: μ ≠ 12.5
Z0 = (11.5 - 12.5) / (2.0 / √64) = -1.0 / 0.25 = -4.0
|-4.0| > 1.96
• 서술 : "검정통계량 Z절대값이 4.0으로 임계값 1.96보다 크므로 기각역에 속합니다. 유의수준 0.05에서 귀무가설을 기각하며, 설탕 함량 12.5% 표시는 정당하지 않습니다."


Q10.1 [단일모평균 양측 t검정] 전구 평균수명이 400시간이라 한다. 샘플 25개의 조사결과 x̄=411, s=42.5였다. α=0.1로 검정하시오. (t0.05, 24=1.711)
모분산을 모르고 표본 크기가 작은(n<30) 경우의 t검정 수행.
가설: H0: μ = 400, H1: μ ≠ 400
자유도: df = n - 1 = 24
검정통계량: t = (x̄ - μ0) / (s/√n)
t = (411 - 400) / (42.5 / √25)
t = 11 / (42.5 / 5) = 11 / 8.5 ≈ 1.294
판정: 1.294 < 1.711 (기각역에 속하지 않음)
최종 답 t ≈ 1.294, H0 기각 못함
• 표본 크기가 작고 모분산을 모르므로 t검정을 수행합니다. 유의수준 0.1 하에서 산출된 t통계량(1.294)이 임계값(1.711)보다 작아 기각역에 속하지 않습니다. 따라서 귀무가설을 기각할 수 없으며 평균수명이 400시간이 아니라고 보기 어렵습니다.
• n=25이므로 자유도를 25로 그대로 사용하는 실수. t분포의 자유도는 반드시 n-1 = 24이어야 합니다.

 

Q10.2 [단일모집단 t-검정] 형광등 수명 400시간 검증. n=25, x̄=411, s=42.5, α=0.1. (t0.05, 24=1.711)
• H0: μ = 400, H1: μ ≠ 400
t0 = (411 - 400) / (42.5 / √25) = 11 / 8.5 = 1.29
1.29 < 1.711
• 서술 : "모분산을 모르고 소표본이므로 t검정을 수행합니다. 검정통계량(1.29)이 임계값(1.711)보다 작아 귀무가설을 기각할 수 없습니다. 평균수명이 400시간이 아니라고 보기 어렵습니다."


Q11.1 [두 모비율 차이 95% 신뢰구간] 고교생 200명 중 근시 비율은 0.30, 중학생 300명 중 근시 비율은 0.18이다. 두 집단 간 비율 차이의 95% 신뢰구간을 구하고 가설을 검정하시오. (Z0.025=1.96)
두 집단 비율 차이 공식 적용 및 신뢰구간의 '0 포함 여부'를 통한 가설 판정.
비율 차이: p̂1 - p̂2 = 0.30 - 0.18 = 0.12
분산: (0.30 × 0.70 / 200) + (0.18 × 0.82 / 300) = 0.00105 + 0.000492 = 0.001542
표준오차: √0.001542 ≈ 0.03927
오차한계: 1.96 × 0.03927 ≈ 0.07697 ≈ 0.077
95% 신뢰구간: 0.12 ± 0.077 = (0.043, 0.197)
최종 답 (0.043, 0.197), 0을 포함하지 않으므로 두 집단의 비율 차이는 유의하다.
• 두 집단 비율 차이의 95% 신뢰구간은 (0.043, 0.197)로 계산됩니다. 이 구간이 0을 포함하지 않으므로 유의수준 0.05에서 귀무가설 H0: p1=p2를 기각하고 두 집단의 근시 비율은 통계적으로 유의한 차이가 있다고 해석합니다.
• (1-p) 항을 빠뜨리거나 신뢰구간이 0을 포함하는지 여부를 판정하지 않고 숫자만 쓰고 끝내는 실수.

 

Q11.2 [두 모비율 차이 검정] 고교생(n1=200) 근시 30%, 중학생(n2=300) 근시 18%. 95% 신뢰구간을 구하고 가설검정 하시오.
• 차이 = 0.30 - 0.18 = 0.12
오차 = 1.96 × √[(0.3×0.7/200) + (0.18×0.82/300)] = 1.96 × √(0.00105 + 0.000492) ≈ 0.077
구간: 0.12 ± 0.077 = (0.043, 0.197)
• 서술 : "두 집단 비율 차이의 95% 신뢰구간이 (0.043, 0.197)로 0을 포함하지 않으므로 귀무가설(p1=p2)을 기각합니다. 두 집단의 근시율에는 유의미한 차이가 있습니다."


Q12.1 [두 모분산 비교 F검정] 
(a) 기계 1의 표본분산은 30(n1=6), 기계 2의 표본분산은 8(n2=12)이다. 유의수준 0.1에서 H1: σ12 > σ22 를 검정하시오.
(b) 실험 1의 표본분산은 21(n1=5), 실험 2의 표본분산은 25(n2=7)이다. 유의수준 0.05에서 H1: σ12 < σ22 를 검정하시오.
F통계량 계산, 자유도 설정, 우측/좌측 검정 방향 구분.
(a) F = s12/s22 = 30/8 = 3.75
자유도: df1=5, df2=11
임계값: F0.1(5,11) ≈ 2.45
3.75 > 2.45 이므로 H0 기각

(b) F = 21/25 = 0.84
자유도: df1=4, df2=6
좌측 임계값 ≈ 0.16
0.84 > 0.16 이므로 좌측 기각역에 속하지 않아 H0 기각 불가

 

최종 답
(a) 귀무가설 기각 → 기계 1의 분산이 더 크다고 볼 수 있다.
(b) 귀무가설 기각 못함 → 실험 1의 분산이 더 작다고 볼 근거가 부족하다.
• (a) 유의수준 0.1에서 F통계량 3.75는 임계값 2.45보다 크므로 귀무가설을 기각합니다. 따라서 기계 1의 산포가 기계 2보다 더 크다고 판단할 수 있습니다.
(b) 유의수준 0.05에서 F통계량 0.84는 좌측 기각역에 속하지 않으므로 귀무가설을 기각할 수 없습니다. 따라서 실험 1이 더 정밀하다고 단정할 수 없습니다.
• 대립가설의 방향을 무시하고 F값이 크기만 하면 무조건 기각한다고 쓰는 실수. 좌측검정인지 우측검정인지 반드시 확인해야 합니다.

 

Q12. [두 모분산 비교 (F-검정)]

(a) 기계1 분산 더 큰가? s12=30(n=6), s22=8(n=12), F0.1(5,11)=2.45
(b) 실험1 분산 더 작은가? s12=21(n=5), s22=25(n=7), 임계값=0.16
• (a) 우측검정 : F = 30 / 8 = 3.75. 3.75 > 2.45 (기각역 속함)
             결론 : "귀무가설 기각. 기계1의 분산이 더 큽니다."
• (b) 좌측검정 : F = 21 / 25 = 0.84. 0.84 > 0.16 (기각역 속하지 않음)
             결론 : "귀무가설 채택. 실험1의 방법이 더 정확(분산이 작음)하다고 할 수 없습니다."
F통계량은 항상 분자/분모로 나누며, 대립가설 방향(>, <)에 따라 기각역 위치가 바뀝니다.


Q13. [조건부확률 기본 계산] 어떤 학급에서 남학생 비율은 0.4, 여학생 비율은 0.6이다. 남학생 중 안경 착용 비율은 0.25, 여학생 중 안경 착용 비율은 0.10이다. 임의로 한 학생을 뽑았을 때 안경을 쓴 학생일 조건에서 그 학생이 남학생일 확률을 구하시오.
전체확률법칙과 조건부확률 또는 베이즈 정리 연결.
P(안경) = P(안경|남)P(남) + P(안경|여)P(여) = 0.25 × 0.4 + 0.10 × 0.6 = 0.10 + 0.06 = 0.16
P(남|안경) = P(안경|남)P(남) / P(안경) = 0.25 × 0.4 / 0.16 = 0.10 / 0.16 = 0.625
최종 답
0.625, 즉 62.5%
• 안경 착용자 전체 비율은 0.16이고, 이 중 남학생일 확률은 베이즈 정리에 따라 0.625로 계산됩니다. 따라서 안경을 쓴 학생을 뽑았을 때 그 학생이 남학생일 확률은 62.5%입니다.
• P(남|안경)과 P(안경|남)을 같은 것으로 오해하는 실수.

Q14. [연속형 확률변수의 구간확률 해석] 연속형 확률변수 X의 확률밀도함수가 f(x)로 주어질 때, 왜 P(X=5)=0이며, 확률은 왜 반드시 구간으로 계산해야 하는지 서술하시오. 또한 정규분포에서 P(90<X<110)을 구할 때 표준화를 사용하는 이유를 설명하시오.
연속형 확률변수의 개념 이해와 표준화의 목적 설명.
연속형 확률변수의 확률은 면적(적분)으로 정의되므로 한 점의 넓이는 0입니다. 따라서 P(X=5)=0입니다.
어떤 값이 나올 가능성은 반드시 구간에 대한 면적, 즉 P(a<X<b)=∫f(x)dx 로 계산합니다.
정규분포마다 평균과 표준편차가 다르므로, Z=(X-μ)/σ 로 표준화하면 모든 정규분포를 표준정규분포표 하나로 계산할 수 있습니다.
• 연속형 확률변수에서 한 점의 확률은 0이며 실제 확률은 구간에 대한 적분으로 구합니다. 표준화는 서로 다른 정규분포를 공통 척도인 표준정규분포로 바꾸기 위한 절차입니다.
• 연속형 확률변수는 확률밀도함수의 면적으로 확률을 정의하므로 P(X=x)=0입니다. 따라서 확률은 반드시 일정 구간의 적분값으로 계산합니다. 정규분포의 경우 표준화를 통해 표준정규분포표를 이용할 수 있어 계산이 가능해집니다.
• 연속형에서도 특정 값 하나의 확률을 양수로 생각하는 실수.

Q15. [쌍체비교법(Paired t) 개념 + 간단 계산] 동일한 5명의 학생에게 보충수업 전후 시험을 실시하였다. 점수 차이 D=(수업 후-수업 전)가 각각 4, 2, 5, 3, 1 이라고 하자. 평균 차이가 0보다 큰지 검정하기 위한 쌍체비교의 핵심 통계량을 구하고, 표본평균 차이를 해석하시오.
쌍체비교는 두 집단이 아니라 '차이값 D 하나의 문제'로 바꾸어 푸는 사고방식.
차이값: 4, 2, 5, 3, 1
평균 차이 D̄ = (4+2+5+3+1)/5 = 3
편차 제곱합 = (1)2 + (-1)2 + (2)2 + 02 + (-2)2 = 10
표본분산 sD2 = 10/(5-1) = 2.5, 따라서 sD ≈ 1.581
t = (D̄ - 0)/(sD/√5) = 3/(1.581/2.236) ≈ 4.24
최종 답 D̄ = 3, t ≈ 4.24. 평균적으로 수업 후 점수가 상승한 방향이다.
• 쌍체비교에서는 각 개인의 전후 차이 D를 구한 뒤, 단일표본 t검정처럼 분석합니다. 본 자료에서 평균 차이값은 3점이고 t통계량도 크게 나타나므로 보충수업 후 점수가 증가하는 경향이 있다고 해석할 수 있습니다.
• 전후 점수를 독립표본처럼 따로 처리하는 실수. 쌍체비교는 반드시 개인별 차이값으로 바꾸어 계산합니다.


통계적 분석 과정의 5단계를 도식화하고 그 목적을 정확히 기술할 것
조건부 확률 교차표 분석 계산

 

 

반응형