[ DATA SCIENCE ]

카이제곱분포

목차

요약영상

1 Videos

chi-squared distribution

DataLink Research Group

DataLink Research Group, Seoul, Republic of Korea
Received Date: 2023-03-31, Revised Date: 2023-04-30, Accepted Date: 2023-05-30, Published Date: 2023-06-15
10.12972/DataLink.2024.s-13-5-2
DataLink Research Group. 2024. Data type. DataLink Library 2024:s-13-5-2.
Print

요약

카이제곱분포($\chi^2$)는 항상 양의 값을 가지며, 자유도가 증가함에 따라 정규분포에 수렴하는 비대칭적 특성을 지니고 있습니다. 표준정규변수들의 제곱합이 카이제곱분포를 따른다는 성질과 적률생성함수(mgf)를 통한 가법성 증명을 바탕으로, 정규모집단으로부터 유도된 통계량 $\frac{(n-1)S^2}{\sigma^2}$이 자유도 $n-1$인 카이제곱분포를 따름을 수학적으로 규명하고자 하였습니다. 이는 표본평균의 사용으로 인해 자유도가 1만큼 감소한 결과입니다. 결론적으로 표본분산($S^2$)의 기댓값이 모분산($\sigma^2$)과 일치한다는 점과 카이제곱변환을 통해 표본분산의 확률적 분포를 명확히 파악할 수 있음을 제시하였으며, 이러한 통계적 메커니즘이 모분산에 대한 추론 및 가설검정을 수행하는 데 있어 핵심적인 이론적 기반이 됨을 설명하고 있습니다.

주제어

카이제곱분포(Chi-squared Distribution), 표본분산(Sample Variance), 자유도(Degrees of Freedom), 적률생성함수(Moment Generating Function), 모분산 추론(Inference on Population Variance)

1. 카이제곱분포의 특징

확률변수인 카이제곱($\chi^2$)은 항상 양의 값을 가지며, 비대칭(오른쪽으로 긴 꼬리)적인 분포모양을 가집니다. 모수(parameter, 매개변수)인 자유도에 따라 분포의 모양이 변하는데, 자유도가 커질수록 정규분포에 가까워집니다.

2. 표본분산(확률변수 $S^2$)의 카이제곱변환

표준정규분포를 가지는 무한집단(모평균 $\mu$=0, 모분산 $\sigma^2=1$)에서 크기가 $n$인 표본을 무작위로 추출하면 표본의 자유도는 $n-1$이 되고 표본분산의 기대값은 모분산과 같은 1이 됩니다. 이 때 자유도의 정보를 가지는 표본의 총변동은 확률변수이며 표본의 자유도를 매개변수로 하는 카이제곱($\chi_{n-1}^2$)이라  할 수 있습니다. 이 카이제곱의 기대값은 자유도입니다. 

집단이 표준정규분포를 가지면

$$X = Z$$

여기서, $Z$는 표준정규분포를 가지는 확률변수
$X$는 집단의 확률변수

확률변수인 집단의 표본평균($\bar X$)은 집단의 모평균($\mu_X$)의 점추정량입니다. 그리고 표본분산($S^2$)을 총변동과 자유도로 표현하면 다음과 같습니다.

$$총변동=\sum\limits_{i=1}^{n}{Z_i^2}$$

$$자유도=n-1$$

$\chi_{n-1}^{2}$의 정리를 사용하면

$$\chi_{n-1}^{2}= \left({n-1}\right)\dfrac{S_X^2}{\sigma_X^2}=(n-1)S_X^2$$

$S_X^2$는 확률변수인 표본분산
집단이 표준정규분포이므로 $\sigma_X^2=1$

한편, 정규분포를 나타내는 모집단(모평균 $\mu_X$, 모분산 $\sigma_X^2$)에서 크기가 $n$인 표본을 무작위로 반복하여 비복원 추출하였을 때, 표본분산($S_X^2$)의 확률분포(표집분포)는 0점에 쏠려 나타나는 모양을 가집니다.(애니메이션 참조). 표본크기가 $n$인 집단의 표본분산($S_X^2$)을 무차원 확률변수 카이제곱으로 다음과 같이 변환하면 변환된 확률변수 카이제곱($\chi_{n-1}^2$)은 모수로 ($n-1$)을 가지는 카이제곱분포(chi-squared distribution)를 나타냅니다. 

$$\left({n-1}\right)\dfrac{S_X^{2}}{\sigma_{X}^{2}}=\dfrac{S_X^{2}}{\dfrac{\sigma_X^{2}}{(n-1)}}→\chi_{n-1}^2$$

확률변수 $X$가 나타내는 집단의 표본분산($S_X^2$)은 역시, 확률변수입니다. 이 확률변수를 무차원 확률변수인 $\chi_{n-1}^2$으로 변환하는 과정은 표본분산($S_X^2$)을 집단의 모분산( $\sigma_X^2$)으로 나누고 표본의 자유도($ n-1$)를 곱합니다. 이러한 과정을 카이제곱변환(chi-squared transformation)이라고 부르기도 합니다.

3. 카이제곱분포와 표준정규분포와의 관계

카이제곱분포는 감마분포의 특별한 경우로서 다음과 같습니다.

$$\chi^2(n)∼\Gamma(\alpha=\dfrac{n}{2}, \beta = 2)$$

여기서 $n$이 양의 정수일 때, 이를 자유도(degree of freedom, dof)라고 부릅니다.

카이제곱분포를 따르는 확률변수의 확률밀도함수(probability density function, pdf)를 살펴보면 다음과 같습니다.

$$f(x)=\begin{cases}\dfrac{1}{\Gamma(n/2)2^{n/2}}x^{(n/2)-1}e^{-x/2}, &\mbox{0 ≤ x < ∞}\\0, &\mbox{otherwise}\end{cases}$$

그리고 카이제곱분포를 따르는 확률변수의 평균, 분산 및 적률생성함수(moment generation function, mgf)는 다음과 같습니다.

$${\rm E}[X]=n$$

$${\rm Var}[X]=2n$$

$${\rm M}_{X}(t)=\dfrac{1}{(1-2t)^{n/2}}, t < \dfrac{1}{2}$$

카이제곱분포를 따르는 확률변수는 그 평균이 자유도와 같습니다. 카이제곱분포를 따르고 서로 독립적으로 각각 자유도가  ($n_1+n_2+, … , +n_k$)인 확률변수를 다음으로 표현한다면

$$X_1^2, X_2^2, … , X_k^2$$

이 확률변수들의 합으로 정의되는 확률변수를 다음과 같이 나타냅니다.

$$V=X_1^2+X_2^2+ , … , + X_k^2$$

새롭게 정의된 확률 변수 $V$는 자유도가 ($n_1+n_2+, … , +n_k$)인 카이제곱분포를 따릅니다. 증명은 다음과 같은 적률생성함수의 특성을 이용하여 행합니다.

$X$와 $Y$가 서로 독립적일 때,

$${\rm M}_{X+Y}(t) = {\rm M}_{X}(t){\rm M}_{Y}(t)$$

즉,

$${\rm M}_{V}(t) = {\rm M}_{{X_1}+{X_2}+ , … , +{X_k}}(t)$$

$$={{\rm M}_{X_1}}{{\rm M}_{X_1}}\cdot\cdot\cdot{{\rm M}_{X_k}}$$

$$={(1-2t)^{-{n_1}/2}}{(1-2t)^{-{n_2}/2}}\cdot\cdot\cdot{(1-2t)^{-{n_k}/2}}$$

$$=(1-2t)^{-\frac{1}{2}\sum\limits_{i=1}^{k}{n_i}}$$

위 식으로부터 다음을 알 수 있습니다.

$$V∼\chi^2\left(\sum\limits_{i=1}^{k}n_i\right)$$

카이제곱분포는 정규분포와 밀접한 관계를 가지고 있습니다. 표준정규분포와 카이제곱분포의 관계를 다음과 같이 정리할 수 있습니다. 확률변수 $X$가 표준정규분포를 따른다면,  $X^2$은 자유도 1의 카이제곱분포를 따른다고 볼 수 있습니다. 이는 적률생성함수(moment generating function, mgf)를 이용하여 다음과 같이 증명합니다.

$X ∼ {\rm N}(0. 1)$일 때, 적률생성함수(mgf)는 다음과 같습니다.

$${\rm M}_{X}(t)={\rm E}(e^{tx})$$

$$=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}{e^{tx}e^{-x^{2}/2}\, dx}$$

따라서 

$${\rm M}_{X^2}(t)={\rm E}(e^{tx^2})$$

$$=\dfrac{1}{\sqrt{2\pi}}\int_{-\infty}^{\infty}{e^{tx^2}e^{-x^{2}/2}\, dx}$$

$$=(1-2t)^{-1/2}$$

위 식과 원래 카이제곱 분포의 적률생성함수(mgf)를 비교하면, 위 식은 n=1인 경우입니다.

$$X^2∼\chi_1^2$$

위에서 살펴본 두가지 성질을 이용하면 다음을 증명할 수 있습니다.

평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따르는 모집단에서 $n$개의 표본을 랜덤하게 추출했을 때 각각의 표본을 다음과 같이 확률변수로 정의합니다.

$$X_1, X_2, … , X_n$$

이 확률변수들에 대해서 각각을 Z변환(Z transfomation, standardization, 표준화)합니다.

$$X_i → Z_i = \dfrac{X_i-\mu}{\sigma}$$

$Z_i$를 제곱하여 $Z_i^2$을 만들고 모두 더합니다.

$$Y=\sum\limits_{i=1}^{n}Z_i^2$$

$Z_i$가 모두 독립적으로 표준정규분포를 따른다면 $Y$는 자유도 $n$의 카이제곱분포를 따릅니다.

4. 카이제곱분포의 유용한 정리

평균이 $\mu$이고 분산이 $\sigma^2$인 정규 분포를 따르는 모집단으로부터 추출된 $n$개의 표본의 확률변수를 다음과 같이 나타냅니다.

$$X_1, X_2, … , X_n$$

이 때 다음과 같은 확률변수를 정의하면,

$$Y=\dfrac{\sum\limits_{i=1}^{n}(X_i-\bar X)^2}{\sigma^2}=(n-1)\dfrac{S^2}{\sigma^2}$$

이 확률변수는 자유도 $(n-1)$의 카이제곱분포를 따릅니다.

위 정리를 다음과 같이 증명합니다.

$X_1, X_2, … , X_n$은 다음이 성립합니다.

$$\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}∼\chi^{2}(n)$$

위 식을 다음과 같이 변형해 보면,

$$\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i-\mu)^2=\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_i-{\bar X}+{\bar X}-\mu)^2$$

$$=\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}[(X_i-{\bar X})^2+({\bar X}-\mu)^2+2(X_i-{\bar X})({\bar X}-\mu)]$$

$$=\dfrac{1}{\sigma^2}\left[\sum\limits_{i=1}^{n}(X_i-{\bar X})^2+\sum\limits_{i=1}^{n}({\bar X}-\mu)^2\right]$$

$$\dfrac{n-1}{\sigma^2}\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-{\bar X})^{2}+\dfrac{1}{\sigma^2}{n}({\bar X}-\mu)^2$$

$$\dfrac{(n-1)S^2}{\sigma^2}+\left(\dfrac{{\bar X}-\mu}{\sigma/\sqrt{n}}\right)^2$$

한편 위 식을 살펴보면

$$\dfrac{1}{\sigma^2}\sum\limits_{i=1}^{n}(X_{i}-\mu)^{2}∼\chi^{2}(n)$$

$$\left(\dfrac{{\bar X}-\mu}{\sigma/\sqrt{n}}\right)^{2}∼\chi_{1}^{2}$$

입니다. 따라서 카이제곱분포의 성질에 따라서 다음식을 유도할 수 있습니다.

$$(n-1)\dfrac{S^2}{\sigma^2}∼\chi_{n-1}^2$$

위의 정리는 모집단의 분산값에 대한 추론이나 검증 등에 사용할 수 있는 중요한 정리입니다.

다시한번 정리하면 통계량 $S^2$의 기대값은 모집단의 분산값입니다. 관측한 $S^2$값이 타당한가는 $S^2$의 분포를 살펴봄으로써 판단할 수 있습니다.

용어

시행

확률이론에서, 실험이나 시행은 무한히 반복되어 행해 질 수 있고 표본공간으로 알려진 가능한 모든 결과의 집합을 얻는 과정을 말합니다. 실험은 하나 이상의 결과가 있을 경우는 “무작위”로, 하나만 있는 경우는 “결정적”으로 표현합니다. 예를 들면, 2 가지(결과는 상호 배타적) 가능한 결과를 갖는 무작위 실험은 베르누이 시험이 있습니다.

실험이 수행 될 때, 시행의 결과는 보통 하나로 나타납니다. 그 결과는 모든 사건에 포함됩니다. 이 모든 사건은 시행에서 발생했다고 말합니다. 같은 실험을 여러 번 수행하고 결과를 모으고 나면 실험자는 실험에서 발생할 수 있는 다양한 결과 및 사건의 경험적 확률을 평가하고 통계분석방법을 적용할 수 있습니다.

출처

Experiment (probability theory) – Wikipedia

확률

확률은 사건이 일어날 가능성을 정량화하는 척도입니다. 확률은 0에서 1 사이의 숫자로 정량화됩니다. 여기서, 0은 불가능함을 나타내며 1은 확실함을 나타냅니다. 시행(event)의 확률이 높을수록 시행이 발생할 가능성이 큽니다. 간단한 예가 동전 던지기입니다. 동전 던지기는 결과가 명확하게 두 가지 결과인 “앞면(Head)”와 “뒷면(Tale)”으로 나타납니다. 그리고 쉽게 앞면과 뒷면의 확률은 동일하다고 동의가 이루어집니다. 다른 결과가 없기 때문에 “앞면”또는 뒷면”의 확률은 1/2 (0.5 또는 50 %)입니다.

이러한 확률개념은 수학, 통계, 금융, 도박, 과학 (특히 물리학), 인공지능, 기계 학습, 컴퓨터 과학, 게임 이론 등과 같은 분야에 공리적 수학적 형식화를 제공합니다. 빈도에 관한 추정을 이끌어내거나 복잡한 시스템의 기본 역학 및 규칙성을 기술하는 데에도 사용됩니다.

출처

Probability – Wikipedia

확률분포

확률이론 및 통계에서 확률분포는 실험에서 가능하고 서로 다른 모든 결과의 출현 확률을 제공하는 수학적 기능입니다. 보다 기술적인 측면에서, 확률분포는 사건의 확률의 관점에서 임의의 현상에 대한 기술입다. 예를 들어, 확률 변수 $X$가 동전 던지기( “실험”) 결과를 나타내는 데 사용되면 $X$의 확률 분포는 $X$ = 앞면의 경우 0.5, $X$ = 뒷면의 경우 0.5를 취합니다( 동전은 공정). 임의의 현상의 예에는 실험이나 조사의 결과가 포함될 수 있습니다.

확률분포는 관찰되는 임의의 현상의 모든 가능한 결과 집합인 기본 표본공간(sample space)의 관점에서 지정됩니다. 표본공간은 실수 집합 또는 벡터 집합일 수도 있고 비 숫자 값 목록일 수도 있습니다. 예를 들어, 동전 뒤집기의 샘플 공간은 {앞면(Head), 뒷면(Tail)}입니다. 확률 분포는 일반적으로 두 가지로 나뉩니다. 이산 확률분포 (동전 던지기 나 주사위와 같이 가능한 결과 집합이 불연속인 시나리오에 적용 가능)는 확률질량함수라고하는 결과의 확률에 대한 개별 목록으로 표시할 수 있습니다. 반면, 연속확률분포 (주어진 날의 온도와 같이 연속적인 범위 (예 : 실수)의 값을 취할 수 있는 시나리오에 적용 가능)는 일반적으로 확률 밀도함수 (임의의 개별 결과가 실제로는 0인 확률)로 표현할 수 있습니다. 정규 분포는 일반적으로 자주 나타나는 연속확률분포입니다. 지속적인 시간에 정의 된 확률론적 과정과 관련된 복잡한 실험은 더 일반적인 확률측정법의 사용을 요구할 수 있습니다.

표본공간이 1차원인 확률분포 (예 : 실수, 레이블 목록, 정렬된 레이블 또는 이진수)는 단 변수이라고 불리우는 반면 표본공간이 2차원  이상의 벡터 공간 인 분포를 다 변수라고합니다. 단일 변수(변량) 분포는 다양한 대체 값을 취하는 단일 확률변수의 확률을 제공합니다. 다 변수 분포 (합동확률분포)는 다양한 값의 조합을 취하는 임의의 벡터 (두 개 이상의 임의변수를 원소로 가짐)의 확률을 제공합니다. 중요하고 공통적으로 발생하는 단 변량 확률분포에는 이항분포, 초기 하분포 및 정규분포가 포함됩니다. 다 변수 정규 분포는 일반적으로 발생하는 다 변수 분포입니다.

출처

Probability distribution – Wikipedia

연속, 불연속 변수

수학에서 변수는 연속이거나 이산일 수 있습니다. 두 개의 특정 실제 값 (예 : 임의의 가까운 값) 사이의 모든 실제 값을 취할 수 있는 경우 변수는 해당 간격에서 연속입니다. 변수가 가질 수 있는 값을 포함하지 않는 극한의 간격이 양측에 존재하는 값을 취할 수 있다면, 그 변수값을 중심으로 변수는 분리되고 그 변수는 이산형 변수입니다. 일부 상황에서는 변수가 선상의 일부 범위에서 이산이고 다른 변수에서는 연속일 수 있습니다.

출처

Continuous or discrete variable – Wikipedia

확률변수

확률이론 및 통계에서 임의의 양, 임의의 변수, 즉 확률변수는 비공식적으로 값이 임의의 현상의 결과에 의존하는 변수로 설명됩니다. 확률변수에 대한 공식적인 수학적 설명은 확률이론의 주제입니다. 그 맥락에서, 확률변수는 결과가 일반적으로 실수인 확률공간에서 정의된 측정 가능한 함수로 이해할 수 있습니다.

확률변수의 가능한 값은 아직 수행되지 않은 실험의 가능한 결과 또는 이미 존재하는 값 불확실한 과거 실험의 가능한 결과인 경우를 나타내는 이미 존재하는 값으로 나타낼 수 있습니다 (예 : 부정확한 측정 또는 양자 불확실성으로 인해). 그들은 또한 개념적으로 “객관적”무작위 과정의 결과 또는 양에 대한 불완전한 지식으로 인한 “주관적인”무작위성”을 나타낼 수 있습니다. 확률변수의 잠재 가치에 할당된 확률의 의미는 확률 이론 자체의 일부가 아니며 확률의 해석에 대한 철학적 주장과 관련이 있습니다. 수학은 사용되는 특정 해석과 상관없이 동일하게 작동합니다.

함수로서 확률변수는 측정 가능해야 하며 확률은 잠재가치 집합으로 표현할 수 있습니다. 결과는 예측할 수 없는 몇 가지 물리적 변수에 달려 있을 수 있습니다. 예를 들어, 공정한 동전 던지기의 경우, 앞면 또는 뒷면의 최종 결과는 불확실한 동전의 물리적 조건에 달려 있습니다. 관찰되는 결과는 확실하지 않습니다. 동전의 표면에 균열이 생길 수 있지만 이러한 가능성은 고려 대상에서 제외됩니다.

확률변수의 존재 지역은 표본공간이며 임의의 현상의 가능한 결과의 집합으로 해석됩니다. 예를 들어, 동전 던지기의 경우 두 가지 가능한 결과, 즉 앞면 또는 뒷면이 그러합니다.

확률변수는 확률분포를 가지며, 확률분포는 확률변수의 확률값을 지정합니다. 무작위 변수는 이산형일 수 있습니다. 즉, 임의의 변수의 확률분포의 확률 질량함수 특성이 부여된 유한한 값 또는 계산 가능한 값에서 하나를 취합니다. 또는 임의의 변수의 확률분포의 특징 인 확률밀도함수를 통해 간격 또는 연속된간격에서 임의의 수치 값을 취하는 연속 또는 두 유형의 혼합물 일 수 있습니다.

동일한 확률분포를 갖는 두 개의 확률 변수는 다른 확률 변수와의 관련성 또는 독립성 측면에서 다를 수 있습니다. 무작위 변수의 실현, 즉 변수의 확률분포 함수에 따라 무작위로 값을 선택한 결과를 무작위 변수라고 합니다.

출처

Random variable – Wikipedia