[ QA ]

다변량 표준정규분포 표본공간에서 원점에서 표본점까지 거리는 카이인가?

목차

네, 카이($\chi$)입니다.

거리공식에서 카이제곱($\chi^2$)이 나타납니다.

$$\chi^2=X_1^2 + X_2^2+ \cdots $$

카이와 카이제곱은 확률변수이며, 카이분포와 카이제곱분포라는 확률분포를 가집니다.

1. 확률공간

확률공간은 모든 가능한 시행의 결과인 표본공간, 표본공간의 부분집합을 원소로하는 사건공간, 사건에 확률을 부여하는 확률측도로 구성됩니다.

$$(\Omega, \mathcal{F}, P)$$

여기서, $\Omega$는 표본공간 : 모든 시행의 결과

$\mathcal{F}$는 사건공간 : 모든 가능한 사건들의 집합

$P$는 확률측도

확률공간$(\Omega, \mathcal{F}, P)$에서, 각 사건(event)이 모든 시행의 결과로 구성되고, 모든 사건은 실수값으로 표현된다고 하면 이 확률공간 위에 다음과 같이 k차원 확률변수벡터를 정의할 수 있습니다.

$$\mathbf{X}=(X_1, X_2, \cdots, X_k)$$

2. 다변량표준정규분포

확률변수벡터의 각 성분이 표준정규분포를 가지는 확률변수이고 독립되어 있으면, 다변량표준정규분포를 가진다고 하며 다음식으로 표현됩니다.

$$X_i \sim N(0,1), \quad i = 1, \ldots, k$$

벡터와 행렬로 표현하면

$$\mathbf{X} \sim N_k(\mathbf{0}, \mathbf{I}_k)$$

3. 3개의 실수값으로 구성된 표본공간

세 개의 실수값 원소로 구성된 표본공간은 이는 3차원실수공간 $\mathbb{R}^3$로 표현됩니다. 즉, “표본공간”은 실제 좌표공간 $\mathbb{R}^3$이고, 그 위에 “확률밀도”가 정의되어 있습니다.

$$f_{\mathbf{X}}(x_1, x_2, x_3) = (2\pi)^{-3/2} e^{-\tfrac{1}{2}(x_1^2 + x_2^2 + x_3^2)}$$

Table 1. 3차원 표본공간

구성요소 의미 차원
\( X_1, X_2, X_3 \) 독립 표준정규확률변수
\( (X_1, X_2, X_3) \) 표본점 (sample point) 3차원 공간 상의 한 점
\( \mathbf{X} \) 의 모든 가능한 값 표본공간 \( \mathbb{R}^3 \)
\( \mathbf{X} \) 의 분포 다변량 표준정규 확률공간

4. 원점에서 표본점까지의 거리

Figure 1.의 3D 그래프는 자유도 $k = 3$ 인 다변량 표준정규분포 확률공간을 시각화한 것입니다.

  • 푸른 점들: $(X_1, X_2, X_3) \sim N_3(0, I)$ — 즉, 3차원 표준정규분포의 표본점들
  • 주황색 구면: 거리의 최빈값(모드) $r = \sqrt{k – 1} = \sqrt{2} \approx 1.414$ 인 구면 — 즉, $\chi(3)$ 분포의 가장 가능성이 높은 거리
  • 빨간 점: 원점 (평균 벡터 $\mathbf{0}$)

즉, 이 확률공간에서 원점에서 표본점까지의 거리 $R = \sqrt{X_1^2 + X_2^2 + X_3^2}$는 $R \sim \chi(3)$을 따르며, 이 구면($\chi$의 모드 위치)을 중심으로 확률밀도가 가장 높습니다.

이 분포를 “카이분포”라고 합니다.

Figure 1. 3차원 표본공간과 다변량표준정규분포 확률공간

Figure 1. 카이제곱분포와 카이분포