같지 않습니다. 확률변량은 확률변수 함수가 실제 시행에서 취한 실현값입니다.
확률변량은 단순한 수치로 된 실현값이 아니라 확률변수의 확률적 성질을 계승한 값으로 여전히 확률이 부여된 대상이라는 점이 중요합니다.
확률변량은 임의의 수치가 아니라 확률적 규칙에 따라 발생한 값이므로 확률분포 내에서 확률이 정의되는 대상으로 취급합니다. 즉, 확률변량은 그 발생이 확률분포에 의해 규정되므로 확률이 부여된 수치입니다.
표본은 단순한 변량의 집합이 아니라, 확률변량들로 구성된 벡터(random variate vector) 로 이해할 수 있습니다. 이 때 각 표본 성분은 확률변수의 실현값으로서 확률분포를 따르며, 표본 전체는 확률구조를 지닌 다변량확률변량으로 표현됩니다.
$$\mathbf{y} = (y_1, y_2, \ldots, y_n)^{\top}$$
따라서, 표본은 다변량확률분포로 표현할 수 있습니다.
$$\mathbf{y} \sim N(\boldsymbol{\mu}, \, \boldsymbol{\Sigma})$$
확률변수는 이론적 함수, 확률변량은 그 함수가 실제 시행에서 취한 실현값(표본의 원소) 입니다. 표본관점에서 표현하면, 확률변수는 확률공간 위의 함수, 확률변량은 그 함수가 표본 단위에서 취한 실현값입니다
Table 1. 확률변수와 확률변량 비교
| 구분 | 확률변수 (random variable) | 확률변량 (random variate) |
|---|---|---|
| 정의 | 확률공간 $ (\Omega, \mathcal{F}, P) $ 위의 함수 | 확률변수가 특정 시행에서 취한 실제값 |
| 수학적 표현 | $ Y : \Omega \to \mathbb{R} $ | $ \boldsymbol{y}=y_i = Y(\omega_i) $$ |
| 의미 | 확률적 법칙을 정의하는 이론적 대상 | 표본으로 실현된 수치 |
| 혼합선형모형에서 | $ Y, U, \varepsilon $ (모형상의 확률변수) | $ y_i, u_i, \varepsilon_i $ (표본상의 실현값) |
반복관측에서의 혼합선형모형(Linear Mixed Model, LMM)은 다음과 같이 정의됩니다.
$$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} + \boldsymbol{\varepsilon}$$
$$\mathbf{u} \sim N(\mathbf{0}, \mathbf{G}), \quad
\boldsymbol{\varepsilon} \sim N(\mathbf{0}, \mathbf{R})$$
확률분포로 표현하면 다음과 같습니다.
$$\mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta}, \mathbf{V})$$
여기서, $\mathbf{V}$는 분산-공분산행렬: $\mathbf{V}=\mathbf{Z}\mathbf{G}\mathbf{Z}^{\top} + \mathbf{R}$
Table 2. 단일 표본에서의 혼합선형모형 기호 요약
| 기호 | 의미 | 수준 |
|---|---|---|
| $$ y_i $$ | 전체 표본 내 i번째 관측값 (스칼라 확률변량) | 관측 단위 |
| $$ \mathbf{y} = (y_1, y_2, \ldots, y_n)^{\top} $$ | 단일 표본 벡터 (확률변량 벡터) | 하나의 표본 |
| $$ \mathbf{u}, \boldsymbol{\varepsilon} $$ | 랜덤효과, 오차항 (확률변량 벡터) | 모형의 확률적 구성요소 |
| $$ \mathbf{X}, \mathbf{Z} $$ | 설계행렬 (고정효과, 랜덤효과에 대한 입력 행렬) | 모형 구조 행렬 |
| $$ \boldsymbol{\beta} $$ | 고정효과 회귀계수 벡터 | 모수(parameter) |
단일 표본의 혼합선형모형에서는 표본벡터 $\boldsymbol{y}$가 분석의 기본 단위이며, 이 벡터는 확률변수
Y 의 실현값으로 구성된 확률변량 벡터(random variate vector) 입니다.
$\boldsymbol{V}는 표본벡터 $\boldsymbol{y}$ 내부의 dependency structure (공분산 구조) 를 정의하며, 그 내부의 선형종속성(rank deficiency)은 redundancy 를 의미합니다.
혼합선형모형의 표본 벡터 $\boldsymbol{y}_i$는 서로 독립이 아닌 세 가지 구조적 속성을 가집니다. 반복관측(repeated measures)은 특별히 Indexing structure로 표본벡터를 구분합니다.
혼합선형모형의 표본단위 확률변량벡터 $\boldsymbol{y}$는 dependency structure 에 의해 반복관측 간 상관을 가지며, redundancy 에 의해 공분산 구조 내 정보가 중복될 수 있습니다. 반복측정에 의한 여러 확률변량벡터 $\boldsymbol{y}_i$는 indexing structure 에 의해 구분됩니다.
Table 3. 단일 표본에서의 혼합선형모형 기호 요약
| 개념 | 의미 | 수학적 표현 | 혼합선형모형에서의 역할 |
|---|---|---|---|
| Dependency structure | 단일 표본 벡터 $$\mathbf{y}$$ 내부의 확률변량들 사이에 존재하는 상관·공분산 관계 | $$ \operatorname{Cov}(\mathbf{y}) = \mathbf{Z}\mathbf{G}\mathbf{Z}^{\top} + \mathbf{R} $$ | 랜덤효과와 오차항의 결합으로 형성된 공분산 구조를 나타냄 |
| Redundancy | 단일 표본의 공분산 구조 안에 있는 중복성, 즉 독립 정보량의 부족 | $$ \operatorname{rank}(\operatorname{Cov}(\mathbf{y})) < n $$ | 공분산 구조의 선형종속성으로 인해 추정 효율이 저하될 수 있음을 의미 |
| Indexing structure | 이 설명만은 여러 표본(여러 개체)인 경우를 가정함. 개체가 여러 개일 때 각 표본단위 확률변량 벡터 $$\boldsymbol{y}_i$$ 가 개체 단위로 구분되고, 그 안에 반복관측이 존재함. | $$ \boldsymbol{y}_i = \mathbf{X}_i \boldsymbol{\beta} + \mathbf{Z}_i \boldsymbol{u}_i + \boldsymbol{\varepsilon}_i $$ | 개체 단위의 계층적(군집적) 구조를 정의하여, 단일 표본 표현을 여러 표본으로 확장할 수 있게 함 |