| 확률 |
probability |
\( P \)
\( Pr \)
\( p \) |
영 이탤릭 대문자 \( P \)
영 이탤릭 대문자 \( Pr \)
영 이탤릭 소문자 \( p \) |
가능성 |
확률은 범주에 부여되나 범주의 크기가 무한소가 되면 속성값이 되며 확률은 확률밀도가 됨
판정의 기준이 되는 유의수준(\( \alpha \))은 확률 |
| 표본공간 |
sample space |
\( \Omega=\{\text{앞면}, \text{뒷면}\} \) |
그리스 이탤릭 대문자 \( \Omega \) |
결과공간
샘플공간 |
확률실험에서 가능한 모든 결과의 집합 |
| 사건공간 |
event space |
\( \mathcal{P}(\Omega)=\{\{\ \}, \{\text{앞면}\}, \{\text{뒷면}\}, \{\text{앞면}, \text{뒷면}\}\} \)
\( 2^{\Omega}=\{\{\ \}, \{1\}, \{2\}, \{1,2\}\} \)
\( \sigma\text{-algebra} \)
여기서 \( \Omega \)는 표본공간 |
수학기호 \( \mathcal{P} \)
수식 \( 2^{\Omega} \) |
시그마-대수(sigma-algebra)
시그마-필드(sigma-field) |
사건공간의 모든 요소는 표본공간의 부분집합
표본공간의 멱집합 |
| 확률변수 |
random variable
probability variable |
\( X \)
\( X(\omega) \) |
영 이탤릭 대문자 |
랜덤변수
난수 |
확률을 가지는 변수, 확률의 선행 개념 |
| 변량 |
data value
datum |
\( x \) |
영 이탤릭 소문자 |
데이터포인트
변수값
관측값 |
변수의 측정된 값, 변수의 가능한 값
보통 숫자로 표현되나 범주형 데이터(예: 성별)는 단어로도 표현 |
| 변수값 |
variable value |
\( x_1, x_2, \cdots, x_n \) |
영 이탤릭 소문자 |
변량
데이터포인트
관측값 |
변수에 할당된 구체적인 수치나 데이터
변수값이 연속형 수치: 연속형 변수
변수값이 이산형 횟수: 이산형 변수
변수값이 범주명: 범주형 변수 |
| 누적확률 |
cumulative probability |
\( P(X \leq x) \) |
영 이탤릭 대문자 |
확률적 적분 |
특정 확률분포에 대해 주어진 값 이하의 모든 확률을 합한 것 |
| 확률변수값 |
particular realizations of a random variable |
\( x_i \) |
영 이탤릭 소문자 |
실현값(realization)
결과값(outcome)
관측값(observation)
표본값(sample value) |
사건의 결과인 집합의 \( i \)번째 원소 |
| 기대값 |
expected value of \( Y \) |
\( {\rm E}[Y]=\mu_Y \)
여기서 \( Y \)는 확률변수 |
영 대문자 E |
모평균(population mean)
일차적률(first moment) |
확률변수 \( Y \)의 기대값 |
| 분산 |
variance of \( Y \) |
\( {\rm Var}[Y]=\sigma_Y^2 \): 확률변수의 분산 (모분산)
\( S_Y^2 \): 표본의 분산 (표본분산)
여기서 \( Y \)는 확률변수 |
영 문자 Var: 모분산
그리스 이탤릭 소문자 \( \sigma^2 \): 모분산
영 이탤릭 대문자 \( S^2 \): 표본분산 |
퍼짐(dispersal)
확산(spread)
변동성(volatility) |
확률변수 \( Y \)의 분산 |
| 공분산 |
covariance of \( X \) and \( Y \) |
\( {\rm Cov}[X,Y]=\sigma_{XY} \) |
[ ] 대괄호 내에 확률변수 |
상관정도(degree of correlation)
연관성(association)
연계성(linkage)
상호변동성(mutual variability) |
확률변수 \( X \)와 \( Y \)의 공분산 |
| 모수 |
parameter |
모평균
\( \mu \)
모분산
\( \sigma^2 \)
모비율
\( p \) |
그리스 이탤릭 소문자
영 이탤릭 소문자 |
모집단 매개변수(Population Parameter)
모집단 통계량(Population Statistic)
모집단 지표(Population Index)
기초통계량(Fundamental Statistic) |
모집단의 특성을 나타내는 수치
모집단을 표현하는 확률분포함수의 매개변수 |
| 확률질량함수 |
probability mass function |
\( f \) |
영 이탤릭 소문자 |
pmf |
범주형 또는 이산형 변수의 확률질량 |
| 확률밀도함수 |
probability density function |
\( f \) |
영 이탤릭 소문자 |
pdf |
연속형 변수의 확률밀도 |
| 누적분포함수 |
cumulative distribution function |
\( F \) |
영 이탤릭 대문자 |
cdf
누적확률함수 |
이분 경계값에서의 생성된 확률질량 |
| 확률분포 |
probability distribution |
\( X \sim t_{n-1} \) |
영 이탤릭 대문자 \( \sim \) 확률분포 |
확률모델(Probability Model)
분포함수(Distribution Function)
확률법칙(Probability Law)
빈도분포(Frequency Distribution) |
확률변수가 취할 수 있는 모든 가능한 값들과 그 값들이 발생할 확률
이산확률분포(discrete probability distribution): 확률변수가 취할 수 있는 값이 명확하게 분리되어 있는 경우
연속확률분포(continuous probability distribution): 확률변수의 값이 연속적인 값인 경우 |
| 확률분포추정 |
probability distribution estimation |
\( X \sim t_{n-1} \) |
영 이탤릭 대문자 \( \sim \) 확률분포 |
확률함수추정 |
확률밀도함수의 종류와 그에 따른 매개변수를 추정 |
| 생성함수 |
generating function |
\( G(x)=\sum\limits_{n=1}^{\infty}(n-1)x^{n}=x^0+2x^1+3x^2+4x^3+\cdots \)
\( S=\{1, 2x, 3x^2, 4x^3, \cdots\} \) |
영 이탤릭 대문자 \( G \) |
반복자함수 |
수열이나 이산 확률변수의 전체 정보를 압축한 함수
매개변수 추정값의 확률질량 또는 확률밀도 |
| 확률생성함수 |
probability generating function: PGF
moment generating function: MGF |
PGF: 이산형확률변수인 경우
MGF: 이산형확률변수, 연속형확률변수인 경우
\( G_Y(z)=\sum\limits_{n=0}^{\infty} P(Y=n)\cdot z^n \)
\( P_Y(z)=\sum\limits_{n=0}^{\infty} P(Y=n)\cdot z^n \)
\( P_Y=\{P(Y=0)\cdot z^0, P(Y=1)\cdot z^1, P(Y=2)\cdot z^2, \ldots\} \)
여기서, \( P_Y \)는 이산확률변수 \( Y \)의 확률생성함수
\( Y \)는 이산확률변수
\( P \)는 확률질량함수
\( z \)는 복소수 |
영 대문자 PGF
영 대문자 MGF
영 이탤릭 대문자 \( G \)
영 이탤릭 대문자 \( P \) |
확률발생함수
이산형특성함수(discrete characteristic function)
이산형누적확률함수(discrete cumulative probability function)
확률전파함수(probability propagation function) |
확률변수의 확률분포를 다항식으로 나타낸 함수 |
| 생성모델 |
generation model |
\( p \) |
영 이탤릭 소문자 |
통계모형 |
주어진 데이터의 분포를 학습하여 새로운 데이터를 생성할 수 있는 모델
새로운 데이터 포인트를 실제 데이터와 유사하게 생성 |
| 표준정규분포의 pdf |
the pdf of the standard normal distribution |
\( \varphi(z)=\dfrac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \)
여기서 \( z \)는 실수 |
그리스 이탤릭 소문자 \( \varphi \) |
표준정규 확률밀도함수 |
자연현상과 인간활동 결과의 분포를 모델링하는 데 사용
모든 실수의 독립변수(\( Z \))에 대해 정의된 연속형 함수
독립변수의 값(\( z \))에 따라 확률밀도를 나타내는 연속형 함수
표준정규분포는 평균(0)을 중심으로 완벽하게 대칭
그래프의 모양이 종(bell) 모양을 이루며, 중심에서 멀어질수록 확률밀도가 급격히 감소
모든 확률밀도의 총합은 1 |
| 표준정규분포의 cdf |
the cdf of the standard normal distribution |
\( \Phi(z)=\dfrac{1}{2}\left[1+\text{erf}\left(\dfrac{z}{\sqrt{2}}\right)\right] \)
여기서, \( \text{erf}(z)=\dfrac{2}{\sqrt{\pi}}\int_0^z e^{-t^2}\,dt \)
\( z \)는 실수
\( t \)는 실수 |
그리스 이탤릭 대문자 \( \Phi \) |
표준정규 누적분포함수 |
주어진 독립변수값(\( z \))까지 표준정규 확률밀도함수의 적분으로 정의
\( Z \)값(\( z \))에 따라 비선형적으로 증가
그래프는 중심(평균)을 기준으로 대칭
\( Z \)값이 음의 무한대로 갈 때 표준정규 누적분포함수는 0으로 수렴하고 양의 무한대로 갈 때는 1로 수렴 |
| F분포 임계값 |
F distribution critical value |
\( F_{(\nu_1,\nu_2;\alpha)} \) |
\( F_{\text{자유도1},\ \text{자유도2}\ ;\ \text{유의수준}} \) |
F분포 임계치 |
특정 신뢰수준에서 집단간분산과 집단내분산의 다름이 우연히 발생했을 확률을 결정하는 주어지는 F확률변수값
주어지는 유의수준(\( \alpha \))과 표본의 자유도(\( df \))로부터 계산
F검정통계량이 F분포 임계값보다 클 경우, 귀무가설(집단간분산과 집단내분산이 같다)을 기각 |
| t분포 임계값 |
t distribution critical value |
\( t_{n-1\ ;\ \frac{\alpha}{2}} \) |
\( t_{\text{자유도}\ ;\ \text{양측검정 유의수준}} \) |
t분포 임계치 |
표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 t확률변수값
주어지는 유의수준(\( \alpha \))과 표본의 자유도(\( df \))와 검정종류(양측 또는 단측)로 계산
t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
| Z분포 임계값 |
Z distribution critical value |
\( z_{\frac{\alpha}{2}} \) |
\( z_{\text{양측검정 유의수준}} \) |
Z분포 임계치 |
표본평균이 어떤 특정 값(예를 들어, 모평균)과 유의미하게 다른지를 판단하는 데 필요한 경계로서의 Z확률변수값
주어지는 유의수준(\( \alpha \))과 검정종류(양측 또는 단측)로 계산
Z검정통계량이 Z분포 임계값을 초과하면 귀무가설(표본평균이 특정값과 같다)을 기각 |
| 카이제곱분포 임계값 |
chi-square distribution critical value |
\( \chi_{n-1\ ;\ \alpha}^2 \) |
\( \chi^2_{\text{자유도}\ ;\ \text{유의수준}} \) |
카이제분포 임계치 |
관측빈도(관측확률)와 기대빈도(기대확률) 사이의 다름을 평가하는 데 사용하는 계산되는 카이제곱확률변수값
주어지는 유의수준(\( \alpha \))과 표본의 자유도(\( df \))로부터 계산
t검정통계량이 t분포 임계값을 초과하면 귀무가설(표본평균이 특정 값과 같다)을 기각 |
| 확률변수의 독립 |
\( X \) is independent of \( Y \) |
\( X \bot Y \)
\( X \)와 \( Y \)는 확률변수 |
\( \bot \)는 독립 기호 |
독립성
독립관계 |
\( X \)와 \( Y \)는 독립적 |
| 확률변수의 조건독립 |
\( X \) is independent of \( Y \) given \( W \) |
\( X \bot Y \mid W \)
여기서, \( X, Y, W \)는 확률변수 |
\( \mid \)는 조건 기호
\( \bot \)는 독립 기호 |
조건독립성
조건독립관 |
확률변수 \( X \)와 \( Y \)는 주어진 확률변수 \( W \)에서 독립 |
| 조건부확률 |
the conditional probability |
\( P(A \mid B) \)
여기서 \( A \)와 \( B \)는 사건 |
영 이탤릭 대문자 \( P \) |
조건부발생확 |
\( B \)사건이 일어난 상태에서 \( A \)사건이 일어날 확률 |
| 가능도함수 |
likelihood function |
\( L(\boldsymbol{\theta} \, ; \mathbf{X}) \)
여기서, \( \boldsymbol{\theta} \)는 확률분포의 모수벡터(parameter vector)
\( \mathbf{X} \)는 확률벡터(probability vector) |
영 이탤릭 대문자 \( L \) |
우도함수 |
가능도함수는 관측데이터에 기반하여 모수의 값을 추정하는 데 사용
모수값 추정의 통계적 도구(추정량, estimator)인 MLE(최대우도추정법)의 중요한 요소
평균과 분산을 동시에 추정하는 데 사용하는 통계적 도구에는 최소제곱법이 있음
가능도함수를 미분한 함수가 “스코어 함수(score function)”
최대우도추정은 스코어 함수를 사용하여 가능도함수를 최대화하는 과정 중 하나 |
| 목적함수 |
objective function |
\( J(\theta) \) |
영 이탤릭 대문자 \( J \) |
스코어함수(score function)
비용함수(cost function)
손실함수(loss function)
오차함수(error function) |
주어진 문제의 목표를 수학적으로 정의한 함수
목적함수를 최소화하거나 최대화하는 변수 값의 조합을 찾는 것이 최적화 문제의 핵심 |
| 공동확률분포 |
the joint probability distribution of random variables \( X \) and \( Y \) |
\( P(X,Y) \) |
영 이탤릭 대문자 \( P \) |
결합확률분포(Joint Probability Distribution)
다변량확률분포(Multivariate Probability Distribution)
다차원확률분포(Multidimensional Probability Distribution)
복합확률분포(Composite Probability Distribution)
확장확률분포(Extended Probability Distribution) |
두 개 이상의 확률변수가 동시에 특정 값이나 이벤트를 취할 확률을 설명하는 확률분포 |
| 공동확률질량함수 |
joint probability mass function |
\( p(x,y)=P(X=x, Y=y) \)
\( p(x,y,z)=P(X=x, Y=y, Z=z) \)
여기서 \( X, Y, Z \)는 확률변수
\( x, y, z \)는 확률변수값
\( p(\mathbf{x})=p(X_1=x_1, \ldots, X_n=x_n) \)
여기서 \( \mathbf{x}=(x_1, x_2, \ldots, x_n) \) |
영 이탤릭 소문자 \( p \) |
결합확률밀도함수(Joint Probability density Function)
다변량 확률밀도함수(Multivariate density Mass Function)
다차원 확률밀도함수(Multidimensional Probability density Function)
결합확률함수(Joint Probability Function) |
두 개 이상의 이산형 확률변수가 동시에 특정 값을 취할 확률을 나타내는 함수
함수값은 양수이며 합은 1
공동확률밀도함수로 주변확률질량함수를 구할 수 있음
두 변수가 통계적 독립인지 확인: \( p(x,y)=p_X(x)\cdot p_Y(y) \)
두 변수의 조건부확률식의 분자: \( p(y\mid x)=\dfrac{p(x,y)}{p_X(x)} \)
변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
| 공동확률밀도함수 |
joint probability density function |
\( f_{X,Y}(x,y) \)
여기서 \( X, Y \)는 확률변수 |
영 이탤릭 소문자 \( f \) |
결합확률질량함수(Joint Probability Mass Function)
다변량 확률질량함수(Multivariate Probability Mass Function)
다차원 확률질량함수(Multidimensional Probability Mass Function)
결합확률함수(Joint Probability Function) |
두 개 이상의 연속형 확률변수가 동시에 특정 값을 취할 확률밀도를 나타내는 함수
함수값은 양수이며 적분값은 1
공동확률밀도함수로 주변확률밀도함수를 구할 수 있음
두 변수가 통계적 독립인지 확인: \( f_{X,Y}(x,y)=f_X(x)\cdot f_Y(y) \)
두 변수의 조건부확률식의 분자: \( f_{Y\mid X}(y\mid x)=\dfrac{f_{X,Y}(x,y)}{f_X(x)} \)
변수들 간의 상관관계를 분석하여 그 관계의 강도와 방향을 파악 |
| 공동누적분포함수 |
joint cumulative distribution function |
\( F_{X,Y}(x,y)=P(X\leq x, Y\leq y) \)
여기서 \( X, Y \)는 확률변수
\( x \)와 \( y \)는 확률변수 \( X \)와 \( Y \)의 확률변수값 |
영 이탤릭 대문자 \( F \) |
결합누적분포함수(Joint cumulative distribution Function)
다변량누적분포함수(Multivariate cumulative distribution Function)
다차원누적분포함수(Multidimensional cumulative distribution Function)
복합누적분포함수(composite cumulative distribution Function) |
만일 \( x_1 \leq x_2 \)이고 \( y_1 \leq y_2 \)이면 \( F_{X,Y}(x_1,y_1)\leq F_{X,Y}(x_2,y_2) \)
경계조건: \( F_{X,Y}(-\infty,y)=0,\quad F_{X,Y}(x,-\infty)=0,\quad F_{X,Y}(\infty,\infty)=1 \)
연속형 확률변수에 대한 공동누적분포함수의 미분은 해당 위에서의 공동확률밀도함수를 제공
\( X \)가 \( a \)와 \( b \) 사이이고 \( Y \)가 \( c \)와 \( d \) 사이일 확률: \( F_{X,Y}(b,d)-F_{X,Y}(b,c)-F_{X,Y}(a,d)+F_{X,Y}(a,c) \)
두 변수의 공동누적분포함수를 통해 변수들이 어떻게 함께 변화하는지, 서로 어떤 종속성을 가지는지 분석
여러 변수를 포함하는 복잡한 확률 모델을 구축하고 분석 |