| 변수 |
variable |
\( x \), \( y \) |
영 이탤릭 소문자 |
특성(feature)
속성(attribute)
항목(item)
지표(indicator)
측정값(measurement)
필드(field)
인자(factor)
|
변화하는 값을 표현하거나 정의하는 데 사용
代數式에서 어떤 값이 들어갈 수 있는 자리
|
| 확률변수 |
random variable
probability variable
|
\( X \), \( Y \) |
영 이탤릭 대문자 |
확률적변수(stochastic variable)
랜덤변수(random variable)
통계변수(statistical variable)
|
관측을 통해 얻으며 확률이 할당되는 미리 정해지지 않은 결과
결과가 이산적이면 이산확률변수(Discrete Random Variable), 연속적이면 연속확률변수(Continuous Random Variable)
|
| 상수 |
constant |
\( a \), \( b \), \( \cdots \) |
영 이탤릭 소문자 |
고정값
불변량
스칼라
|
자연수, 정수, 실수, 복소수 |
| 객체 |
object |
MyCase
myCase
|
영 pascal case: 클래스 명
영 camel case: 인스턴스 명
|
인스턴스(instance)
엔터티(entity)
|
보통 추상적이거나 범용적인 대상
컴퓨터과학에서는 데이터와 그 데이터를 처리하는 함수를 포함하는 캡슐화된 개념
|
| 개체 |
individual |
myCase |
영 camel case: 인스턴스 명 |
객체(object)
엔터티(entity)
인스턴스(instance)
|
개별적으로 식별되거나 고유한 특성을 가진 하나의 요소, 객체를 특정할 때 사용
개체가 생성(추출)되면 집단(group)을 이룸
개체의 연속형 속성은 실수(real number)로 표현
개체는 연속형 속성 별 연속확률분포를 가질 수 있음
개체의 범주형 속성은 개체가 속하는 집단명(범주명)으로 표현
개체는 범주형 속성 별 이산확률분포를 가질 수 있음
|
| 요소 |
element |
myelement |
영 소문자 |
원소 |
독립변수 |
| 속성 |
attribute |
myattribute |
영 소문자 |
특성 |
개체의 특성, the feature of object
변량으로 표현
|
| 집단 |
group |
myGroup |
영 camel case |
집합 |
순서가 없는 범주
집단은 부분집단을 가짐
집단은 확률을 가질 수 있음
|
| 수준 |
level |
myLevel |
영 camel case |
카테고리 |
순서가 있는 범주 |
| 범주 |
category |
myCategory |
영 camel case |
카테고리 |
순서가 없는 카테고리나 수준 |
| 모집단 |
population |
\( P \), \( N \) |
영 대문자 |
생성기 |
모든 가능한 관측치나 결과의 집합, 연구에서 관심을 갖는 대상
모집단은 모수(parameter)로 설명
|
| 표본 |
sample |
\( S = \{x_1, x_2, \dots, x_{50}\} \) |
영 대문자와 집합 |
샘플 |
표본(sample)은 모집단(population)이 실현된 집단(group)
모집단을 표현하는 모집단의 일부 개체의 집합, 표본은 실질적인 분석 대상
표본을 통해 모집단의 특성을 추정
표본은 통계량(statistic)으로 설명
|
| 표집 |
sampling |
\( S=\{\{x_{11}, x_{12}\}, \cdots, \{x_{91}, x_{92}\}\} \)
표본크기가 2인 표본을 9개 추출한 표집
|
영 대문자와 부분집합의 합집합 |
샘플링
추출(extraction)
|
모집단에서 일부 데이터를 선택하는 과정
표집을 통해 얻은 데이터 집합은 표본(sample)
|
| 데이터프레임 |
data frame |
df = pd.DataFrame(data)
df <- data.frame(c1 = c(1, 2), c2 = c(“A”, “B”))
|
DataFrame: 파이썬
data.frame: R
|
데이터구조 |
데이터 프레임의 각 열은 변수명과 변수값
개체 또는 집단을 행으로, 속성을 열로 표현
데이터프레임은 개체의 속성을 나타내는 1행과 r개체의 속성값의 나머지 행
|
| 빈도수 |
frequency |
\( f \), \( n \) |
영 이탤릭 소문자 |
도수
빈도
Count
|
변수의 일종
범주 또는 그룹별 개체의 출현 빈도
분포를 파악하는 기본적인 수단
|
| 독립변수 |
independent variable |
\( x \) |
영 이탤릭 소문자 |
예측독립변수(predictor variable)
입력변수(input variable)
설명변수(explanatory variable)
조작변수(manipulated variable)
피처(feature)
원인변수
|
다른 변수(종속변수)의 변화에 영향을 주는 변수 |
| 종속변수 |
dependent variable |
\( y \) |
영 이탤릭 소문자 |
결과변수(outcome variable)
반응변수(response variable)
출력변수(output variable)
타겟변수(target variable)
예측대상변수(predicted variable)
결과변수
|
독립변수에 의해 그 값이 결정되거나 영향을 받는 변수 |
| 인자 |
argument |
\( \arg \) |
영 소문자 \( \arg \) |
인수 |
함수에 전달되어 함수를 특정하는 함수의 속성 |
| 매개변수 |
parameter |
\( b_i \): 표본회귀계수
\( \beta_i \): 모회귀계수
|
영 이탤릭 소문자
그리스 이탤릭 소문자
|
파라미터 |
함수의 속성 |
| 함수 |
function |
\( f \) |
영 이탤릭 소문자 |
Mapping (매핑)
Transformation (변환)
Operator (연산자)
|
입력값 \( x \)를 받아 출력값 \( f(x) \)를 계산하는 대수식 |
| 회귀함수 |
regression function |
\( Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_n X_n + \epsilon \) |
\( Y \)는 종속변수
\( X_i \)는 독립변수
\( \epsilon \)은 회귀모델이 설명하지 못하는 무작위변동
|
평균으로의 회귀 |
집단의 회귀점, 회귀선, 회귀면
집단 생성모델의 회귀계수(\( \beta \))
1차 회귀계수는 독립변수가 독립적이고 배타적일 때는 가중치(\( w \))가 됨
|