Logistic Regression (로지스틱 회귀)
※ Logistic Regression (로지스틱 회귀)
- 종속변수가 범주형인 경우에 보통 사용.
- 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함.
- linear regression을 분류 모델로써 확장한 모델
- linear regression 결과에 적당한 함수를 적용하여 output score를 0과 1 사이의 값으로 변환하는 것으로 카테고리가 나올 확률을 예측하는 문제로 변환됨.
- 이 확률값은 예측값이 1이 될 확률이며, 이 확률이 0.5를 넘기면 1로 예측, 그렇지 않으면 0으로 예측하는 분류 모델로 사용가능.
- | 선형 회귀분석 | 로지스틱 회귀분석 |
---|---|---|
종속변수 y의 형태 | 연속형 (숫자) | 범주형, 연속형 |
종속변수 y의 범위 | 제한없음 | 제한있음 |
■ 로지스틱 회귀분석 탄생 배경
- 선형 회귀 $z = \beta_{0} + \beta_{1} x$
$z$의 범위를 제한이 있도록 변형하고 싶음
- $y = \cfrac{1}{1+e^{-z}} = \cfrac{1}{1+e^{-(\beta_{0} + \beta_{1} x)}}$
$y$의 범위가 0 ~ 1사이로 변함
- $\pi(x) = y$로 표기
-
$\pi(x)의 ~의미 : \pi(x) = P(y=1 X=x)$ - X=x일때 y=1일 확률
■ 로짓 모형
□ Logistic Response Function (로지스틱 반응함수)
\(\begin{align*} \pi(x) &= P(Y=1|X=x) \\ &= \cfrac{e^{\beta_{0} + \beta_{1} x}}{1+e^{\beta_{0} + \beta_{1} x}} \end{align*}\)
□ Logistic Regression Function (로지스틱 회귀함수)
\(\begin{align*} \pi(x) &= P(Y=1|X_{1}=x_{1}, ..., X_{p}=x_{p}) \\ &= \cfrac{e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}}}{1+e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}}} \end{align*}\)
- 로지스틱 반응함수를 일반화시킨 것
- 모수 $\beta_{0}, \beta_{1}, …, \beta_{p}$에 비선형이지만
- logit transformation(로짓변환)으로 선형화 가능.
- odds(오즈) 사용
□ Odds (오즈)
\(\begin{align*}
\cfrac{\pi(x)}{1-\pi(x)} &= e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}} \\
\end{align*}\)
오즈: 양성 확률은 음성 확률의 몇 배인가?
□ Logit (로짓)
\[\begin{align*} logit(\pi(x)) &= ln(\cfrac{\pi(x)}{1-\pi(x)}) \quad (-\infty, \infty) \\ &= ln(\cfrac{P(Y=1|X=x)}{P(Y=0|X=x)} \\ &= \beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p} \\ \end{align*}\]오즈를 로그변환으로 선형화한다
=> maximum likelihood (최대우도법) 사용
=> 최소제곱회귀에서 쓰던 $R^{2}$, $t$-검정, $F$-검정 대신 다른 대응되는 통계량을 사용
=> SSE대신 로그우도값 사용
변수 $X_{j}$의 한 단위 변화에 따른 오즈의 변화량은 $e^{\hat \beta_{j}}$
$X_{j}$가 0, 1을 갖는 이항변수면 $e^{\hat \beta_{j}}$는 오즈의 변화량이라기 보단 오즈 값 자체임
■ Maximum Likelihood Method (최대우도법)
- 로지스틱 회귀함수의 모수를 추정하는 방법
보통 회귀함수는 최소제곱법을 사용
- 계수 1단위 증가 시
로짓의 변화 : $\beta_{1} x_{1}+…+ \beta_{p} x_{p}$
오즈의 변화 : $e^{\beta_{1} x_{1}+…+ \beta_{p} x_{p}}$
■ MLE (Maximum Likelihood Estimation, 최대우도추정법)
- 모수가 미지의 $\theta$ 인 확률분포에서 뽑은 표본들을 바탕으로 $\theta$ 를 추정하는 기법
- 우도(likelihood)는 이미 주어진 표본들이 비추어 봤을 때 모집단의 모수 $\theta$ 에 대한 추정이 그럴듯한 정도를 말함
-
우도 $L(\theta x)$ 는 $\theta$가 전제되었을 때 표본 $x$가 등장할 확률인 $P(x \theta)$에 비례한다.
■ 로지스틱 회귀에서 변수 제거하기
- $L(p)$ : 상수항과 $p$개의 변수로 이루어진 모형의 로그우도
-
$L(p+q)$ : 상수항과 $p+q$개의 변수로 이루어진 모형의 로그우도
$2(L(p+q)-L(p)) \sim \Chi^{2}(q)$
유의하게 나오면 $q$변수를 포함, 아니면 제거 가능
- AIC : -2(적합된 모형의 로그우도) + $2p$
- BIC : -2(적합된 모형의 로그우도) + $p*logn$
최소로 하는 모형을 선택한다
Boosted Logistic Regression
- 약한 분류기를 여러개 더하여 모델을 만들어 가는것
- 약한 분류기 : feature하나로 모델을 만드는 것 (정확도가 낮다)
Logistic Model Trees
- 로지스틱 회귀와 의사결정나무를 합친 모형
Penalized Logistic Regression
- $y = \alpha + \beta x$ 에서 $\beta$에 제한을 주는 것
- 릿지(ridge) L2 정규화 ($\sum \beta^{2} < t ~(영역)$>)
- $y = \alpha + \beta x+ \sum \beta^{2}$
- 정규화(Regularization)를 하는 이유는 모델의 복잡성(complexity)을 조절하기 위해 » overfitting을 피하기 위해
Regularized Logistic Regression
- 라쏘(lasso) L1 정규화 ($\sum \lvert\beta \rvert < t$)
- $y = \alpha + \beta x+ \sum \lvert\beta \rvert$
댓글남기기