Logistic Regression (로지스틱 회귀)

2024-04-06 2 분 소요

※ Logistic Regression (로지스틱 회귀)

종속변수가 범주형인 경우에 보통 사용.
종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함.
linear regression을 분류 모델로써 확장한 모델
linear regression 결과에 적당한 함수를 적용하여 output score를 0과 1 사이의 값으로 변환하는 것으로 카테고리가 나올 확률을 예측하는 문제로 변환됨.
이 확률값은 예측값이 1이 될 확률이며, 이 확률이 0.5를 넘기면 1로 예측, 그렇지 않으면 0으로 예측하는 분류 모델로 사용가능.

-	선형 회귀분석	로지스틱 회귀분석
종속변수 y의 형태	연속형 (숫자)	범주형, 연속형
종속변수 y의 범위	제한없음	제한있음

■ 로지스틱 회귀분석 탄생 배경

선형 회귀 $z = \beta_{0} + \beta_{1} x$

$z$의 범위를 제한이 있도록 변형하고 싶음
$y = \cfrac{1}{1+e^{-z}} = \cfrac{1}{1+e^{-(\beta_{0} + \beta_{1} x)}}$

$y$의 범위가 0 ~ 1사이로 변함
$\pi(x) = y$로 표기
$\pi(x)의 ~의미 : \pi(x) = P(y=1 X=x)$
X=x일때 y=1일 확률

■ 로짓 모형

□ Logistic Response Function (로지스틱 반응함수)

$\begin{align*} \pi(x) &= P(Y=1|X=x) \\ &= \cfrac{e^{\beta_{0} + \beta_{1} x}}{1+e^{\beta_{0} + \beta_{1} x}} \end{align*}$

□ Logistic Regression Function (로지스틱 회귀함수)

$\begin{align*} \pi(x) &= P(Y=1|X_{1}=x_{1}, ..., X_{p}=x_{p}) \\ &= \cfrac{e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}}}{1+e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}}} \end{align*}$

로지스틱 반응함수를 일반화시킨 것
모수 $\beta_{0}, \beta_{1}, …, \beta_{p}$에 비선형이지만
logit transformation(로짓변환)으로 선형화 가능.
odds(오즈) 사용

□ Odds (오즈)

$\begin{align*} \cfrac{\pi(x)}{1-\pi(x)} &= e^{\beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p}} \\ \end{align*}$

오즈: 양성 확률은 음성 확률의 몇 배인가?

□ Logit (로짓)

오즈를 로그변환으로 선형화한다

\[\begin{align*} logit(\pi(x)) &= ln(\cfrac{\pi(x)}{1-\pi(x)}) \quad (-\infty, \infty) \\ &= ln(\cfrac{P(Y=1|X=x)}{P(Y=0|X=x)} \\ &= \beta_{0} + \beta_{1} x_{1}+...+ \beta_{p} x_{p} \\ \end{align*}\]

=> maximum likelihood (최대우도법) 사용
=> 최소제곱회귀에서 쓰던 $R^{2}$, $t$-검정, $F$-검정 대신 다른 대응되는 통계량을 사용
=> SSE대신 로그우도값 사용

변수 $X_{j}$의 한 단위 변화에 따른 오즈의 변화량은 $e^{\hat \beta_{j}}$

$X_{j}$가 0, 1을 갖는 이항변수면 $e^{\hat \beta_{j}}$는 오즈의 변화량이라기 보단 오즈 값 자체임

■ Maximum Likelihood Method (최대우도법)

로지스틱 회귀함수의 모수를 추정하는 방법

보통 회귀함수는 최소제곱법을 사용
계수 1단위 증가 시

로짓의 변화 : $\beta_{1} x_{1}+…+ \beta_{p} x_{p}$
오즈의 변화 : $e^{\beta_{1} x_{1}+…+ \beta_{p} x_{p}}$

■ MLE (Maximum Likelihood Estimation, 최대우도추정법)

모수가 미지의 $\theta$ 인 확률분포에서 뽑은 표본들을 바탕으로 $\theta$ 를 추정하는 기법
우도(likelihood)는 이미 주어진 표본들이 비추어 봤을 때 모집단의 모수 $\theta$ 에 대한 추정이 그럴듯한 정도를 말함
우도 $L(\theta x)$ 는 $\theta$가 전제되었을 때 표본 $x$가 등장할 확률인 $P(x \theta)$에 비례한다.

■ 로지스틱 회귀에서 변수 제거하기

$L(p)$ : 상수항과 $p$개의 변수로 이루어진 모형의 로그우도
$L(p+q)$ : 상수항과 $p+q$개의 변수로 이루어진 모형의 로그우도

$2(L(p+q)-L(p)) \sim \Chi^{2}(q)$
유의하게 나오면 $q$변수를 포함, 아니면 제거 가능

AIC : -2(적합된 모형의 로그우도) + $2p$
BIC : -2(적합된 모형의 로그우도) + $p*logn$

최소로 하는 모형을 선택한다

Boosted Logistic Regression

약한 분류기를 여러개 더하여 모델을 만들어 가는것
- 약한 분류기 : feature하나로 모델을 만드는 것 (정확도가 낮다)

Logistic Model Trees

로지스틱 회귀와 의사결정나무를 합친 모형

Penalized Logistic Regression

$y = \alpha + \beta x$ 에서 $\beta$에 제한을 주는 것
릿지(ridge) L2 정규화 ($\sum \beta^{2} < t ~(영역)$>)
$y = \alpha + \beta x+ \sum \beta^{2}$
정규화(Regularization)를 하는 이유는 모델의 복잡성(complexity)을 조절하기 위해 » overfitting을 피하기 위해

Regularized Logistic Regression

라쏘(lasso) L1 정규화 ($\sum \lvert\beta \rvert < t$)
$y = \alpha + \beta x+ \sum \lvert\beta \rvert$

Twitter Facebook LinkedIn