[AI]
기계 학습(Machinge Learning)은 컴퓨터 프로그램이 데이터와 처리 경험을 이용한 학습을 통해 정보 처리 능력을 향상시키는 것을 말한다.
이런 기계 학습에는 지도 학습과 비지도 학습이 있는데, Regression은 지도 학습에 해당한다.
지도 학습(Supervised Learning)은 기계 학습 중 컴퓨터가 입력값과 그에 따른 출력값이 있는 데이터를 이용하여 주어진 입력에 맞는 출력을 찾는 학습 방법이다.
Regression
Regression은 회귀라는 뜻으로 지도 학습의 한 종류로서 데이터 간에 함수 관계를 파악하여 통계적으로 추론하는 과정이다.
여기서 평균을 구하는 함수를 '회귀 모델'이라고 한다.
얼마나 큰지, 많은지 등 숫자로 표현할 수 있는 데이터를 양적 데이터라고 하고, 이름 등 단어로 표현할 수 있는 데이터를 범주형 데이터라고 한다.
Regression은 데이터의 독립변수로 종속변수 값의 평균을 구하는 방법으로 종속변수가 양적 데이터인 경우에 사용한다.
Regression의 대표적인 기술들
선형(Linear), 비선형(Non-Linear)
선형과 비선형은 회귀 계수를 기준으로 구분한다.
여기서 회귀 계수란 분산과 변수 사이의 관계를 나타내는 회귀 방정식에서 분산에 대한 변수에 따라 첨가되는 계수를 말한다.
비선형 모델은 유연성을 지니고 있어 복잡한 관계를 가지느 데이터도 모델링이 가능해 최근 딥러닝 알고리즘(RNN, CNN)에 많이 사용되고 있다.
단변량(Univariate), 다변량(Multivariate)
구하고자 하는 종속변수가 N개일 때 다변량 회귀 모델이라고 한다.
추론하고자 하는 종속변수의 개수가 많을수록 더 복잡한 모델이 된다.
대표적인 알고리즘으로는 SUR, VAR, Panel 등이 있다.
단순(Simple), 다중(Multiple)
종속변수를 구하는 독립변수가 두 개 이상일 때 다중 회귀 모델이라고 한다.
종속변수와 독리변수의 개수에 따라 총 4가지 유형으로 회귀 모델을 나눌 수 있다.
단변량 단순 회귀 모델, 단변량 다중 회귀 모델, 다변량 단순 회귀 모델, 다변량 다중 회귀 모델
Logistic Regression
Logistic Regression은 예측 변수 또는 독립 변수 집합에서 범주형 종속변수의 결과를 예측하는 데 사용하는 통계의 회귀 분석 유형이다.
이때 종속변수는 항상 이진이다.
이런 Logistic Regression은 예측 및 성공 확률 계산에 사용된다.
Regression 모델 만들기
Kaggle의 심장병 예측 데이터셋을 사용하였다.
이 데이터셋은 심장 질환에 가장 관련성이 높은(위험) 요소를 찾아내고 위험을 예측하는 것을 목적으로 한다.
데이터셋은 Massachusetts 주 Framingham 주민들에 대한 지속적인 심혈관 연구에서 나온 것으로, 분류 목표는 환자가 향후 10년간 관상 동맥 심장 질환(CDH) 위험이 있는지 예측하는 것이다.
데이터셋은 환자의 정보를 제공하는데, 4,000개 이상의 기록과 15개의 속성으로 이루어져 있다.
각 속성에는 인구 통계, 행동 및 의료 위험 요소가 있다.
기존 데이터셋은 아래와 같다.
필요하지 않은 속성을 삭제하고 누락된 값을 계산하여 삭제하고 상수를 추가한 후의 데이터 셋은 아래와 같다.
TenYearCHD를 Y로 나머지 속성을 X로 하여 모델을 구현하고 fit으로 학습시켜 summary 하면 아래와 같은 결과가 나온다.
이 결과를 신뢰구간, 승산비 및 P 값에 대해 정리하면 아래와 같다.
여기서 P 값은 귀무 가설에 반하는 증거를 측정하는 확률이다. P 값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 된다.
승산비는 두 결과의 승산을 비교한 것이다. 결과의 승산은 비교 결과가 발생할 확률을 기준 결과가 발생할 확률로 나눈 것이다.
신뢰구간은 승산비의 실제 값이 포함될 가능성이 높은 값의 범위이다.
분석의 결과를 해석하자면 다른 모든 특성을 일정하게 유지하면 남성이 여성보다 CDH 진단을 받을 확률이 1.788687로, 78.8% 높다고 할 수 있다.
나이의 측면에선 다른 모든 특성을 일정하게 유지하면 1.067644로 나이가 1살씩 증가할 때 CDH를 진단받을 확률이 7% 증가한다.
한 개비의 담배를 피울 때마다 CDH를 진단받을 확률이 2% 증가한다. 또한 수축기 혈압의 단위가 증가할 때마다 확률이 1.7% 증가한다.
반면에 콜레스테롤 수치와 포도당 수치는 큰 변화가 없는 것을 알 수 있다.
'2022 하계 모각코' 카테고리의 다른 글
최종 회고 (0) | 2022.08.22 |
---|---|
[6회차] 학습 계획서 (0) | 2022.08.09 |
[5회차] AI - Classification (0) | 2022.08.04 |
[5회차] 학습 계획서 (0) | 2022.08.04 |
[4회차] Deep Learning - AutoEncoder (0) | 2022.07.26 |