머신러닝

    K-NN

    K-NN은 K-Nearest Neighbor이다. K값 = hyper paramters로 홀수갯수가 필요하다. 결론 - 자료끼리의 거리를 기준으로 분류한다.(클러스터링)

    Logistic Regression의 개념과 구매 여부 분류 하기

    Logistic Regression이란? 빨간점은 데이터이고, 액션의 0과 1은 y값, 레이블이다. y값이 있다는것은 곧 supervised leaning이란 뜻이다. 위의 그래프와 비슷하게 생긴 Sigmoid함수가 존재한다. linear Regression 의 식을 Sigmoid에 대입하여 일차방정식으로 만들면 다음과 같아진다. 위와 같은 식을 가진 regression을 Logistic Regression이라 한다. Logistic Regression을 통해 구매할지 안 할지, 클릭을 할 지 안 할지 여러가지 조건들을 확률로 나타낼 수 있다. 위의 시그모이드 함수를 적용한 그래프를 보면 20대는 클릭할 확률이 0.7%, 40대는 85%, 50대는 99.4%이다. 최종 예측 값은, 0.5를 기준으로 두 ..

    Multiple_Linear_Regression으로 회사의 이익 예측하기

    캘리포니아에 있는 회사 중 연구개발비는 210,000달러, 운영비는 170,000달러, 마케팅비는 500,000달러를 쓰는 회사가 있다. 이 회사는 얼마의 수익을 낼 것인지 예측해보자. R&D Spend / Administration / Marketing Spend / State Profit의 다수의 컬럼들을 가진 데이터를 Multiple_Linear_Regression을 이용해 수익을 예측하는 머신러닝 모델으로 만들겠습니다. import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OneHot..

    Linear_Regression

    Linear_Regression은 분포된 값들 사이에서 y = ax + b인 1차 방정식을 구하여 입력 값에 따른 예측값을 산출 것이 목적이다. 여기서 x는 연차, y는 연봉으로 값이 주어지고,Linear_Regression 을 통해 찾아야 하는 것이 계수 a와 상수 b이다. sum(실제y값 - 예측값)^2 이 최소가 되게 만드는 것을 학습이라고 한다 Linear_Regression을 통해 연차에 따른 연봉을 예측하도록 해보겠다. import numpy as np import matplotlib.pyplot as plt import pandas as pd df = pd.read_csv('Salary_Data.csv') df.head() #데이터 프레임의 앞부분을 확인한다. df.isna().sum() #..