머신러닝

    SVM을 통해 구매 가능성이 있는 고객 분류하기

    SVM을 통한 구매 가능성이 있는 고객 분류하기 이 포스팅은 앞선 K-NN을 통한 구매 가능성이 있는 고객 분류하기와 같은 자료를 사용하지만 다른 머신러닝을 통해 분류를 해 볼 것이다. import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.svm import SVC from sklearn.metrics import confusion_matrix 라이브러리 import df = pd.read_csv('Social_Network_Ad..

    K-NN을 통해 구매 가능성이 있는 고객 분류하기

    라이브러리 import import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import confusion_matrix csv파일 불러오기 df = pd.read_csv('Social_Network_Ads.csv') df.head() 자료의 형태, 타입, NaN데이터 확인 df.info()..

    K-NN

    K-NN은 K-Nearest Neighbor이다. K값 = hyper paramters로 홀수갯수가 필요하다. 결론 - 자료끼리의 거리를 기준으로 분류한다.(클러스터링)

    Logistic Regression의 개념과 구매 여부 분류 하기

    Logistic Regression이란? 빨간점은 데이터이고, 액션의 0과 1은 y값, 레이블이다. y값이 있다는것은 곧 supervised leaning이란 뜻이다. 위의 그래프와 비슷하게 생긴 Sigmoid함수가 존재한다. linear Regression 의 식을 Sigmoid에 대입하여 일차방정식으로 만들면 다음과 같아진다. 위와 같은 식을 가진 regression을 Logistic Regression이라 한다. Logistic Regression을 통해 구매할지 안 할지, 클릭을 할 지 안 할지 여러가지 조건들을 확률로 나타낼 수 있다. 위의 시그모이드 함수를 적용한 그래프를 보면 20대는 클릭할 확률이 0.7%, 40대는 85%, 50대는 99.4%이다. 최종 예측 값은, 0.5를 기준으로 두 ..

    Multiple_Linear_Regression으로 회사의 이익 예측하기

    캘리포니아에 있는 회사 중 연구개발비는 210,000달러, 운영비는 170,000달러, 마케팅비는 500,000달러를 쓰는 회사가 있다. 이 회사는 얼마의 수익을 낼 것인지 예측해보자. R&D Spend / Administration / Marketing Spend / State Profit의 다수의 컬럼들을 가진 데이터를 Multiple_Linear_Regression을 이용해 수익을 예측하는 머신러닝 모델으로 만들겠습니다. import numpy as np import matplotlib.pyplot as plt import pandas as pd from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OneHot..

    Linear_Regression

    Linear_Regression은 분포된 값들 사이에서 y = ax + b인 1차 방정식을 구하여 입력 값에 따른 예측값을 산출 것이 목적이다. 여기서 x는 연차, y는 연봉으로 값이 주어지고,Linear_Regression 을 통해 찾아야 하는 것이 계수 a와 상수 b이다. sum(실제y값 - 예측값)^2 이 최소가 되게 만드는 것을 학습이라고 한다 Linear_Regression을 통해 연차에 따른 연봉을 예측하도록 해보겠다. import numpy as np import matplotlib.pyplot as plt import pandas as pd df = pd.read_csv('Salary_Data.csv') df.head() #데이터 프레임의 앞부분을 확인한다. df.isna().sum() #..