목록파이썬/머신러닝 (12)
차밍이
Intro Dacon의 AIFrenz 시즌1 온도 추정 경진대회에 참여한 차밍입니다. 2020년 03월 01일 ~ 2020년 04월 13일의 기간 동안 진행된 대회가 종료되었습니다. 총 972팀이 참여하였으며, 총상금 250만원! 마지막까지 치열하게 코드를 제출해서 점수를 갱신하는 모습을 볼 수 있었는데요. 다들 정말 대단한 것 같습니다. 특히나 혼자서도 우수한 결과를 보이신 '최상혁'님과 '먕'님 대단합니다. 소감 및 정리 대회의 팀명으로는 Python이라는 팀명을 사용해서 진행했습니다. 어제 13일 날로 대회 제출이 마감되었고 최종 결과가 발표되었습니다. 가채점 결과 1.49684 점수로 5등까지 달성했습니다. 하지만 아쉽게도 최종 순위에서는 4.33점으로 9등으로 떨어졌습니다. 막 대회가 종료되었을..
Cross Validatioin : 교차 검증이 왜 필요한가? 머신러닝/딥러닝에서 데이터를 통한 모델을 설계한 후 모델을 검증하는 단계가 필요합니다. 모델을 적합하게 잘 설계했는지를 확인하기 위해서는 모델 Train 데이터와 테스트하는 Test 데이터를 구분해서 사용합니다. 그래야 데이터에 너무 과적합(Over fitting)되지 않은 모델을 설계할 수 있기 때문입니다. 대부분 약 7:3에서 8:3으로 Training : Test를 나누어서 검증하는 경우가 많습니다. 여기에서 더 좋은 모델을 만들기 위해서 Train 데이터를 다시 7:3으로 나누어서 Validation 과정을 거치기도 합니다. 그 이유는 train 데이터로 만든 모델이 test 데이터에만 잘 적용되는 또 다른 과적합을 만들 수 있습니다...
Intro. 안녕하세요. 이번에 데이콘에서 열리는 온도 추정 경진대회에 참여하려고 합니다. 사실 진작 참여해서 데이터 분석을 진행하고 있는 과정에 있습니다. 열심히 분석하고 빠져서 진행하다 보니 요즘 다른 공부나 블로그에 글도 못쓰고 있었습니다. 앞으로의 포스팅을 통해서 대회에 참여하면서 문제를 해결해나가는 방안을 기록해보려고 합니다. Dacon 이란? 한국판 Kaggle 정도로 요약할 수 있겠습니다. 다양한 기업의 데이터들을 분석 및 정제하고, 머신러닝이나 딥러닝 등을 통해서 데이터를 예측하는 모델을 만들어 경쟁하는 플랫폼입니다. Kaggle에 비해서 아직 규모는 작지만, 그래도 한국에서 데이터 싸이언스와 AI 등에 많은 관심이 생기고 있다는 생각이 들어서 좋습니다. AI 프렌즈 시즌1 배경 1. 배경..
Intro SVM 모델을 사용해서 핸드폰 가격 예측 모델을 만들어볼 예정입니다. 진행 과정에서 SVM 모델에서 C와 감마에 대해서 가볍게 알아볼 예정입니다. Library 기본적인 라이브러리와 데이터를 가져오도록 합니다. 이후, 데이터의 기본적인 구조와 상태를 확인합니다. import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap df=pd.read_csv(r"C:\Users\chan\Desktop\딥러닝 수업\mobile-price-classification\train.csv") test=pd.read_csv(r"C:..
Kaggle의 타이타닉 데이터를 바탕으로 의사결정 나무(Decision tree) 모델을 만들어서 예측을 진행해보겠습니다. 그리고 랜덤포레스트 모델을 사용해서 성능을 비교해보겠습니다. 전체적으로 세세하게 데이터를 분석하고 예측하는 것이 아닌, 간단하게 데이터 전처리를 모델을 만들어 보는 것에 초점을 맞추어 실습을 진행하겠습니다. 타이타닉 데이터 출처 : [https://www.kaggle.com/c/titanic] Library import pandas as pd import numpy as np import re from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from s..
※ 주의 ※ 본 게시글은 아래의 게시글에서 설명한 EDA와 시각화 과정에서 사용된 소스코드를 첨부한 게시글입니다. LendingClub EDA와 시각화에 대한 설명이나 상태를 확인하고 싶으시면 아래 링크를 통해서 이전 게시글을 확이 하시면 됩니다. [파이썬/데이터 사이언스] - [파이썬 데이터 분석] LendingClub 원금 상환 여부 예측하기(1) : EDA와 데이터 시각화 [파이썬 데이터분석] LendingClub 원금 상환 여부 예측하기(1) : EDA와 데이터 시각화 이번 포스팅을 시작으로 Lending Club의 데이터를 활용해 파이썬 데이터 분석을 진행해볼 예정입니다. 파이썬이 데이터 분석하기에 좋고 강력한 library들도 많이 있습니다. 현재 4차 산업 양성과정의 빅데이터 AI.. cha..
이번 포스팅을 시작으로 Lending Club의 데이터를 활용해 파이썬 데이터 분석을 진행해볼 예정입니다. 파이썬이 데이터 분석하기에 좋고 강력한 library들도 많이 있습니다. 현재 4차 산업 양성과정의 빅데이터 AI설계 과정을 진행 중입니다. 본 과정을 진행하면서 진행한 프로젝트 중 하나이며, 프로젝트 진행 내용을 정리해서 포스팅하도록 하겠습니다. P2P 대출이란 무엇인가? P2P (Peer-to-Peer) 대출을 통해 금융기관과 개인의 채무관계가 아닌 개인과 개인 간의 채무관계의 대출을 의미합니다. 대부분은 한 명의 개인과 한 명의 개인이 아닌 다대 일 관계의 채무관계가 형성됩니다. 대출 방식은 한 명의 채무 자체가 여러 채권자들이 조금씩 돈을 투자해서 funding금액을 모아서 대출을 해주는 방..
실습을 통해서 알아보는 PCA 주성분 분석이 모델의 성능을 높여줄 수 있는지에 대해서 알아보겠습니다. 데이터셋은 싸이킷 런의 wine 데이터를 사용해서 실습을 진행했습니다. 와인의 알코올 도수, 산도, 색깔, 등의 정보를 바탕으로 어떤 class의 와인인지 알아보는 모델을 LogisticRegression을 사용해서 분류할 것입니다. 이때, PCA를 사용하는 것과 사용하지 않은 것을 두 가지를 진행할 것이며 이를 비교해보겠습니다. 이를 통해서 주성분 분석이 필요한 이유와 과연 주성분 분석이 모델의 성능을 높여주는지에 대해서 알아보겠습니다. 특히나 주성분 분석의 성능 향상에 대해서 여러 가지 상황을 나누어 성능 차이를 살펴보도록 하겠습니다. PCA에 대한 기본적인 내용을 잘 모르신다면 이전에 작성한 글을 ..
실습으로 알아보는 PCA의 필요성 scikit-learn의 IRIS 데이터와 PCA library를 활용해서 PCA실습을 진행하고 왜 PCA가 필요한지 알아보도록 하겠습니다. PCA에 대한 기본 개념의 아래 글을 참고해주세요. 2020/03/02 - [머신러닝] - [머신러닝] PCA(principal component analysis) 차원 축소에 대해 [머신러닝] PCA(principal component analysis) 차원 축소에 대해 0. 차원 축소 차원 축소의 필요성 실제 데이터들의 대부분은 매우 많은 설명 변수(= 특성 = feature = 흔히 X 값)들을 가지고 있습니다. 따라서 머신러닝 알고리즘을 적용해서 문제를 해결하는 데 있어서 어려움이.. chancoding.tistory.com..
0. 차원 축소 차원 축소의 필요성 실제 데이터들의 대부분은 매우 많은 설명 변수(= 특성 = feature = 흔히 X 값)들을 가지고 있습니다. 따라서 머신러닝 알고리즘을 적용해서 문제를 해결하는 데 있어서 어려움이 많습니다. 전체 데이터의 양이 너무 많아서 학습 속도가 느려진다. 별로 의미없는 feature들로 인해서 과적합되거나 학습이 잘 되지 않는다. 그러므로 feature selection이나 Dimensionality Reduction(차원 축소) 등의 작업이 필요합니다. 이번 글에서는 차원 축소에 대해서 알아보겠습니다. 1. 차원의 저주 각 변수의 50%영역에 해당하는 자료를 가지고 있다고 할 때, 전체 자료의 얼마만큼을 확보할 수 있는가? 머신 러닝에서 하나의 feature가 늘어날 때마..