목록머신러닝 (4)
차밍이
Cross Validatioin : 교차 검증이 왜 필요한가? 머신러닝/딥러닝에서 데이터를 통한 모델을 설계한 후 모델을 검증하는 단계가 필요합니다. 모델을 적합하게 잘 설계했는지를 확인하기 위해서는 모델 Train 데이터와 테스트하는 Test 데이터를 구분해서 사용합니다. 그래야 데이터에 너무 과적합(Over fitting)되지 않은 모델을 설계할 수 있기 때문입니다. 대부분 약 7:3에서 8:3으로 Training : Test를 나누어서 검증하는 경우가 많습니다. 여기에서 더 좋은 모델을 만들기 위해서 Train 데이터를 다시 7:3으로 나누어서 Validation 과정을 거치기도 합니다. 그 이유는 train 데이터로 만든 모델이 test 데이터에만 잘 적용되는 또 다른 과적합을 만들 수 있습니다...
실습으로 알아보는 PCA의 필요성 scikit-learn의 IRIS 데이터와 PCA library를 활용해서 PCA실습을 진행하고 왜 PCA가 필요한지 알아보도록 하겠습니다. PCA에 대한 기본 개념의 아래 글을 참고해주세요. 2020/03/02 - [머신러닝] - [머신러닝] PCA(principal component analysis) 차원 축소에 대해 [머신러닝] PCA(principal component analysis) 차원 축소에 대해 0. 차원 축소 차원 축소의 필요성 실제 데이터들의 대부분은 매우 많은 설명 변수(= 특성 = feature = 흔히 X 값)들을 가지고 있습니다. 따라서 머신러닝 알고리즘을 적용해서 문제를 해결하는 데 있어서 어려움이.. chancoding.tistory.com..
위스콘신대학에서 발행한 암환자 데이터를 바탕으로 종양인지 아닌지를 판단하는 모델을 만들어 보겠습니다. 사용언어 : R 사용모델 : KNN library(gmodels) # Crosstable 보기 위한 라이브러리 library(class) # knn이 class 라이브러리에 들어있음 wbcd
파이썬 데이터 분석 : Kaggle 케글 도전기 그동안 기본 임시 데이터를 가지고 Python 데이터 분석에 대해서 공부했습니다. 이제는 이론적인 공부를 넘어서 Kaggle에서 실제 데이터를 가지고 데이터 분석을 진행하려고 합니다. What is Kaggle? Kaggle은 데이터 분석 및 머신러닝에 대한 경쟁과 학습을 위한 플랫폼입니다. 사실 교육보다는 Kaggle의 핵심은 Competition에 있다고 생각합니다. 실제 데이터를 바탕으로 누가 더 높은 정확도를 가지는 model을 설계하여 예측할 수 있는지를 경쟁합니다. 결과가 바로 Leader Board에 올라가서 등수와 점수가 게시됩니다. 그래서 더욱 흥미진진하게 경쟁할 수 있겠죠. 또한, 다양한 기관과 기업에서 자기들의 데이터를 competiti..