목록Kaggle (4)
차밍이
Intro. 안녕하세요. 이번에 데이콘에서 열리는 온도 추정 경진대회에 참여하려고 합니다. 사실 진작 참여해서 데이터 분석을 진행하고 있는 과정에 있습니다. 열심히 분석하고 빠져서 진행하다 보니 요즘 다른 공부나 블로그에 글도 못쓰고 있었습니다. 앞으로의 포스팅을 통해서 대회에 참여하면서 문제를 해결해나가는 방안을 기록해보려고 합니다. Dacon 이란? 한국판 Kaggle 정도로 요약할 수 있겠습니다. 다양한 기업의 데이터들을 분석 및 정제하고, 머신러닝이나 딥러닝 등을 통해서 데이터를 예측하는 모델을 만들어 경쟁하는 플랫폼입니다. Kaggle에 비해서 아직 규모는 작지만, 그래도 한국에서 데이터 싸이언스와 AI 등에 많은 관심이 생기고 있다는 생각이 들어서 좋습니다. AI 프렌즈 시즌1 배경 1. 배경..
Kaggle의 타이타닉 데이터를 바탕으로 의사결정 나무(Decision tree) 모델을 만들어서 예측을 진행해보겠습니다. 그리고 랜덤포레스트 모델을 사용해서 성능을 비교해보겠습니다. 전체적으로 세세하게 데이터를 분석하고 예측하는 것이 아닌, 간단하게 데이터 전처리를 모델을 만들어 보는 것에 초점을 맞추어 실습을 진행하겠습니다. 타이타닉 데이터 출처 : [https://www.kaggle.com/c/titanic] Library import pandas as pd import numpy as np import re from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from s..
R을 사용한 감성분석 케글의 영화 평점 분석 데이터를 사용하여 감성 분석을 진행하겠습니다. 텍스트 전처리, 데이터 전처리, 자연어 처리(NLP), 텍스트 마이닝을 진행한 후 정제된 데이터를 바탕으로 베이지안 필터기와 의사결정나무 모델을 사용해서 데이터를 분류해보겠습니다. 그 결과 어느 정도의 정확도를 보여줄 것인지 확인해보겠습니다. 작업환경은 구글의 코랩(Colab)에서 진행하였습니다. 데이터의 크기가 커서 좀 더 나은 환경을 위해서 코랩에서 진행했습니다. 집 컴퓨터의 메모리와 cpu가 좋다면 로컬에서 작업하시는 것이 좋을 수도 있습니다. (Colab에서 R 사용하기) 라이브러리 및 환경설정 # 파이썬에서 R 사용하는 환경설정 import rpy2 %load_ext rpy2.ipython # 구글 드라이..
파이썬 데이터 분석 : Kaggle 케글 도전기 그동안 기본 임시 데이터를 가지고 Python 데이터 분석에 대해서 공부했습니다. 이제는 이론적인 공부를 넘어서 Kaggle에서 실제 데이터를 가지고 데이터 분석을 진행하려고 합니다. What is Kaggle? Kaggle은 데이터 분석 및 머신러닝에 대한 경쟁과 학습을 위한 플랫폼입니다. 사실 교육보다는 Kaggle의 핵심은 Competition에 있다고 생각합니다. 실제 데이터를 바탕으로 누가 더 높은 정확도를 가지는 model을 설계하여 예측할 수 있는지를 경쟁합니다. 결과가 바로 Leader Board에 올라가서 등수와 점수가 게시됩니다. 그래서 더욱 흥미진진하게 경쟁할 수 있겠죠. 또한, 다양한 기관과 기업에서 자기들의 데이터를 competiti..