차밍이
[DACON] AI프렌즈 시즌1 온도 추정 경진대회 - 01 : 대회 소개 및 참여 본문
Intro.
안녕하세요.
이번에 데이콘에서 열리는 온도 추정 경진대회에 참여하려고 합니다.
사실 진작 참여해서 데이터 분석을 진행하고 있는 과정에 있습니다.
열심히 분석하고 빠져서 진행하다 보니 요즘 다른 공부나 블로그에 글도 못쓰고 있었습니다.
앞으로의 포스팅을 통해서 대회에 참여하면서 문제를 해결해나가는 방안을 기록해보려고 합니다.
Dacon 이란?
한국판 Kaggle 정도로 요약할 수 있겠습니다.
다양한 기업의 데이터들을 분석 및 정제하고, 머신러닝이나 딥러닝 등을 통해서 데이터를 예측하는 모델을 만들어 경쟁하는 플랫폼입니다. Kaggle에 비해서 아직 규모는 작지만, 그래도 한국에서 데이터 싸이언스와 AI 등에 많은 관심이 생기고 있다는 생각이 들어서 좋습니다.
AI 프렌즈 시즌1 배경
1. 배경
우리나라에는 전국에 걸쳐 시도별 기상관측소가 있어 지역별 기온을 알 수 있습니다. 하지만, 각 지역 내에서도 대상과 위치에 따라 온도 차이가 매우 많이 납니다. 더운 여름날 뜨거운 아스팔트 위를 걸어보셨거나, 겨울철 칼바람 부는 교량 위를 걸어보신 분들은 체감하셨을 겁니다. 그렇다고 '모든 곳'에 관측소를 만들어 '지속적'으로 측정하기란 현실적으로 어렵습니다.
그래서 생각해 낸 방법이 ‘기상청 공공데이터를 활용한 온도 추정’입니다. 저가의 센서로 관심대상의 온도를 단기간 측정하여 기상청의 관측 데이터와의 상관관계 모델을 만들고, 이후엔 생성된 모델을 통해 온도를 추정하여 서비스하는 것입니다. 2013년 10월부터 시행된 ‘공공데이터의 제공 및 이용에 관한 법률 제21조’에 의해 기상청에서 데이터를 무료로 제공하고 있습니다.
2. 주최/주관/후원
- 주최 : AI프렌즈, 한국 원자력연구원, 한국기계연구원, DACON
- 주관 : DACON
- 후원 : 연구개발특구 진흥재단
3. 참가자 대상
- 빅데이터를 활용한 알고리즘 개발에 관심을 보유한 일반인, 학생, 기업 등 누구나
AI 프렌즈 시즌1 대회 일정
현재 2020년 3월 24일 기준으로 대회가 시작한 지 시간이 꽤 지났습니다. 약 20일 정도 남은 상황입니다. 남은 기간 동안 계속해서 달려서 10등권 안에 안착할 수 있었으면 좋겠습니다.
현재 리더보드
2020년 03월 24일 현재 가채점 리더보드 순위입니다. 저도 참여한 지 좀 시간이 됐는데 현재 리더보드 상태로 13등에 2.42413 점을 기록하고 있습니다. 앞으로 어떻게 바뀌어나갈지 궁금합니다. 1, 2, 3위 등수의 사람들의 점수를 보면 정말 어떻게 했는지 궁금합니다.
데이터 설명
데이터 설명
- 대전지역에서 측정한 실내외 19곳의 센서 데이터와, 주변 지역의 기상청 공공데이터를 semi-비식별화하여 제공합니다.
- 센서는 온도를 측정하였습니다.
- 모든 데이터는 시간 순으로 정렬되어 있으며 10분 단위 데이터입니다.
- 예측 대상(target variable)은 Y18입니다.
train.csv
- 30일간의 기상청 데이터 (X00
X39) 및 센서 데이터 (Y00
Y17)
- 이후 3일간의 기상청 데이터 (X00~X39) 및 센서 데이터 (Y18)
test.csv
- train.csv 기간 이후 80일간의 기상청 데이터 (X00~X39)
기본적인 데이터 설명입니다. 사실 설명을 보면 잘 이해가 안 되고 실제로 보면 이해가 더 잘되고 신박하다는 것을 생각할 수 있습니다.
데이콘에서 본 대회의 데이터를 설명한 영상 링크를 남겨놓았습니다.
https://www.youtube.com/watch?v=ukzaKsnKfXw&feature=youtu.be
대회 목표
전체적인 설명과 다른 기본 baseline 코드들, 그리고 참고자료로 올려준 것들을 종합해 보았을 때, 전이 학습을 염두해서 데이터를 올려준 것으로 판단됩니다. 전이 학습에 대한 내용을 잘 모르고 있어서 어떻게 문제를 해결해 나가야 할 것인지 고민이 많았습니다.
마무리
대회가 끝나고 나서야 해당 대회를 진행했던 내용들을 정리해서 올릴 수 있을 것 같습니다. 그때까지 열심히 대회에 참여해서 좋은 성과를 가져올 수 있도록 하겠습니다.
'파이썬 > 머신러닝' 카테고리의 다른 글
[DACON] AI프렌즈 시즌1 온도 추정 경진대회 - 02 : 대회 종료 및 소감 (0) | 2020.04.14 |
---|---|
[파이썬] 교차검증 Cross Validation 검증 (0) | 2020.03.26 |
[파이썬] 실습 데이터를 사용한 SVM 모델 생성 및 예측, C와 감마(Gamma) (3) | 2020.03.18 |
[파이썬 머신러닝] Kaggle 타이타닉 데이터 생존자 예측모델 RandomForest와 DecisionTree (1) | 2020.03.16 |
[파이썬/데이터분석] LendingClub 원금 상환 여부 예측하기(2) 시각화 소스코드 (0) | 2020.03.12 |
[파이썬/데이터분석] LendingClub 원금 상환 여부 예측하기(1) : EDA와 데이터 시각화 (0) | 2020.03.12 |
[머신러닝] PCA 실습 (2) : 주성분분석이 성능을 높여주는가? (2) | 2020.03.04 |
[머신러닝] 실습으로 보는 PCA(주성분 분석)가 필요한 이유 (3) | 2020.03.02 |