목록데이터분석 (8)
차밍이
목차 파이썬을 사용해 데이터 분석을 진행할 때, 필수적으로 사용하는 라이브러리가 있다면 판다스와 넘파이가 있다. 데이터를 많이 다루기 시작하면서 생각보다 DataFrame을 다루는 것이 느린 것 같다는 의문을 가지는 경우가 종종있다. 그래서 데이터프레임의 매소드인 value_counts와 unique에 대해서 과연 정말 빠른지 확인을 해보았다. 결론 먼저 애기하자면, 그냥 pandas사용하는 것이 맘편하다...ㅇㅅㅇ; 속도 측정은 쥬피터의 %%timeit을 사용해서 시간을 측정하였다. %timeit에 대해서 더 알아보려면 아래 링크를 참고하면 된다. [파이썬] %timeit으로 jupyter notebook에서 Cell 단위 코드 수행 시간 확인하기 [파이썬] %timeit으로 jupyter notebo..
목차 1. 데이터 불러오기 1-1. CSV 파일 데이터를 청크 크기로 읽어오기 100만개 이상이 넘어가는 row를 가진 데이터셋을 불러온다면 너무 무거워져서 속도가 매우 느려지게 됨 pandas.read_csv에서 chunksize라는 매개변수 활용 가능 로컬 메모리에 맞추기 위해 한 번에 DataFrame으로 읽어 올 행의 수를 지정 가능 df_chunk = pd.read_csv(r'../input/data.csv', chunksize=1000000) 1-2. 파일이 안불러와 질 때, 각 Column 타입 줄여서 불러오기 데이터가 너무 많아 불러오기 힘든 경우, 각 Column의 타입을 확인해서 데이터 크기를 줄여서 불러올 수 있다. def check_dtypes(file_path): print(fil..
Y축 반전 뒤집기 기본 수식 작성 import plotly.graph_objects as go import numpy as np x = np.arange(-5, 6) y = x**3 fig = go.Figure(data=go.Scatter(x=x, y=y)) fig.show() 축 반전 fig.update_layout( yaxis = dict(autorange='reversed'), ) update_layout 에서 자동 범위 설정을 reversed 로 설정하면 반전이 수행됩니다. x 축은 xaxis로 설정해서 하면 동일하게 적용할 수 있습니다. 전체 소스 코드 import plotly.graph_objects as go import numpy as np x = np.arange(-5, 6) y = x*..
데이터 구간별 범주화 pd.cut 데이터 값들을 특정 구간에 따라서 범주화할 때, 사용 범주를 나누고 라벨을 붙여서 범주형 데이터로 변환 가능 연속 데이터를 구간별로 범주화하는 함수 pd.cut 사용 방법 import pandas as pd ages = [0, 10, 15, 13, 21, 23, 37, 31, 43, 80, 61, 20, 41, 32, 100] bins = [0, 15, 25, 35, 60, 100] labels = ['어린이', '청년', '장년', '중년', '노년'] cuts = pd.cut(ages, bins, right=False, labels=labels) cuts >>> [어린이, 어린이, 청년, 어린이, 청년, ..., 노년, 청년, 중년, 장년, NaN] Length: 1..
1. Pandas 자료 구조 판다스에서 사용하는 자료 구조는 두 가지가 있습니다. Series와 DataFrame이 있습니다. Series 생성 시 index 매개 변수를 이용하여 이름을 지정할 수 있습니다. 각 index에 따른 Series 들이 모여서 DataFrame을 구성합니다. 1.1 Series import pandas as pd s = pd.Series([1, 2, 3]) s >>> 0 1 1 2 2 3 dtype: int64 1.2 Dataframe df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) df >>> 0 1 2 0 1 2 3 1 4 5 6 2 7 8 9 행과 열을 정하지 않으면 0, 1, 2 순서로 형성됩니다. 1.2.1 DataFra..
Kaggle의 타이타닉 데이터를 바탕으로 의사결정 나무(Decision tree) 모델을 만들어서 예측을 진행해보겠습니다. 그리고 랜덤포레스트 모델을 사용해서 성능을 비교해보겠습니다. 전체적으로 세세하게 데이터를 분석하고 예측하는 것이 아닌, 간단하게 데이터 전처리를 모델을 만들어 보는 것에 초점을 맞추어 실습을 진행하겠습니다. 타이타닉 데이터 출처 : [https://www.kaggle.com/c/titanic] Library import pandas as pd import numpy as np import re from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from s..
※ 주의 ※ 본 게시글은 아래의 게시글에서 설명한 EDA와 시각화 과정에서 사용된 소스코드를 첨부한 게시글입니다. LendingClub EDA와 시각화에 대한 설명이나 상태를 확인하고 싶으시면 아래 링크를 통해서 이전 게시글을 확이 하시면 됩니다. [파이썬/데이터 사이언스] - [파이썬 데이터 분석] LendingClub 원금 상환 여부 예측하기(1) : EDA와 데이터 시각화 [파이썬 데이터분석] LendingClub 원금 상환 여부 예측하기(1) : EDA와 데이터 시각화 이번 포스팅을 시작으로 Lending Club의 데이터를 활용해 파이썬 데이터 분석을 진행해볼 예정입니다. 파이썬이 데이터 분석하기에 좋고 강력한 library들도 많이 있습니다. 현재 4차 산업 양성과정의 빅데이터 AI.. cha..