목록꿀팁 (1)
차밍이
[Python] Pandas 대용량 데이터 다루기
목차 1. 데이터 불러오기 1-1. CSV 파일 데이터를 청크 크기로 읽어오기 100만개 이상이 넘어가는 row를 가진 데이터셋을 불러온다면 너무 무거워져서 속도가 매우 느려지게 됨 pandas.read_csv에서 chunksize라는 매개변수 활용 가능 로컬 메모리에 맞추기 위해 한 번에 DataFrame으로 읽어 올 행의 수를 지정 가능 df_chunk = pd.read_csv(r'../input/data.csv', chunksize=1000000) 1-2. 파일이 안불러와 질 때, 각 Column 타입 줄여서 불러오기 데이터가 너무 많아 불러오기 힘든 경우, 각 Column의 타입을 확인해서 데이터 크기를 줄여서 불러올 수 있다. def check_dtypes(file_path): print(fil..
파이썬
2022. 6. 3. 18:13