목록대용량데이터 (2)
차밍이
목차 파이썬을 사용해 데이터 분석을 진행할 때, 필수적으로 사용하는 라이브러리가 있다면 판다스와 넘파이가 있다. 데이터를 많이 다루기 시작하면서 생각보다 DataFrame을 다루는 것이 느린 것 같다는 의문을 가지는 경우가 종종있다. 그래서 데이터프레임의 매소드인 value_counts와 unique에 대해서 과연 정말 빠른지 확인을 해보았다. 결론 먼저 애기하자면, 그냥 pandas사용하는 것이 맘편하다...ㅇㅅㅇ; 속도 측정은 쥬피터의 %%timeit을 사용해서 시간을 측정하였다. %timeit에 대해서 더 알아보려면 아래 링크를 참고하면 된다. [파이썬] %timeit으로 jupyter notebook에서 Cell 단위 코드 수행 시간 확인하기 [파이썬] %timeit으로 jupyter notebo..
목차 Pandas로 대용량 데이터 분석을 진행하다보면 문제가 겪는 어려움 들이 많다. pandas로 데이터를 읽는데 어려움이 있는 경우 취할 수 있는 방법이다. 1. 파일이 불러와지지 않는 경우 대략적인 과정 column 명 만 먼저 가져온다. 각 데이터 테이블에서 특정 column의 데이터만 가져온다. 해당 column의 데이터 타입을 확인한다. 해당 column의 데이터 범위를 확인하여, 데이터 타입을 줄일 수 있는 경우 타입을 변경해 줄인다. 전체 column에 대해서 진행한다. 이 후 pd.read_csv를 통해 데이터를 읽어올 때, 데이터 타입을 정해서 읽어오도록 한다. 소스코드 - 파일이 불러와지지 않는 경우 def check_dtypes(file_path:str) -> dict: print(..