목록파이썬 (149)
차밍이
파이썬을 활용해서 병렬 작업을 위해 멀티프로세스를 활용하는 경우가 다수 있습니다. 해당 작업을 진행할 때, 개인 PC CPU 값으로 대충 4 또는 8 로 값을 넣는 경우가 많습니다. 반면, 현재 CPU의 코어 수를 확인해서 해당 값을 넣어주는 방식으로도 많이 작성합니다. 따라서 간단하게 CPU 코어 수 확인하는 코드를 알아보겠습니다. Multiprocessing 모듈 활용 멀티프로세스를 주로 사용하므로 아래와 같은 방식으로 보통 많이 사용합니다. multiprocessing 모듈의 cpu_count 메소드를 사용하는 방식입니다. import multiprocessing multiprocessing.cpu_count() OS 모듈 활용 import os os.cpu_count() 기본 모듈인 OS 를 통해..
파이썬을 사용해서 수 GB 정도의 데이터를 다루는 경우가 많습니다. 이 정도 크기의 대용량데이터를 판다스를 사용해서 읽고 쓰면 상당히 많은 시간이 소요됩니다. 40~50초 정도에서 길면 몇십 분 정도 기다려야 하는 경우가 있죠. 조금 기다리면 되지만 저는 가능하면 빠르게 처리되는 것을 선호합니다. 그래서 새롭게 알게 된 pyarrow를 사용해서 더 빠르게 데이터 프레임 형식으로 데이터를 읽고 쓸 수 있는 방법에 대해서 알아보겠습니다. Apache Arrow란? Apache Arrow는 인메모리 분석을 위한 개발 플랫폼으로 빅데이터 저장 및 처리 등을 지원하는 기술이 포함되어 있습니다. Arror 객체는 C++를 통해서 구현되어 있고 NumPy, Pandas 등의 Python 객체가 내장되어 통합이 용이합..
컴퓨터로 작업을 하다 보면 특정 폴더에서 파일을 옮기거나 복사하는 작업을 하는 경우가 있습니다. 단순하게 그냥 쓱 옮기면 편한데, 가끔은 날짜별로 정리를 하는 등의 조건에 따라 분류를 해줘야 하는 경우도 생기면 번거로워집니다. 게다가 파일의 수가 많아지면 더욱 힘들어 지는 것이죠. 이럴 때 파이썬을 사용하면 쉽고 편하게 파일을 분류할 수 있습니다. 그래서 오늘은 디렉토리의 파일들을 옮기거나 복사하기 위해 shutil 모듈을 사용해보겠습니다. 파일 옮기기 : file move 파일을 옮기기 위해서 shutil.move method를 사용하면 됩니다. 기존의 위치(src)에서 옮길 위치(dst)를 설정해 주면 됩니다. shutil.move 예제 코드 import shutil import os filename..
목차 파이썬으로 데이터 분석같은 작업을 수행하다 보면 판다스 데이터 프레임을 바로 DB로 저장하거나 DB의 데이터를 DataFrame으로 바로 불러오고 싶은 경우가 많이 있습니다. 그래서 오늘은 DB와 DF간의 데이터를 저장 혹은 불러오는 방법에 대해 정리하였습니다. pandas DataFrame을 DB 파일 형식으로 저장하기 소스코드 저장하기 소스코드는 아래와 같습니다. 설명은 코드 아래 내용들을 확인하시면 됩니다~ import sqlite3 import pandas as pd # 1. 데이터 저장하기 con = sqlite3.connect('example.db') cur = con.cursor() df.to_sql('region_table', con) con.close() # 2. 데이터 불러오기 c..
목차 파이썬으로 작업하다보면 SQL 데이터 작업을 해야할 때가 생깁니다. SQLite 데이터베이스를 파이썬에서 연결하는 방법에 대해서 알아보겠습니다. 전체적인 Flow 파이썬에서 DB 파일에 연결하고 작업하는 전체적인 과정입니다. import sqlite3 con = sqlite3.connect('example.db') cur = con.cursor() # 테이블 만들기 cur.execute('''CREATE TABLE stocks (date text, trans text, symbol text, qty real, price real)''') # ROW 단위로 데이터 저장하기 cur.execute("INSERT INTO stocks VALUES ('2006-01-05','BUY','RHAT',100,35..
목차 Plotly를 사용해서 간단한 누적 막대 그래프와 그룹 막대 그래프를 그리는 것에 대해서는 이전 게시글을 확인해주세요. [Python] Plotly 그래프 사용법 - Bar Plot 목차 Plotly 그래프 중 Bar Graph 그리는 방법에 대해 소개하겠습니다. express와 graph_objects 두 가지 방식을 모두 알아보겠습니다. 두 개의 차이가 궁금하다면 아래 글을 참고 해주세요. [Plotly] express와 chancoding.tistory.com 이번 게시글에서는 그룹화된 누적 막대그래프를 그리는 방법에 대해서 알아보겠습니다. 엑셀로도 해보려고 했는데 잘되지 않아서 Python Plotly를 통해서 그냥 구현하는게 빠르겠다 싶어서 알아보았습니다. 1단계 : 기본 데이터 생성 그래..
목차 블로그 글을 작성하거나, 이런저런 예시나 테스트를 할 때 가끔 랜덤한 데이터를 생성할 필요한 경우가 생깁니다. 한 번 알아놓으면, 매번 귀찮게 찾아보지 않아도 되니 천천히 따라 해보세요. Random 데이터로 DataFrame 만들기 바쁜 사람들을 위해 결론 소스코드만 먼저 발사합니다. import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0,100,size=(100, 5)), columns=list("abcde")) df 0~99까지의 랜덤한 정수로 이루어진 100행 5열짜리 데이터프레임 생성완료 아래는 설명하겠습니다ㅎ 랜덤한 숫자 뽑기 넘파이 모듈을 사용해서 랜덤한 숫자 뽑기 import numpy as np np...
목차 Plotly 그래프 중 Bar Graph 그리는 방법에 대해 소개하겠습니다. express와 graph_objects 두 가지 방식을 모두 알아보겠습니다. 두 개의 차이가 궁금하다면 아래 글을 참고 해주세요. [Plotly] express와 graph_objects의 차이 / px와 go 차이 [Plotly] express와 graph_objects의 차이 / px와 go 차이 목차 Plotly를 사용해서 그래프를 그리는 방법은 2가지가 있습니다. 한 가지는 express를 사용하는 방법과 graph_objects를 사용하는 방법입니다. 저는 어떨때 express를 쓰고 어떨때 graph_objects를 쓰는 것 chancoding.tistory.com 예시 데이터 아래 예시에서 사용할 기본 데이터..
목차 Plotly를 사용해서 그래프를 그리는 방법은 2가지가 있습니다. 한 가지는 express를 사용하는 방법과 graph_objects를 사용하는 방법입니다. 저는 어떨때 express를 쓰고 어떨때 graph_objects를 쓰는 것인지 해깔리더라구요. 기존에 사용해보신 분들 이라면 저와 같은 의문을 한 번쯤 가지셨을 것 같네요. 궁금해서 한 번 알아보고 정리했으니, 천천히 읽어보세요~ 난이도 차이 express는 파이썬 함수화가 잘 되어있어서, 쉽게 사용할 수 있습니다. 간단하게 변수 값만 넣어주면 쉽게 그래프를 그릴 수 있죠. 처음 Plotly를 사용하거나 초보자에게는 express를 사용하기를 권장합니다. graph_objects를 사용하는 방식은 구성 요소들을 사용자가 직접 조합해서 사용하도..
목차 데이터 분석을 위해 Data Preprocessing 과정을 진행하는 과정을 필수적으로 거치게됩니다. 데이터 가공을 진행하다보면 여러 Column들을 연산하여 수정하거나 새로운 데이터를 만드는 과정을 수행합니다. 이러한 과정에서 데이터량이 많아짐에 따라 연산 과정이 점점 늦어지는 현상이 발생합니다. for문 반복 혹은 itterator를 사용한 방법은 비효율적인 방법이다. 보통 apply & applymap 등을 많이 이용해서 코드를 작성합니다. 그럼에도 데이터가 많아지니, 더 빠르게 계산할 수 있는 방법은 Numpy를 최대한 활용기 + Vectorization입니다. 기본적으로 Numpy Array를 활용 단순한 연산도 Numpy Array를 활용하면 더욱 빨라집니다. 데이터프레임의 Series의..