목록전체 글 (243)
차밍이
보호되어 있는 글입니다.
파이썬을 활용해서 병렬 작업을 위해 멀티프로세스를 활용하는 경우가 다수 있습니다. 해당 작업을 진행할 때, 개인 PC CPU 값으로 대충 4 또는 8 로 값을 넣는 경우가 많습니다. 반면, 현재 CPU의 코어 수를 확인해서 해당 값을 넣어주는 방식으로도 많이 작성합니다. 따라서 간단하게 CPU 코어 수 확인하는 코드를 알아보겠습니다. Multiprocessing 모듈 활용 멀티프로세스를 주로 사용하므로 아래와 같은 방식으로 보통 많이 사용합니다. multiprocessing 모듈의 cpu_count 메소드를 사용하는 방식입니다. import multiprocessing multiprocessing.cpu_count() OS 모듈 활용 import os os.cpu_count() 기본 모듈인 OS 를 통해..
파이썬을 사용해서 수 GB 정도의 데이터를 다루는 경우가 많습니다. 이 정도 크기의 대용량데이터를 판다스를 사용해서 읽고 쓰면 상당히 많은 시간이 소요됩니다. 40~50초 정도에서 길면 몇십 분 정도 기다려야 하는 경우가 있죠. 조금 기다리면 되지만 저는 가능하면 빠르게 처리되는 것을 선호합니다. 그래서 새롭게 알게 된 pyarrow를 사용해서 더 빠르게 데이터 프레임 형식으로 데이터를 읽고 쓸 수 있는 방법에 대해서 알아보겠습니다. Apache Arrow란? Apache Arrow는 인메모리 분석을 위한 개발 플랫폼으로 빅데이터 저장 및 처리 등을 지원하는 기술이 포함되어 있습니다. Arror 객체는 C++를 통해서 구현되어 있고 NumPy, Pandas 등의 Python 객체가 내장되어 통합이 용이합..
컴퓨터로 작업을 하다 보면 특정 폴더에서 파일을 옮기거나 복사하는 작업을 하는 경우가 있습니다. 단순하게 그냥 쓱 옮기면 편한데, 가끔은 날짜별로 정리를 하는 등의 조건에 따라 분류를 해줘야 하는 경우도 생기면 번거로워집니다. 게다가 파일의 수가 많아지면 더욱 힘들어 지는 것이죠. 이럴 때 파이썬을 사용하면 쉽고 편하게 파일을 분류할 수 있습니다. 그래서 오늘은 디렉토리의 파일들을 옮기거나 복사하기 위해 shutil 모듈을 사용해보겠습니다. 파일 옮기기 : file move 파일을 옮기기 위해서 shutil.move method를 사용하면 됩니다. 기존의 위치(src)에서 옮길 위치(dst)를 설정해 주면 됩니다. shutil.move 예제 코드 import shutil import os filename..
목차 파이썬으로 데이터 분석같은 작업을 수행하다 보면 판다스 데이터 프레임을 바로 DB로 저장하거나 DB의 데이터를 DataFrame으로 바로 불러오고 싶은 경우가 많이 있습니다. 그래서 오늘은 DB와 DF간의 데이터를 저장 혹은 불러오는 방법에 대해 정리하였습니다. pandas DataFrame을 DB 파일 형식으로 저장하기 소스코드 저장하기 소스코드는 아래와 같습니다. 설명은 코드 아래 내용들을 확인하시면 됩니다~ import sqlite3 import pandas as pd # 1. 데이터 저장하기 con = sqlite3.connect('example.db') cur = con.cursor() df.to_sql('region_table', con) con.close() # 2. 데이터 불러오기 c..
코로나가 끝나가며 다시 해외여행을 많이 다니시는 분들이 늘었습니다. 항공사 마일리지를 잘 활용하면, 무료 항공권이나 좌석 업그레이드 등 많은 혜택을 누릴 수 있기에 대한항공 마일리지를 빠르게 쌓을 수 있는 카드에 대해서 소개하려 합니다. 1. 이번에 소개할 카드는? 대한항공카드 030 / 070 / 150 / the First 현대카드의 "대한항공카드" 030 / 070 / 150 / the First 카드로 총 4가지 종류가 있는데, 저는 제가 관심 있는 대한항공카드 030에 대해서만 설명할게요. 연회비를 줄이고, 마일리지 혜택에만 집중한 카드로 마일리지 적립 가성비로 활용하기 좋은 카드라고 생각합니다. 2. 백 원 단위까지 마일리지를 적립해 주는 개꿀 혜택! ☝ 국내외 가맹점 이용금액 1 천원당 1마..
목차 파이썬으로 작업하다보면 SQL 데이터 작업을 해야할 때가 생깁니다. SQLite 데이터베이스를 파이썬에서 연결하는 방법에 대해서 알아보겠습니다. 전체적인 Flow 파이썬에서 DB 파일에 연결하고 작업하는 전체적인 과정입니다. import sqlite3 con = sqlite3.connect('example.db') cur = con.cursor() # 테이블 만들기 cur.execute('''CREATE TABLE stocks (date text, trans text, symbol text, qty real, price real)''') # ROW 단위로 데이터 저장하기 cur.execute("INSERT INTO stocks VALUES ('2006-01-05','BUY','RHAT',100,35..
목차 Plotly를 사용해서 간단한 누적 막대 그래프와 그룹 막대 그래프를 그리는 것에 대해서는 이전 게시글을 확인해주세요. [Python] Plotly 그래프 사용법 - Bar Plot 목차 Plotly 그래프 중 Bar Graph 그리는 방법에 대해 소개하겠습니다. express와 graph_objects 두 가지 방식을 모두 알아보겠습니다. 두 개의 차이가 궁금하다면 아래 글을 참고 해주세요. [Plotly] express와 chancoding.tistory.com 이번 게시글에서는 그룹화된 누적 막대그래프를 그리는 방법에 대해서 알아보겠습니다. 엑셀로도 해보려고 했는데 잘되지 않아서 Python Plotly를 통해서 그냥 구현하는게 빠르겠다 싶어서 알아보았습니다. 1단계 : 기본 데이터 생성 그래..
목차 블로그 글을 작성하거나, 이런저런 예시나 테스트를 할 때 가끔 랜덤한 데이터를 생성할 필요한 경우가 생깁니다. 한 번 알아놓으면, 매번 귀찮게 찾아보지 않아도 되니 천천히 따라 해보세요. Random 데이터로 DataFrame 만들기 바쁜 사람들을 위해 결론 소스코드만 먼저 발사합니다. import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0,100,size=(100, 5)), columns=list("abcde")) df 0~99까지의 랜덤한 정수로 이루어진 100행 5열짜리 데이터프레임 생성완료 아래는 설명하겠습니다ㅎ 랜덤한 숫자 뽑기 넘파이 모듈을 사용해서 랜덤한 숫자 뽑기 import numpy as np np...
목차 Plotly 그래프 중 Bar Graph 그리는 방법에 대해 소개하겠습니다. express와 graph_objects 두 가지 방식을 모두 알아보겠습니다. 두 개의 차이가 궁금하다면 아래 글을 참고 해주세요. [Plotly] express와 graph_objects의 차이 / px와 go 차이 [Plotly] express와 graph_objects의 차이 / px와 go 차이 목차 Plotly를 사용해서 그래프를 그리는 방법은 2가지가 있습니다. 한 가지는 express를 사용하는 방법과 graph_objects를 사용하는 방법입니다. 저는 어떨때 express를 쓰고 어떨때 graph_objects를 쓰는 것 chancoding.tistory.com 예시 데이터 아래 예시에서 사용할 기본 데이터..