목록pandas apply (2)
차밍이
목차 데이터 분석을 위해 Data Preprocessing 과정을 진행하는 과정을 필수적으로 거치게됩니다. 데이터 가공을 진행하다보면 여러 Column들을 연산하여 수정하거나 새로운 데이터를 만드는 과정을 수행합니다. 이러한 과정에서 데이터량이 많아짐에 따라 연산 과정이 점점 늦어지는 현상이 발생합니다. for문 반복 혹은 itterator를 사용한 방법은 비효율적인 방법이다. 보통 apply & applymap 등을 많이 이용해서 코드를 작성합니다. 그럼에도 데이터가 많아지니, 더 빠르게 계산할 수 있는 방법은 Numpy를 최대한 활용기 + Vectorization입니다. 기본적으로 Numpy Array를 활용 단순한 연산도 Numpy Array를 활용하면 더욱 빨라집니다. 데이터프레임의 Series의..
목차 들어가기 Pandas DataFrame에서 apply 매소드를 사용해서 함수를 적용한다. 보통 단일 인자 함수를 사용하는데, 복수 인자를 넣을 수도 있다. 복수 인자를 사용하는 방식에는 두 가지가 있다. 함수가 복수 인자를 받는 경우 복수의 Column 의 데이터를 함수에 넘겨주는 경우 두 가지 방법에 대해서 알아보고 적절하게 사용하자. 복수 인자 사용하는 경우 import pandas as pd df = pd.DataFrame({"A": [10, 20, 30], "B": [-10, -20, -30]}) def subtractAndMultiply(x, y, z): return (x - y) * z df['A'].apply(subtractAndMultiply, args=(-10, 2)) df['A']..