본문 바로가기

빅데이터(Big Data) 이론과 코드/2. 데이터 전처리

(4)
홈런볼 매출 데이터 분석 Bar Chart Race In [81]: # !pip install bar_chart_race In [6]: #필요한 모듈 불러오기 #!pip install bar_chart_race as bcr import pandas as pd import numpy as np import bar_chart_race as bcr In [7]: # !pip install pandas In [8]: #필요한 데이터 셋 불러오기 path = "비스킷브랜드점유율_T.csv" df = pd.read_csv(path, encoding='cp949') In [9]: # 요약출력 df.head() Out[9]: 구분 홈런볼 카스타드 에이스 칙촉 마가렛트 하임 오레오 칸쵸 쿠크다스 롯데샌드 닥터유바 예감 0 2011-4Q 11478 12256 9770.0 ..
Pandas Dataframe 조건에 맞게 값 변경 하기 데이터 전처리를 하다 보면 특정 열이나 행에 대해서 원하는 조건에 맞게 값을 변경해야 할 때가 있습니다. 판다스에서 이를 위해 사용할 수 있는 loc, boolean, apply(lambda) 세(3) 가지 방식에 대해 알아봅니다. 방법 1. loc 사용하기 df 데이터 프레임에서 satisfaction 열은 범주형(Categorical)입니다. 값은 'dissatisfied', 'satisfaction' 두 가지 범주가 있습니다. 이 두 값들을 숫자형 0과 1로 변환해주는 작업을 하려고 합니다. label encoder도 있지만 pandas의 간단한 조건식을 이용해 인덱싱 하는 방법에 대해 알아봅니다. df.loc[df['satisfaction'] == 'dissatisfied', 'satisfacti..
[zip 함수] 파이썬 내장함수 zip() 파이썬 내장 함수 zip 함수에 대해 알아봅니다. zip 함수는 여러 iterable을 병렬로 반복하여 각 iterable의 항목으로 튜플을 생성합니다. 1. 두 개 이상의 반복 값을 묶어주고 싶을 때 사용 바로 예를 들어보면, for item in zip([1, 2, 3], ['sugar', 'spice', 'everything nice']): print(item) zip() 하무 안에 인자값으로 두 개의 리스트를 넣어줬습니다. 첫 번째 [1,2,3] 두 번째 ['sugar', 'spice', 'everything nice'] 이 두 리스트가 zip함수를 거치고 나서 item으로 반복하면서 뽑아내 주고 출력해준 결과는 아래와 같습니다. (1, 'sugar') (2, 'spice') (3, 'everyt..
로그변환에 np.log1p()을 사용하는 이유 로그 변환 [ 목적 ] 정규 분포가 아닌 실제 데이터를 정규분포로 변환해주기 위해 로그를 사용. (정규분포 : 평균, 중앙값 및 최빈값은 동일한 값을 가지며, 평균과 분산이라는 두 개의 매개 변수로 정의) [ 설명 ] 로그는 통계 모델링 및 통계 분석에서 필수적인 도구. X는 y 의 거듭제곱에 대한 b와 같기 때문에 X의 기저 b- 로그가 y 와 같은 밑 (b)에 대해 로그를 정의 (X = b ʸ이므로 log (X) = y) 밑이 2 : 2³ = 8이므로 8의 밑이 2 인 로그는 3입니다. 밑이 10 : 10² = 100이므로 밑이 10 인 100의 로그는 2입니다. 자연 로그 : 자연 로그의 밑은 수학 상수 "e"또는 2.718282와 같은 오일러 수 따라서 7.389의 자연 로그는 2입니다. e² =..

반응형
LIST