본문 바로가기

빅데이터(Big Data) 이론과 코드

(10)
홈런볼 매출 데이터 분석 Bar Chart Race In [81]: # !pip install bar_chart_race In [6]: #필요한 모듈 불러오기 #!pip install bar_chart_race as bcr import pandas as pd import numpy as np import bar_chart_race as bcr In [7]: # !pip install pandas In [8]: #필요한 데이터 셋 불러오기 path = "비스킷브랜드점유율_T.csv" df = pd.read_csv(path, encoding='cp949') In [9]: # 요약출력 df.head() Out[9]: 구분 홈런볼 카스타드 에이스 칙촉 마가렛트 하임 오레오 칸쵸 쿠크다스 롯데샌드 닥터유바 예감 0 2011-4Q 11478 12256 9770.0 ..
마트 홈런볼과 편의점 홈런볼의 독립표본 t검정 In [28]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [29]: import scipy as sp import numpy as np from scipy import stats 1. 마트 홈런볼¶ 1-1. 데이터 수집¶ In [30]: Mart = [1.4, 1.7, 1.5, 1.6, 1.7, 1.2, 1.7, 1.5, 1.6, 1.6, 2.0, 1.8, 1.9, 1.7, 1.6, 1.8, 1.8, 1.6, 1.3, 1.2, 1.5, 1.7, 1.7, 2.0, 1.6] 1-2. 데이터 평균¶ In [31]: Mart_mu = np.mean(Mart) Mart_mu Out[31]: 1.6280..
홈런볼 슈링크플레이션과 소비자 물가지수 In [1]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [2]: import scipy as sp import numpy as np import pandas as pd from scipy import stats In [3]: cpi_korea = pd.read_csv("소비자물가지수_2020100__20230107180655.csv", encoding='cp949') In [4]: cpi_korea.info() RangeIndex: 19 entries, 0 to 18 Data columns (total 2 columns): # Column Non-Null Count Dtype --- -----..
[홈런볼로 배우는 데이터 경제] t검정 In [1]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [28]: import scipy as sp import numpy as np from scipy import stats In [29]: homerun_ball = [40.8, 41.2, 41.4, 41.6] In [30]: mu = np.mean(homerun_ball) mu Out[30]: 41.25 In [31]: # 자유도 degree of freedom df = len(homerun_ball) - 1 df Out[31]: 3 In [34]: # 분산 sigma = np.std(homerun_ball, ddof = 1) sigma ..
[파이썬 OS 모듈] import os 뜻 의미(os.listdir, os.path.join, os.path.splitext, os.walk) OS 모듈 [ 한 줄 정의 ] Operating System의 약자. 운영체제에서 사용할 수 있는 기능을 파이썬에서 쓸 수 있게 해주는 파이썬 기본 모듈 [ 기능 ] 함수 기능 os.listdir() 함수 폴더 안에 있는 파일 리스트를 만들어 줌 os.path.join() 함수 경로명과 파일명을 붙여서 파일 접속경로를 만들어 줌 os.path.splitext() 함수 (점) 을 기준으로 텍스트를 나눠주는 함수. 파일명.확장자 os.walk() 함수 해당 폴더의 하위 폴더(dir)를 모두 반환 1. 폴더 안에 있는 파일 리스트를 만들어 줌 2. 경로명과 파일명을 붙여서 파일 접속경로를 만들어 줌 3. 전체 파일 접속 경로를 폴더/파일명/확장자 구분으로 잘라 줌 4. 해당 폴더의 하위 폴더 전체에 대한 파일..
Pandas Dataframe 조건에 맞게 값 변경 하기 데이터 전처리를 하다 보면 특정 열이나 행에 대해서 원하는 조건에 맞게 값을 변경해야 할 때가 있습니다. 판다스에서 이를 위해 사용할 수 있는 loc, boolean, apply(lambda) 세(3) 가지 방식에 대해 알아봅니다. 방법 1. loc 사용하기 df 데이터 프레임에서 satisfaction 열은 범주형(Categorical)입니다. 값은 'dissatisfied', 'satisfaction' 두 가지 범주가 있습니다. 이 두 값들을 숫자형 0과 1로 변환해주는 작업을 하려고 합니다. label encoder도 있지만 pandas의 간단한 조건식을 이용해 인덱싱 하는 방법에 대해 알아봅니다. df.loc[df['satisfaction'] == 'dissatisfied', 'satisfacti..
[zip 함수] 파이썬 내장함수 zip() 파이썬 내장 함수 zip 함수에 대해 알아봅니다. zip 함수는 여러 iterable을 병렬로 반복하여 각 iterable의 항목으로 튜플을 생성합니다. 1. 두 개 이상의 반복 값을 묶어주고 싶을 때 사용 바로 예를 들어보면, for item in zip([1, 2, 3], ['sugar', 'spice', 'everything nice']): print(item) zip() 하무 안에 인자값으로 두 개의 리스트를 넣어줬습니다. 첫 번째 [1,2,3] 두 번째 ['sugar', 'spice', 'everything nice'] 이 두 리스트가 zip함수를 거치고 나서 item으로 반복하면서 뽑아내 주고 출력해준 결과는 아래와 같습니다. (1, 'sugar') (2, 'spice') (3, 'everyt..
왜도(skewness)와 첨도(kurtosis) 왜도(skewness) : 비대칭도 [ 한 줄 정의 ] 데이터가 관측될 확률 분포의 비대칭성을 나타내는 지표 [ 수식 ] ∑(Xi - x)3 skewness = -------------------- , (여기서 x는 Xi의 평균치) {∑(Xi-x)2}3/2 [ 설명 ] ○ 왜도는 보통 γ1(감마) 라는 기호를 사용한다. ○ 양수(Positive)나 음수(Negative) 또는 0이 될 수 있다. - 양수 : 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며(Right-skewed), 중앙값을 포함한 자료가 왼쪽에 더 많이 분포 - 음수 : 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며(Left-skewed), 중앙값을 포함한 자료가 오른쪽에 더 많이 분포 - 0 : 평균과 중앙값이 같으면 왜도는 0이다. 음수..

반응형
LIST