본문 바로가기

빅데이터(Big Data) 이론과 코드/6. 통계지식

(7)
오징어 게임으로 배우는 베이지안 확률 넷플릭스 스릴러, 오징어 게임 중에서 '달고나' 가 선택과 그에 따른 결과라는 인생관점에서 참 공감이 되는 주제입니다.시즌 2에서는 상대적으로 쉬운 △ 세모 모양을 선택한 주인공 기훈이 위와 같이 어려운 세모 모양의 달고나를 받게 되는데요. 여러분의 인생에는 어떤 모양의 달고나가 주어졌는지 생각해보면서, 인공지능의 기본원리인 "베이지안 확률"에 대한 아래 글을 읽어보시면 좋겠습니다. 2025년 6월 27일 개봉하는 오징어 게임 시즌 3 기대되시죠? 달고나 게임에서 생존할 확률은, 어떤 모양이 주어지느냐에 따라서 생존 확률이 달라지겠죠? 예를 들면, 세모 모양은 쉽게 성공할 수 있고, 우산 모양은 반대로 매우 어렵겠죠? 이렇게 특정 조건이 주어졌을 때의 확률을 "조건부 확률" 이라고 합니다.  오징어 게임..
최대 우도 추정법(Maximum Likelihood Estimation, MLE) 데이터 분석과 인공지능 개발에서 중요한 것은 "데이터" 입니다.우리가 학교에서 배운 통계의 하나는 분포를 먼저 가정하고, 해당 분포에서 특정 값이 나올 통계적 확률을 계산하는 것이었습니다. $$X \sim N(μ, σ^2)$$ 이것은 확률변수 X가 평균 μ, 표준편차 σ인 정규분포(Normal distribution)를 따른다(~)는 표현식입니다. 어렵지 않죠? 그런데, 우리는 실제 분석과 개발에서 대부분 그 "분포" 라는 것을 모릅니다. 우리에게 주어진 것은 한 줌의  샘플 "데이터" 뿐이죠. 그래서 우리는 그 Sample data를 가지고, 전체 집단(Population)을 추정해야 합니다. 전체 집단을 다른 말로는 모집단이라고도 하죠. 이 모집단을 추정한다는 것은 앞서 정규분포를 정의했을 때 처럼,..
예산과 전문가 없이 데이터로 인포그래픽을 만들기 예산과 전문가는 없는데, 데이터로 인포그래픽을 당장 만달라고요? 인터넷 미디어에 들어갈 인포그래픽을 팀별로 만들어야 하는 상황입니다. 어려워진 경영여건 탓에 가용한 예산도 없는데, 기한은 당장 다음주까지라고? 나름대로 열심히 인포그래픽을 만들었지만, “다시” “또다시” 눈에 잘 안 들어온다고 합니다. 반면에 옆 팀 주 대리는 바로 패스했다는 소식이 더욱 초조하게 만듭니다. 까다로운 상무님 취향에 맞춰서 있어 보이게 인포그래픽을 만들었는데, 도대체 뭐가 문제였을까요? 데이터 시각화를 할 때 우리는 “있어 보이게” 만드는 것에만 집중하는 실수를 하곤 합니다. 이러한 문제를 겪지 않기 위해서는 데이터 시각화의 원리를 이해해야 합니다. 데이터 시각화는 인간의 시각과 지각능력을 바탕으로 데이터에 대한 이해와 의사..
마트 홈런볼과 편의점 홈런볼의 독립표본 t검정 In [28]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [29]: import scipy as sp import numpy as np from scipy import stats 1. 마트 홈런볼¶ 1-1. 데이터 수집¶ In [30]: Mart = [1.4, 1.7, 1.5, 1.6, 1.7, 1.2, 1.7, 1.5, 1.6, 1.6, 2.0, 1.8, 1.9, 1.7, 1.6, 1.8, 1.8, 1.6, 1.3, 1.2, 1.5, 1.7, 1.7, 2.0, 1.6] 1-2. 데이터 평균¶ In [31]: Mart_mu = np.mean(Mart) Mart_mu Out[31]: 1.6280..
홈런볼 슈링크플레이션과 소비자 물가지수 In [1]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [2]: import scipy as sp import numpy as np import pandas as pd from scipy import stats In [3]: cpi_korea = pd.read_csv("소비자물가지수_2020100__20230107180655.csv", encoding='cp949') In [4]: cpi_korea.info() RangeIndex: 19 entries, 0 to 18 Data columns (total 2 columns): # Column Non-Null Count Dtype --- -----..
[홈런볼로 배우는 데이터 경제] t검정 In [1]: #티스토리 윈도우 사이즈 맞추기 from IPython.core.display import display, HTML display(HTML("")) In [28]: import scipy as sp import numpy as np from scipy import stats In [29]: homerun_ball = [40.8, 41.2, 41.4, 41.6] In [30]: mu = np.mean(homerun_ball) mu Out[30]: 41.25 In [31]: # 자유도 degree of freedom df = len(homerun_ball) - 1 df Out[31]: 3 In [34]: # 분산 sigma = np.std(homerun_ball, ddof = 1) sigma ..
왜도(skewness)와 첨도(kurtosis) 왜도(skewness) : 비대칭도 [ 한 줄 정의 ] 데이터가 관측될 확률 분포의 비대칭성을 나타내는 지표 [ 수식 ] ∑(Xi - x)3 skewness = -------------------- , (여기서 x는 Xi의 평균치) {∑(Xi-x)2}3/2 [ 설명 ] ○ 왜도는 보통 γ1(감마) 라는 기호를 사용한다. ○ 양수(Positive)나 음수(Negative) 또는 0이 될 수 있다. - 양수 : 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며(Right-skewed), 중앙값을 포함한 자료가 왼쪽에 더 많이 분포 - 음수 : 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며(Left-skewed), 중앙값을 포함한 자료가 오른쪽에 더 많이 분포 - 0 : 평균과 중앙값이 같으면 왜도는 0이다. 음수..