본문 바로가기

빅데이터(Big Data) 이론과 코드

(12)
[zip 함수] 파이썬 내장함수 zip() 파이썬 내장 함수 zip 함수에 대해 알아봅니다. zip 함수는 여러 iterable을 병렬로 반복하여 각 iterable의 항목으로 튜플을 생성합니다. 1. 두 개 이상의 반복 값을 묶어주고 싶을 때 사용 바로 예를 들어보면, for item in zip([1, 2, 3], ['sugar', 'spice', 'everything nice']): print(item) zip() 하무 안에 인자값으로 두 개의 리스트를 넣어줬습니다. 첫 번째 [1,2,3] 두 번째 ['sugar', 'spice', 'everything nice'] 이 두 리스트가 zip함수를 거치고 나서 item으로 반복하면서 뽑아내 주고 출력해준 결과는 아래와 같습니다. (1, 'sugar') (2, 'spice') (3, 'everyt..
왜도(skewness)와 첨도(kurtosis) 왜도(skewness) : 비대칭도 [ 한 줄 정의 ] 데이터가 관측될 확률 분포의 비대칭성을 나타내는 지표 [ 수식 ] ∑(Xi - x)3 skewness = -------------------- , (여기서 x는 Xi의 평균치) {∑(Xi-x)2}3/2 [ 설명 ] ○ 왜도는 보통 γ1(감마) 라는 기호를 사용한다. ○ 양수(Positive)나 음수(Negative) 또는 0이 될 수 있다. - 양수 : 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며(Right-skewed), 중앙값을 포함한 자료가 왼쪽에 더 많이 분포 - 음수 : 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며(Left-skewed), 중앙값을 포함한 자료가 오른쪽에 더 많이 분포 - 0 : 평균과 중앙값이 같으면 왜도는 0이다. 음수..
로그변환에 np.log1p()을 사용하는 이유 로그 변환 [ 목적 ] 정규 분포가 아닌 실제 데이터를 정규분포로 변환해주기 위해 로그를 사용. (정규분포 : 평균, 중앙값 및 최빈값은 동일한 값을 가지며, 평균과 분산이라는 두 개의 매개 변수로 정의) [ 설명 ] 로그는 통계 모델링 및 통계 분석에서 필수적인 도구. X는 y 의 거듭제곱에 대한 b와 같기 때문에 X의 기저 b- 로그가 y 와 같은 밑 (b)에 대해 로그를 정의 (X = b ʸ이므로 log (X) = y) 밑이 2 : 2³ = 8이므로 8의 밑이 2 인 로그는 3입니다. 밑이 10 : 10² = 100이므로 밑이 10 인 100의 로그는 2입니다. 자연 로그 : 자연 로그의 밑은 수학 상수 "e"또는 2.718282와 같은 오일러 수 따라서 7.389의 자연 로그는 2입니다. e² =..
파라미터(Parameter), 하이퍼파라미터(Hyper Parameter), 아규먼트(Argument)의 용어 정의 1. 파라미터(Parameter) : 매개변수 f(X, y)에서 X와 y를 파라미터라고 합니다. A model parameter is a configuration variable that is internal to the model and whose value can be estimated from data. - They are required by the model when making predictions. - They values define the skill of the model on your problem. - They are estimated or learned from data. - They are often not set manually by the practitioner. - They ..