본문 바로가기

분류 전체보기

(26)
Pandas Dataframe 조건에 맞게 값 변경 하기 데이터 전처리를 하다 보면 특정 열이나 행에 대해서 원하는 조건에 맞게 값을 변경해야 할 때가 있습니다. 판다스에서 이를 위해 사용할 수 있는 loc, boolean, apply(lambda) 세(3) 가지 방식에 대해 알아봅니다. 방법 1. loc 사용하기 df 데이터 프레임에서 satisfaction 열은 범주형(Categorical)입니다. 값은 'dissatisfied', 'satisfaction' 두 가지 범주가 있습니다. 이 두 값들을 숫자형 0과 1로 변환해주는 작업을 하려고 합니다. label encoder도 있지만 pandas의 간단한 조건식을 이용해 인덱싱 하는 방법에 대해 알아봅니다. df.loc[df['satisfaction'] == 'dissatisfied', 'satisfacti..
[zip 함수] 파이썬 내장함수 zip() 파이썬 내장 함수 zip 함수에 대해 알아봅니다. zip 함수는 여러 iterable을 병렬로 반복하여 각 iterable의 항목으로 튜플을 생성합니다. 1. 두 개 이상의 반복 값을 묶어주고 싶을 때 사용 바로 예를 들어보면, for item in zip([1, 2, 3], ['sugar', 'spice', 'everything nice']): print(item) zip() 하무 안에 인자값으로 두 개의 리스트를 넣어줬습니다. 첫 번째 [1,2,3] 두 번째 ['sugar', 'spice', 'everything nice'] 이 두 리스트가 zip함수를 거치고 나서 item으로 반복하면서 뽑아내 주고 출력해준 결과는 아래와 같습니다. (1, 'sugar') (2, 'spice') (3, 'everyt..
DSR(Debt Service Ratio) 총부채 원리금 상환비율 [ 한 줄 정의 ] 소득 대비 갚아야 할 원리금 비율 [ 설명 ] 대출자의 상환능력에 초점을 맞춰 모든 대출의 연간 원리금 상환액을 연 소득의 일정 비율 이하로 제한하는 규제 DSR(Debt Service Ratio)는 '총부채원리금상환비율'로 대출받는 사람의 연소득 대비 전체 금융부채 원리금 상환 비율 주택담보대출, 신용대출, 카드론 등 모든 대출을 포함하고, 소득은 근로소득/사업소득의 원천징수 금액으로 한다. [ 적용 ] '21.7.1 부터, 서울 등 규제지역에서 6억원이 넘는 집에 대해 주택담보대출을 받거나 1억원 이상 신용대출을 받을 때에는 총부채원리금상환비율(DSR) 40%가 적용 '22.7.1부터, 총 대출액이 2억원을 넘어도 DSR 규제 대상 '23.7.1부터, 총 대출액이 1억원 이상인 모..
왜도(skewness)와 첨도(kurtosis) 왜도(skewness) : 비대칭도 [ 한 줄 정의 ] 데이터가 관측될 확률 분포의 비대칭성을 나타내는 지표 [ 수식 ] ∑(Xi - x)3 skewness = -------------------- , (여기서 x는 Xi의 평균치) {∑(Xi-x)2}3/2 [ 설명 ] ○ 왜도는 보통 γ1(감마) 라는 기호를 사용한다. ○ 양수(Positive)나 음수(Negative) 또는 0이 될 수 있다. - 양수 : 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며(Right-skewed), 중앙값을 포함한 자료가 왼쪽에 더 많이 분포 - 음수 : 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며(Left-skewed), 중앙값을 포함한 자료가 오른쪽에 더 많이 분포 - 0 : 평균과 중앙값이 같으면 왜도는 0이다. 음수..
CRB(Commodity Research Bureau) 지수 [ 한 줄 정의 ] 국제 원자재 선물 조사회사인 CRB社 가 만든 1967년 기준(100) 원자재 시장 가격 지수 [ 현재 지표 ] 2022.2.27 현재 282.1 포인트를 기록중 [ 지수 구성 ] ○ 품목수 : 19개 원자재 ○ 비중 : 농축산물 41%, 에너지 39%, 비철금속 20% ○ 품목 상세 - 농산물 부문 : 설탕, 면, 코코아, 커피, 옥수수, 대두, 새우, 소맥, 돼지고기, 오렌지주스 - 에너지 부문 : 미국 서부텍사스유(WTI), 난방유, 무연휘발유, 천연가스 - 비철금속 부문 : 금과 알루미늄, 구리, 니켈, 은 [ 기준시점 ] 1967년 지수를 100을 산정. [ 적용 ] CRB지수는 소비자물가지수(CPI)와 달리 조사기간과 발표일 사이의 시간 차이가 적어 물가 움직임을 판단하는데..
[Class 상속의 개념] super().__init__() 의 원리와 이해 CNN(Convolution Neural Network)은 이미지 분류에 많이 사용하는 컨볼루션 연산 기반의 인공지능 모델입니다. CNN을 응용한 여러 모델 중 ResNet 이 있습니다. ResNet은 이미지 천 만장을 학습하여 이미지 15만장으로 인식률을 겨루는 이미지 넷 대회에서 2015년 우승한 후 그 성능을 인정받아 널리 쓰이기 있습니다. https://www.image-net.org/challenges/LSVRC/index.php ImageNet Competition The ImageNet Large Scale Visual Recognition Challenge (ILSVRC) evaluates algorithms for object detection and image classification..
torch.cat()과 torch.stack()의 차이점 파이토치에서 텐서들을 서로 병합하는(붙이는) 2가지 함수 torch.cat()과 torch.stack()의 차이점에 대해 알아봅니다. torch.cat()은 주어진 차원을 기준으로 주어진 텐서들을 붙입니다(concatenate). torch.stack()은 새로운 차원으로 주어진 텐서들을 붙입니다. 따라서, (3, 4)의 크기(shape)를 갖는 2개의 텐서 A와 B를 붙이는 경우, torch.cat([A, B], dim=0)의 결과는 (6, 4)의 크기(shape)를 갖고, torch.stack([A, B], dim=0)의 결과는 (2, 3, 4)의 크기를 갖습니다. 예를 들어 설명하기 위해, 아래 두 개의 텐서 t1, t2를 예시로 선언해보겠습니다. t1 = torch.tensor([[1, 2], [..
로그변환에 np.log1p()을 사용하는 이유 로그 변환 [ 목적 ] 정규 분포가 아닌 실제 데이터를 정규분포로 변환해주기 위해 로그를 사용. (정규분포 : 평균, 중앙값 및 최빈값은 동일한 값을 가지며, 평균과 분산이라는 두 개의 매개 변수로 정의) [ 설명 ] 로그는 통계 모델링 및 통계 분석에서 필수적인 도구. X는 y 의 거듭제곱에 대한 b와 같기 때문에 X의 기저 b- 로그가 y 와 같은 밑 (b)에 대해 로그를 정의 (X = b ʸ이므로 log (X) = y) 밑이 2 : 2³ = 8이므로 8의 밑이 2 인 로그는 3입니다. 밑이 10 : 10² = 100이므로 밑이 10 인 100의 로그는 2입니다. 자연 로그 : 자연 로그의 밑은 수학 상수 "e"또는 2.718282와 같은 오일러 수 따라서 7.389의 자연 로그는 2입니다. e² =..

반응형
LIST