Processing math: 80%
본문 바로가기

분류 전체보기

(34)
오징어 게임으로 배우는 베이지안 확률 넷플릭스 스릴러, 오징어 게임 중에서 '달고나' 가 선택과 그에 따른 결과라는 인생관점에서 참 공감이 되는 주제입니다.시즌 2에서는 상대적으로 쉬운 △ 세모 모양을 선택한 주인공 기훈이 위와 같이 어려운 세모 모양의 달고나를 받게 되는데요. 여러분의 인생에는 어떤 모양의 달고나가 주어졌는지 생각해보면서, 인공지능의 기본원리인 "베이지안 확률"에 대한 아래 글을 읽어보시면 좋겠습니다. 2025년 6월 27일 개봉하는 오징어 게임 시즌 3 기대되시죠? 달고나 게임에서 생존할 확률은, 어떤 모양이 주어지느냐에 따라서 생존 확률이 달라지겠죠? 예를 들면, 세모 모양은 쉽게 성공할 수 있고, 우산 모양은 반대로 매우 어렵겠죠? 이렇게 특정 조건이 주어졌을 때의 확률을 "조건부 확률" 이라고 합니다.  오징어 게임..
인공신경망에서 소프트맥스(softmax) 함수의 수식에 대한 설명 # 소프트맥스는 왜 자연상수의 지수함수 ex 를 사용하는가? Softmax 함수는 다중 클래스 분류에서 확률값을 계산하는 데 사용되는 활성화 함수입니다. 수식은 다음과 같습니다.σ(zi)=ezinj=1ezj#1. Softmax 함수의 요소 1. zi:입력 벡터의 i번째 요소 입력값, 로짓Softmax 함수에 입력되는 원소입니다.분류 문제에서 각 클래스에 대한 로짓(logit, 점수)으로 사용됩니다.예를 들어, 뉴런의 출력값이나 신경망의 마지막 계층에서 계산된 값이 됩니다.2. ezi:자연상수e를 밑으로 하는 지수 함수자연상수  (약 2..
RAG-Sequence와 RAG-Token 모델의 수식과 차이 오늘은 RAG의 두 가지 변형, RAG-Sequence와 RAG-Token 모델에 대해 설명하겠습니다.먼저 조건부 확률을 모두 이해하고 가보겠습니다. 친구가 평소에 우산을 가져올 확률이 40%라고 해요. 그런데 오늘은 비가 오는 날이에요. 비 오는 날에는 친구가 우산을 가져올 확률이 더 높겠죠? 이 렇게  "비가 오는 날"이라는 (조건) 이 주어진 상태에서 친구가 우산을 가져올 (확률)을 조건부 확률이라고 합니다. 수식으로 쓰면 p(친구가 우산을 가져온다 | 비가 오는 날) 라고 쓸수 있겠죠.  A = 비가 오는 날, B = 우산을 가져오는 것P(B|A) = 비가 오는 날이라는 조건 때문에 "우산을 가져올 확률"이 더 달라지는 거예요.이처럼 조건부 확률은 어떤 조건이 주어진 상황에서 다른 사건이 일어날 ..
경사 하강법 Gradient Descent 에 대한 수학적 이해와 활용 인생의 내리막은 성장이 멈춘 순간부터 온다 여러분, 인생에서 이런 경험 있으신가요?우리 주변의 문제를 해결하려고 고민할수록 점점 더 복잡해지고, 어디서부터 시작해야 할지 몰라서 막막했던 순간들 말이죠. 그런데, 결국은 내 바로 앞에 주어진 문제에 대해 한 걸음씩, 아주 단순한 방식으로 나아갈 때, 길이 보이더라구요. 컴퓨터도 마찬가지입니다. 복잡한 문제를 풀기 위해 처음부터 완벽한 답을 찾으려고 애쓰는 대신, "조금씩 나아가며" 답에 가까워지는 방법을 사용합니다. 이를 경사 하강법(Gradient Descent) 이라고 합니다. 쉽게 말하면 이런 거예요. 생각해보세요.지금 여러분이 깜깜한 밤에 높은 언덕 위에 있다고 상상해 봅시다. 목표는 언덕 아래로 안전하게 내려가는 겁니다. 그런데 문제는, 눈앞이 너..
최대 우도 추정법(Maximum Likelihood Estimation, MLE) 데이터 분석과 인공지능 개발에서 중요한 것은 "데이터" 입니다.우리가 학교에서 배운 통계의 하나는 분포를 먼저 가정하고, 해당 분포에서 특정 값이 나올 통계적 확률을 계산하는 것이었습니다. X \sim N(μ, σ^2) 이것은 확률변수 X가 평균 μ, 표준편차 σ인 정규분포(Normal distribution)를 따른다(~)는 표현식입니다. 어렵지 않죠? 그런데, 우리는 실제 분석과 개발에서 대부분 그 "분포" 라는 것을 모릅니다. 우리에게 주어진 것은 한 줌의  샘플 "데이터" 뿐이죠. 그래서 우리는 그 Sample data를 가지고, 전체 집단(Population)을 추정해야 합니다. 전체 집단을 다른 말로는 모집단이라고도 하죠. 이 모집단을 추정한다는 것은 앞서 정규분포를 정의했을 때 처럼,..
데이터 국부론(THE WEALTH OF DATA) "한 사람이 철사를 꺼낸다. 다음 사람은 철사를 세우고, 세 번째 사람은 철사를 자른다. 네 번째 사람은 철사를 뾰족하게 만들고, 다섯째는 머리를 붙인다. 이와 같이 핀을 만드는 방식은 18개의 공정으로 나눌 수 있다. 만일 이 일들을 혼자 다 한다면 하루에 20개의 핀도 만들지 못하지만, 10명이 각자 역할을 나누어하면, 하루에 4,800개 이상의 핀을 만들 수 있다."  경제학의 아버지라 불리는 아담 스미스(Adam Smith)의 『국부론(The Wealth of Nations)』에 나오는 유명한 핀 공장 이야기입니다. 1776년의 이 이야기는 분업의 힘을 단순하지만 강렬하게 보여줍니다. 역할을 나누고, 효율을 극대화한 덕분에 생산량이 혁명적으로 증가했죠. 이는 핀뿐만이 아니었습니다. 이것은 산업 혁..
샴의 법칙 # 1. 샴의 법칙과 데이터의 한계 오늘은 '데이터는 항상 옳을까?'라는 질문을 중심으로, 우리가 흔히 믿고 따르는 데이터의 신뢰성, 나아가 데이터를 활용하는 인공지능에 대해 이야기해보려고 합니다. 데이터와 인공지능이 결합된 현대 사회에서는 데이터를 바탕으로 중요한 결정을 내리는 경우가 많습니다. 하지만 이러한 데이터 기반 의사결정은 언제나 옳을까요? 이 질문에 답하기 위해 우리 삶에 직접적인 영향을 미치는 경제 이야기를 가져왔습니다. 샴의 법칙(Sahm rule)이라고 들어보셨나요? 우리가 집을 사고, 차를 살 때, 또 은행에 예적금을 할 때 중요한 것은 바로 금리입니다. 이러한 금리에 대해, 미국의 금리는 우리나라를 포함한 세계 경제에 영향을 주는데요.  여러분은 “미국의 금리를 결정하는 곳이 어디인..
예산과 전문가 없이 데이터로 인포그래픽을 만들기 예산과 전문가는 없는데, 데이터로 인포그래픽을 당장 만달라고요? 인터넷 미디어에 들어갈 인포그래픽을 팀별로 만들어야 하는 상황입니다. 어려워진 경영여건 탓에 가용한 예산도 없는데, 기한은 당장 다음주까지라고? 나름대로 열심히 인포그래픽을 만들었지만, “다시” “또다시” 눈에 잘 안 들어온다고 합니다. 반면에 옆 팀 주 대리는 바로 패스했다는 소식이 더욱 초조하게 만듭니다. 까다로운 상무님 취향에 맞춰서 있어 보이게 인포그래픽을 만들었는데, 도대체 뭐가 문제였을까요? 데이터 시각화를 할 때 우리는 “있어 보이게” 만드는 것에만 집중하는 실수를 하곤 합니다. 이러한 문제를 겪지 않기 위해서는 데이터 시각화의 원리를 이해해야 합니다. 데이터 시각화는 인간의 시각과 지각능력을 바탕으로 데이터에 대한 이해와 의사..