Python을 활용한 데이터 분석과 인공지능(AI) 개발
-
1. 거시경제
샴의 법칙
# 1. 샴의 법칙과 데이터의 한계 오늘은 '데이터는 항상 옳을까?'라는 질문을 중심으로, 우리가 흔히 믿고 따르는 데이터의 신뢰성, 나아가 데이터를 활용하는 인공지능에 대해 이야기해보려고 합니다. 데이터와 인공지능이 결합된 현대 사회에서는 데이터를 바탕으로 중요한 결정을 내리는 경우가 많습니다. 하지만 이러한 데이터 기반 의사결정은 언제나 옳을까요? 이 질문에 답하기 위해 우리 삶에 직접적인 영향을 미치는 경제 이야기를 가져왔습니다. 샴의 법칙(Sahm rule)이라고 들어보셨나요? 우리가 집을 사고, 차를 살 때, 또 은행에 예적금을 할 때 중요한 것은 바로 금리입니다. 이러한 금리에 대해, 미국의 금리는 우리나라를 포함한 세계 경제에 영향을 주는데요. 여러분은 “미국의 금리를 결정하는 곳이 어디인..
-
6. 통계지식
예산과 전문가 없이 데이터로 인포그래픽을 만들기
예산과 전문가는 없는데, 데이터로 인포그래픽을 당장 만달라고요? 인터넷 미디어에 들어갈 인포그래픽을 팀별로 만들어야 하는 상황입니다. 어려워진 경영여건 탓에 가용한 예산도 없는데, 기한은 당장 다음주까지라고? 나름대로 열심히 인포그래픽을 만들었지만, “다시” “또다시” 눈에 잘 안 들어온다고 합니다. 반면에 옆 팀 주 대리는 바로 패스했다는 소식이 더욱 초조하게 만듭니다. 까다로운 상무님 취향에 맞춰서 있어 보이게 인포그래픽을 만들었는데, 도대체 뭐가 문제였을까요? 데이터 시각화를 할 때 우리는 “있어 보이게” 만드는 것에만 집중하는 실수를 하곤 합니다. 이러한 문제를 겪지 않기 위해서는 데이터 시각화의 원리를 이해해야 합니다. 데이터 시각화는 인간의 시각과 지각능력을 바탕으로 데이터에 대한 이해와 의사..
-
6. 자연어처리(NLP)
자연어 처리 인공지능의 발전 - LLM 대규모 언어모델 진화과정
[한 줄 정의] LLM은 대규모 언어 모델(Large Language Model)의 약자로 인공지능 신경망 기반의 자연어 처리 알고리 [ 설명 ] LLM (Large Language Model)은 대규모 언어 모델의 한 유형으로, 이 모델은 많은 텍스트 데이터를 사용하여 학습됩니다. 이 모델들은 자연어 처리 및 이해를 위한 딥러닝 기술을 기반으로 하며, 대규모 데이터셋에서 훈련된 심층 신경망 아키텍처를 사용합니다. 심층 신경망(Deep Neural Network)은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이뤄진 인공신경망(Artificial Neural Network) 을 말한다. LLM은 초기에는 단순한 텍스트 생성 작업에 ..
-
6. 자연어처리(NLP)
[생성형 AI] 개발에 필요한 개념과 서비스 모음
LLM, RAG, PEFT, Opt OUT,Vector DB 이게 다 뭐야? 최근 몇 년 동안 AI 기술은 전례 없는 속도로 발전해왔습니다. 특히, 생성형 AI 기술은 그 발전 속도가 더욱 빠르게 가속화되고 있죠. 자고 일어나면 새로 나오는 기술과 논문을 CATCH UP 하는데 피로도가 지나칠 정도입니다. 하지만 이러한 발전은 우리의 생각보다는 좀 쓸모가 없어보이기도 합니다. 초반에 ChatGPT를 써보고 '그렇구나' 이해정도 하고 다시 돌아오지 않는 사람들도 많죠. 초기에는 생성형 AI가 제한된 성능과 예상치 못한 오류와 시행착오로 인해 그 효과가 미미해 보였습니다. 그러나 장기적으로는 이러한 기술이 혁명적인 변화를 가져올 것으로 기대됩니다. 우리는 이러한 현상을 아마라의 법칙이라고 합니다. 아마라의 ..
-
6. 자연어처리(NLP)
[생성형 AI] MQR 뜻 의미(다중 쿼리 검색기, Multi Query Retriever)
MQR(Multi Query Retriever) [한 줄 정의] 사용자 질문(쿼리)을 의미는 유사하지만, 형태는 다른 프롬프트 생성을 자동화하는 기술 [ 설명 ] MQR은 질문(Query)에 대해 DB를 검색하고, 모든 쿼리에서 고유한 공통점을 가져와서, 잠재적으로 관련이 있는 DB 집합을 가져옵니다. 동일한 질문에 대해 다양한 관점의 프롬프트를 생성함으로써, Cos 유사도* 등 거리 기반 검색의 일부 한계를 극복하고 더 풍부한 결과를 얻을 수 있습니다. 코사인 유사도(cosine similarity)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 각도가 0°일 때의 코사인값은 1이며, 다른 모든 각도의 코사인값은 1보다 작다. - 위키백과 - Cos 유사도 ..