IT News

[4장] MongoDB와 생성형 AI의 관계

KUKJIN LEE
KUKJIN LEE
2024년 9월 10일
8
[4장] MongoDB와 생성형 AI의 관계

MongoDB는 생성형 AI와의 통합을 통해 데이터 처리 및 검색의 새로운 차원을 열고 있다. 기존에는 텍스트 데이터만을 활용해 의미를 기반으로 검색을 했다면, 이제는 이미지 분석까지 가능해지면서 보다 구체적이고 강력한 검색 결과를 제공할 수 있는 수준에 도달했다.

 

생성형 AI의 발전과 MongoDB의 역할

  • 텍스트에서 이미지로: 생성형 AI는 이제 텍스트뿐만 아니라 이미지, PDF, 비디오, 소리 등 비정형 데이터까지 분석하여 답변을 제공할 수 있는 능력을 갖추었다.

  • 할루시네이션 문제: AI 모델이 가짜 정보를 생성하는 문제인 할루시네이션이 학습을 통해 19% 감소하며, MongoDB의 벡터 서치를 통해 더 구체적이고 정확한 답변을 얻을 수 있다.

  • 고객 서비스 및 챗봇: MongoDB의 벡터 서치는 고객과의 상호작용에서 중요한 역할을 한다. 예를 들어, 사용자가 제품 반품에 대해 질문할 때 챗봇이 제품 정보를 정확히 파악하여 맞춤형 답변을 제공할 수 있게 된다.

 

벡터 서치의 중요성

MongoDB의 벡터 서치는 특히 ChatGPTCohere 같은 모델들이 데이터베이스에서 정형 및 비정형 데이터를 모두 검색해 사용자에게 정확한 답변을 제공하는 데 활용될 예정이다. 텍스트를 넘어서는 데이터, 예를 들어 PDF, 비디오, 오디오까지도 검색 가능하다.

  • 실제 사례: 160페이지의 문서에서 테이블 값을 분석해 문제를 해결하는 것을 성공적으로 테스트하였다. 이는 기존 텍스트 검색을 넘어서 비정형 데이터까지 다룰 수 있음을 보여준다.

 

AI 시장의 경쟁 및 해결 과제

  • AI 문서 분석의 한계: 현재 AI는 문서에서 숫자나 특수 기호 등을 명확히 파악하지 못하는 경우가 있으며, 예를 들어 8,7388.738을 구분하지 못하는 문제가 있다. MongoDB는 이러한 문제를 해결하기 위해 문서 분석 기술을 고도화하는 중이다.

  • 잘못된 답변 생성 문제: 답이 없는 질문에 대해 AI가 잘못된 답변을 생성하는 문제도 여전히 존재한다. 이는 AI 모델의 신뢰성을 개선해야 할 중요한 과제다.

 

AI 모델 선택과 비용

  • 비용 고려: 기업이 내부적으로 AI 모델을 선택할 때는 기능과 비용을 적절히 고려해야 한다. 예를 들어, ChatGPT 4의 고급 버전과 간소화된 버전 간에는 150배의 비용 차이가 발생할 수 있다. 비용 절감만을 고려해 싼 모델을 선택하는 것이 아닌, 정확도와 신뢰성까지 함께 고려해야 한다.

  • 금융 및 숫자 모델: 금융 및 숫자 관련 작업에서는 모델 선택 시 MTEB 스코어와 같은 지표를 고려해 정확도를 확보하는 것이 중요하다.

 

오픈소스 모델과 인프라 권장 사항

  • 오픈소스 AI 모델: MongoDB는 Llama, ChatGPT 등과 같은 오픈소스 AI 모델 사용을 권장하며, 다양한 생성형 AI 모델과 쉽게 통합할 수 있다.

  • 권장 플랫폼: MongoDB는 AWS, Vertex, Microsoft Azure와의 통합을 지원하며, 이들 플랫폼을 사용하는 것을 권장한다.

  • 네트워크 제한: 회사 내부 데이터를 사용하지 못하도록 네트워크 제약을 설정할 수 있는 방법도 제공한다.

 

데이터 전처리 및 벡터 데이터베이스

  • 데이터 전처리: 학습 데이터를 MongoDB에 저장하고 이를 전처리하여 정보를 추출할 수 있으며, PDF 기준으로 한 페이지당 평균 10초가 소요된다.

  • 벡터 서치 사용 권장: MongoDB는 벡터 서치의 강력한 성능 덕분에 많은 사용자가 이를 선호하고 있다. 필터링, 검색 등에서 기존 데이터베이스보다 압도적인 성능을 보여준다.

 

LLM 오케스트레이션 및 도구 통합

  • LLM 오케스트레이션 도구: MongoDB는 LangChain, Llama, Deepset, Semantic Kernel과 쉽게 연결이 가능하며, 그중 LangChain이 가장 쉽다는 평을 받는다. Python과 JavaScript를 지원하여 다양한 AI 프로젝트에 적용할 수 있다.

 

결론

MongoDB는 생성형 AI와의 결합을 통해 텍스트에서 비정형 데이터까지 모두 다룰 수 있는 강력한 벡터 서치 기능을 제공한다. 이를 통해 AI 챗봇, 고객 서비스, 데이터 분석 등 다양한 비즈니스에서 성능을 크게 향상시킬 수 있으며, 향후 AI 시장에서의 경쟁력을 강화할 수 있는 중요한 도구로 자리잡고 있다.

관련 글

4차 산업혁명이 만드는 '국경 없는 세계'

4차 산업혁명이 만드는 '국경 없는 세계'

4차 산업혁명의 디지털 기술은 국경의 의미를 희미하게 만들고 있습니다. 이제 누구나 노트북 하나로 세계 어디서든 일할 수 있게 되었죠. 이런 변화는 '초국가주의'와 '세계시민주의'라는 새로운 흐름을 만들어내고 있습니다. 즉 기술이 전통적 국가 경계를 허물고 미래 사회...

2025년 7월 22일29
2005년 '특이점이 온다' 20년 후 돌아본 예측과 현실

2005년 '특이점이 온다' 20년 후 돌아본 예측과 현실

마침내 특이점이 시작된다. 읽기에 앞서 레이 커즈와일 2005년 《특이점이 온다》의 혁신적인 예측과 현재 상황을 살펴보겠습니다. 주요 예측 2045년경 인공지능이 인간 지능을 초월하는 '특이점' 도래 기하급수적 기술 발전의 가속화...

2025년 7월 18일18
기술 발전이 이끄는 여가 사회와 사회 구조 변화

기술 발전이 이끄는 여가 사회와 사회 구조 변화

인공지능과 자동화 기술 발전은 생산성을 향상시키고 인류 사회의 오랜 패러다임이었던 '노동 중심 사회'의 근본적 변화를 예고하고 있다. 노동 시간 단축은 개인에게 더 많은 자유 시간을 부여하고, 사회 전체가 여가 사회로 이행하는 중요한 변곡점이 될 것이다. 기술 발전이...

2025년 7월 16일14
스타트업 성장과 생존 전략 빌딩과 피봇팅

스타트업 성장과 생존 전략 빌딩과 피봇팅

스타트업 여정은 빌딩(Building)과 피봇팅(Pivoting) 두 가지 핵심 키워드로 요약된다. 이 두 개념은 사업 성공을 위해 필수적이지만 적용 시점에는 분명한 차이가 있다. 또한 '기본기'와 '문제 해결 능력' 무엇이 더 중요한지에 대한 고민을 동반한다. &n...

2025년 7월 14일42