[4장] MongoDB와 생성형 AI의 관계
KUKJIN LEE 🚀
3주 전
MongoDB는 생성형 AI와의 통합을 통해 데이터 처리 및 검색의 새로운 차원을 열고 있다. 기존에는 텍스트 데이터만을 활용해 의미를 기반으로 검색을 했다면, 이제는 이미지 분석까지 가능해지면서 보다 구체적이고 강력한 검색 결과를 제공할 수 있는 수준에 도달했다.
생성형 AI의 발전과 MongoDB의 역할
-
텍스트에서 이미지로: 생성형 AI는 이제 텍스트뿐만 아니라 이미지, PDF, 비디오, 소리 등 비정형 데이터까지 분석하여 답변을 제공할 수 있는 능력을 갖추었다.
-
할루시네이션 문제: AI 모델이 가짜 정보를 생성하는 문제인 할루시네이션이 학습을 통해 19% 감소하며, MongoDB의 벡터 서치를 통해 더 구체적이고 정확한 답변을 얻을 수 있다.
-
고객 서비스 및 챗봇: MongoDB의 벡터 서치는 고객과의 상호작용에서 중요한 역할을 한다. 예를 들어, 사용자가 제품 반품에 대해 질문할 때 챗봇이 제품 정보를 정확히 파악하여 맞춤형 답변을 제공할 수 있게 된다.
벡터 서치의 중요성
MongoDB의 벡터 서치는 특히 ChatGPT와 Cohere 같은 모델들이 데이터베이스에서 정형 및 비정형 데이터를 모두 검색해 사용자에게 정확한 답변을 제공하는 데 활용될 예정이다. 텍스트를 넘어서는 데이터, 예를 들어 PDF, 비디오, 오디오까지도 검색 가능하다.
-
실제 사례: 160페이지의 문서에서 테이블 값을 분석해 문제를 해결하는 것을 성공적으로 테스트하였다. 이는 기존 텍스트 검색을 넘어서 비정형 데이터까지 다룰 수 있음을 보여준다.
AI 시장의 경쟁 및 해결 과제
-
AI 문서 분석의 한계: 현재 AI는 문서에서 숫자나 특수 기호 등을 명확히 파악하지 못하는 경우가 있으며, 예를 들어 8,738과 8.738을 구분하지 못하는 문제가 있다. MongoDB는 이러한 문제를 해결하기 위해 문서 분석 기술을 고도화하는 중이다.
-
잘못된 답변 생성 문제: 답이 없는 질문에 대해 AI가 잘못된 답변을 생성하는 문제도 여전히 존재한다. 이는 AI 모델의 신뢰성을 개선해야 할 중요한 과제다.
AI 모델 선택과 비용
-
비용 고려: 기업이 내부적으로 AI 모델을 선택할 때는 기능과 비용을 적절히 고려해야 한다. 예를 들어, ChatGPT 4의 고급 버전과 간소화된 버전 간에는 150배의 비용 차이가 발생할 수 있다. 비용 절감만을 고려해 싼 모델을 선택하는 것이 아닌, 정확도와 신뢰성까지 함께 고려해야 한다.
-
금융 및 숫자 모델: 금융 및 숫자 관련 작업에서는 모델 선택 시 MTEB 스코어와 같은 지표를 고려해 정확도를 확보하는 것이 중요하다.
오픈소스 모델과 인프라 권장 사항
-
오픈소스 AI 모델: MongoDB는 Llama, ChatGPT 등과 같은 오픈소스 AI 모델 사용을 권장하며, 다양한 생성형 AI 모델과 쉽게 통합할 수 있다.
-
권장 플랫폼: MongoDB는 AWS, Vertex, Microsoft Azure와의 통합을 지원하며, 이들 플랫폼을 사용하는 것을 권장한다.
-
네트워크 제한: 회사 내부 데이터를 사용하지 못하도록 네트워크 제약을 설정할 수 있는 방법도 제공한다.
데이터 전처리 및 벡터 데이터베이스
-
데이터 전처리: 학습 데이터를 MongoDB에 저장하고 이를 전처리하여 정보를 추출할 수 있으며, PDF 기준으로 한 페이지당 평균 10초가 소요된다.
-
벡터 서치 사용 권장: MongoDB는 벡터 서치의 강력한 성능 덕분에 많은 사용자가 이를 선호하고 있다. 필터링, 검색 등에서 기존 데이터베이스보다 압도적인 성능을 보여준다.
LLM 오케스트레이션 및 도구 통합
-
LLM 오케스트레이션 도구: MongoDB는 LangChain, Llama, Deepset, Semantic Kernel과 쉽게 연결이 가능하며, 그중 LangChain이 가장 쉽다는 평을 받는다. Python과 JavaScript를 지원하여 다양한 AI 프로젝트에 적용할 수 있다.
결론
MongoDB는 생성형 AI와의 결합을 통해 텍스트에서 비정형 데이터까지 모두 다룰 수 있는 강력한 벡터 서치 기능을 제공한다. 이를 통해 AI 챗봇, 고객 서비스, 데이터 분석 등 다양한 비즈니스에서 성능을 크게 향상시킬 수 있으며, 향후 AI 시장에서의 경쟁력을 강화할 수 있는 중요한 도구로 자리잡고 있다.