Aug 29, 2024 15 min read AI Use Case

'허구는 버리고 진실만 담아라' RAG로 챗GPT의 정확도 높이기

챗GPT의 창의성은 때로 허구 정보를 만들어내는 한계가 있습니다. RAG(Retrieval-Augmented Generation) 기술은 이를 극복하고 AI의 정확도를 높이는 방법입니다. 인터넷 검색, 신뢰할 수 있는 문서, 구조화된 데이터를 활용해 더 정확하고 최신의 정보를 제공하는 RAG의 활용 사례를 살펴봅니다.

안녕하세요 여러분! 오늘은 AI 기술의 최전선에 있는 챗GPT의 특징과 한계, 그리고 이를 개선하기 위한 방법인 RAG에 대해 알아보겠습니다.

챗GPT의 특징과 한계

챗GPT는 인공지능 기술의 획기적인 발전을 보여주는 대표적인 예시입니다. 이 모델의 가장 큰 특징은 바로 '창의성'입니다.

챗GPT는 주어진 정보를 바탕으로 새로운 내용을 생성해내는 능력이 뛰어납니다. 이는 사용자의 다양한 요구에 맞춤형 답변을 제공할 수 있게 해주죠.
하지만 이러한 '창의성'은 양날의 검과 같습니다. 때로는 없는 내용을 지어내기도 하는데, 이는 정보의 왜곡으로 이어질 수 있습니다.
우리는 이러한 현상을 '할루시네이션(hallucination)'이라고 부릅니다. AI가 현실에 존재하지 않는 정보를 사실인 것처럼 제시하는 현상을 말하죠.

한 때 밈이 되었던 '세종대왕 맥북프로 던짐 사건' - 챗GPT 환각(할루시네이션) 사례

챗GPT의 이러한 특성을 긍정적으로 활용하기 위해서는 창의성은 발휘하되, 할루시네이션은 극복해야 합니다. 그렇다면 어떻게 이 문제를 해결할 수 있을까요?

할루시네이션 극복 방안 RAG

할루시네이션 문제를 해결하기 위한 가장 효과적인 방법은 AI에게 '좋은 정보를 참조하도록' 유도하는 것입니다. 이러한 접근 방식을 우리는 'RAG'라고 부릅니다.

RAG란 무엇인가?

RAG는 'Retrieval-Augmented Generation'의 약자로, 직역하면 '검색 증강 생성'입니다. 이 기술은 생성형 AI 모델이 외부 정보 소스를 활용하여 더 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 해줍니다.

RAG의 주요 목적

모델의 정확성과 신뢰성 향상: 외부 데이터를 참조함으로써 AI의 응답 품질을 높입니다.
최신 정보 제공 능력 강화: 지속적으로 업데이트되는 외부 소스를 활용하여 최신 정보를 제공할 수 있습니다.
환각 현상(hallucination) 감소: 실제 데이터에 기반한 응답을 생성함으로써 허구의 정보 생성을 줄입니다.

RAG 기술에 대해 더 자세히 알고 싶으신 분들은 테디 노트님의 영상 전반부를 참고하시면 좋습니다. 이 영상에서는 RAG의 전반적인 개념과 프로세스를 상세히 설명하고 있습니다. 하지만 일반 사용자 입장에서는 이 블로그 콘텐츠 정도의 이해만으로도 충분할 것 같네요.

RAG 방법을 통해 챗GPT 할루시네이션 줄이는 사례

RAG(Retrieval-Augmented Generation) 기술을 활용하여 챗GPT의 할루시네이션을 줄이는 구체적인 사례들을 살펴보겠습니다.

인터넷 검색으로 기업 분석하기

첫 번째로 살펴볼 사례는 인터넷 검색을 통한 기업 분석입니다.

일반적인 기업 분석의 한계

챗GPT에게 단순히 기업 분석을 요청하면, 학습된 데이터를 바탕으로 답변을 제공합니다.

하지만 이런 방식에는 여러 가지 문제가 있습니다

구체적인 정보나 최신 수치가 부족할 수 있습니다.
정보가 오래되어 현재 상황을 정확히 반영하지 못할 수 있습니다.
때로는 완전히 잘못된 정보를 제공할 수도 있습니다.

'SK바이오사이언스' 기업 분석을 요청했더니 재무 지표에서 잘못된 정보를 뻔뻔하게 제공한다.

RAG를 활용한 개선 방법

이러한 한계를 극복하기 위해 RAG, 즉 인터넷 검색을 활용할 수 있습니다. 인터넷에서 최신 정보를 검색하고, 그 결과를 바탕으로 기업의 주요 제품/서비스, 최근 재무 상황, 시장에서의 위치, 향후 전략 방향 등을 분석할 수 있습니다. 이렇게 하면 챗GPT는 최신 정보를 바탕으로 더 정확하고 구체적인 분석을 제공할 수 있습니다.

(좌) 인터넷 검색을 통해 기업분석을 하라는 프롬프트 / (우) SK바이오사이언스 재무지표(매출액), 챗GPT 답변

주의사항

인터넷 검색을 활용하면 결과물의 품질이 크게 향상되지만, 완벽한 것은 아닙니다. '좋은 인터넷 정보'를 참고해야 한다는 점을 명심해야 합니다. 신뢰성 낮은 출처의 잘못된 정보를 참고한다면, 결과물 역시 부정확할 수 있으니 주의가 필요합니다.

프롬프트 엔지니어링에 대해 더 자세히 알고 싶다면, 프롬프트 엔지니어링 기초 가이드를 참고하시기 바랍니다.

특정 링크로 인터뷰 내용 정리하기

두 번째 사례는 특정 링크를 활용하여 인터뷰 내용을 정리하는 방법입니다.

방법의 장점

인터넷 검색 결과가 불확실하거나 신뢰성이 낮은 경우, 이 방법이 더 효과적일 수 있습니다.
사용자가 직접 신뢰할 수 있는 정보 소스(예: 공식 인터뷰 기사)를 선택하여 챗GPT에게 제공합니다.

※ 이번 실습에선 웹페이지를 읽는 GPTs인 'Link Reader'를 활용합니다. 챗GPT가 접근하지 못하는 웹페이지 정보를 읽을 수 있고, 더 풍부하게 정보를 가져옵니다.

실제 활용

사용자가 기업 임원의 인터뷰 내용을 담은 링크를 제공하고, 챗GPT에게 임원의 마인드셋 및 회사의 전략 방향을 정리해달라고 요청할 수 있습니다. 이때 인터뷰에서 언급된 구체적인 내용을 인용하도록 하면 더욱 좋습니다.

결과물의 특징

제공된 인터뷰 내용에 충실한 분석이 가능합니다.
임원의 실제 발언을 바탕으로 하기 때문에, 기업의 현재 상황과 미래 전략에 대한 더 정확한 인사이트를 얻을 수 있습니다.
구체적인 인용문을 포함함으로써 분석의 신뢰성을 높일 수 있습니다.

이러한 RAG 기반 접근 방식들은 챗GPT의 할루시네이션을 크게 줄이고, 더 신뢰할 수 있는 결과물을 얻는 데 도움을 줍니다. 하지만 여전히 사용자의 비판적 사고와 추가 검증이 중요하다는 점을 잊지 마세요.

ESG 리포트(PDF)로 산업 트렌드 분석하기

기업에서 공시하는 자료 중 많은 부분이 PDF 형식으로 제공됩니다. 특히 ESG(Environmental, Social, and Governance) 리포트는 기업의 지속가능성과 사회적 책임에 대한 풍부한 정보를 담고 있어, 산업 트렌드를 분석하는 데 매우 유용합니다.

PDF 활용의 장점

신뢰성 높은 정보: 기업이 공식적으로 발행한 문서이므로 정보의 신뢰도가 높습니다.
구조화된 데이터: 대부분의 ESG 리포트는 잘 정리된 형식을 갖추고 있어 정보 추출이 용이합니다.
최신 트렌드 파악: 주기적으로 발행되는 리포트를 통해 산업의 최신 동향을 파악할 수 있습니다.

활용 사례: 글로벌 타이어 기업의 전기차 타이어 트렌드 분석 한국타이어와 미쉐린 같은 글로벌 타이어 기업들의 ESG 리포트를 활용하여 전기차 타이어 제품 및 생산 트렜드를 분석해볼 수 있습니다.

이 과정에서 챗GPT는 다음과 같은 작업을 수행할 수 있습니다

각 기업의 ESG 리포트에서 전기차 관련 섹션 추출
전기차 타이어 개발 현황 및 미래 계획 요약
환경 영향 감소를 위한 생산 기술 혁신 사례 정리
두 기업의 접근 방식 비교 분석

이를 통해 전기차 시장의 성장에 따른 타이어 산업의 변화와 대응 전략을 종합적으로 이해할 수 있습니다.

판매 데이터(엑셀)로 인사이트 도출

엑셀 형식의 구조화된 데이터는 정량적 분석에 매우 유용합니다. 챗GPT와 RAG 기술을 활용하면 복잡한 판매 데이터에서 의미 있는 인사이트를 빠르게 도출할 수 있습니다.

엑셀 데이터 활용의 장점

대량의 정형 데이터 처리: 수천, 수만 건의 거래 데이터를 빠르게 분석할 수 있습니다.
다양한 분석 가능: 시계열 분석, 고객 세그먼테이션, 상품 카테고리 분석 등 다양한 각도에서 데이터를 들여다볼 수 있습니다.
시각화 제안: 데이터의 특성에 따라 적절한 차트나 그래프 형태를 제안받을 수 있습니다.

활용 사례: 샘플 판매 데이터 분석 및 보고서 작성 샘플 판매 데이터를 제공하고 챗GPT에게 분석을 요청하면, 다음과 같은 인사이트를 얻을 수 있습니다

월별, 분기별 매출 추이 및 성장률
최고 실적 제품 및 부진 제품 식별
고객 구매 패턴 분석 (예: 재구매율, 평균 구매 주기)
지역별 판매 성과 비교
가격 대비 판매량 관계 분석

챗GPT는 이러한 분석 결과를 바탕으로 체계적인 보고서를 작성할 수 있습니다. 보고서에는 주요 발견사항, 데이터 기반 인사이트, 그리고 향후 전략 제안 등이 포함될 수 있습니다.

주의사항 엑셀 데이터를 활용할 때는 개인정보 보호에 특히 주의해야 합니다. 민감한 정보는 반드시 익명화하거나 제거한 후에 분석을 진행해야 합니다.

RAG 활용의 장점과 주의사항

RAG(Retrieval-Augmented Generation) 기술은 챗GPT의 성능을 크게 향상시키지만, 몇 가지 중요한 점을 항상 염두에 두어야 합니다.

RAG의 필요성과 한계

필요성: 챗GPT의 답변이 항상 최선의 결과를 제공하지는 않기 때문에 RAG를 활용합니다. RAG를 통해 최신 정보와 맥락을 제공함으로써 더 정확하고 관련성 높은 답변을 얻을 수 있습니다.
한계 인식: 그러나 RAG로 얻은 답변도 완벽하지 않을 수 있습니다. AI는 여전히 제공된 정보를 잘못 해석하거나 부적절하게 조합할 수 있습니다.
인간의 역할: 따라서 RAG를 활용할 때도 반드시 전문가의 검토와 검증 과정이 필요합니다. AI의 답변을 맹신하기보다는 이를 의사결정을 돕는 도구로 활용하는 것이 바람직합니다.

보안 및 프라이버시 고려사항

RAG를 활용할 때 데이터 보안과 프라이버시 보호에 각별히 주의해야 합니다:

민감 정보 취급: 기업의 중요한 내부 문서나 개인정보가 포함된 자료는 RAG에 사용하기 전에 신중히 고려해야 합니다.
'팀 플랜' 활용: OpenAI의 '팀 플랜'을 이용하면 대화 내용을 AI 모델 학습에 사용하지 않는다고 합니다. 그러나 이 경우에도 데이터가 일시적으로 서버에 저장될 수 있음을 인지해야 합니다.
데이터 전처리: 가능하다면 민감한 정보를 제거하거나 익명화한 후 RAG에 활용하는 것이 좋습니다.
내부 시스템 구축 고려: 매우 민감한 데이터를 다루는 기업의 경우, 자체 AI 모델과 RAG 시스템을 구축하는 것도 고려해볼 수 있습니다.