RAG 시스템의 한계: “충분한 맥락”이 바꾸는 AI 검색의 미래
“이 글은 구글의 논문을 참고하여 작성되었습니다.”
당신의 AI 챗봇이 고객에게 거짓말하고 있다면?
“죄송합니다, 정확한 정보를 찾을 수 없어서 답변드릴 수 없습니다.” vs “네, 확실히 말씀드리면 그 제품은 내일 출시 예정입니다.” 여러분의 AI 챗봇은 어떤 답변을 선택할까요? 놀랍게도 최신 연구에 따르면, ChatGPT나 Claude 같은 최첨단 LLM 모델들도 정보가 부족할 때 솔직하게 “모른다”고 말하는 대신, 자신감 넘치게 허위 정보를 생성하는 경향이 있다고 합니다. ICLR 2025에 발표된 최신 연구가 이 문제를 파헤쳤어요. 연구팀이 GPT-4o, Gemini 1.5 Pro 등을 분석해보니, 충분한 정보가 있어도 35-62%나 틀린 답을 하고, 정보가 부족할 때도 솔직하게 말하기보다는 그럴듯한 거짓말을 지어낸다는 걸 발견했거든요. AI 고객상담이나 마케팅 자동화를 도입한 기업들에게는 정말 심각한 문제죠. 최근 구글 연구팀은 이 문제를 해결할 ‘충분한 맥락(Sufficient Context)’이라는 개념과 ‘선택적 생성 방법(Selective Generation)’을 개발했습니다.
📌 1부에서는 AI의 ‘환각’ 현상과 RAG 시스템의 한계를 ‘충분한 맥락’이라는 새로운 개념으로 파헤치고, 2부에서는 논문이 밝혀낸 AI의 충격적인 세 가지 행동 패턴과 이를 해결할 ‘선택적 생성’ 방법에 대해 알아볼 예정이에요!
RAG 시스템이란?
AI가 검색하며 답하는 시대
RAG(Retrieval Augmented Generation)는 말 그대로 ‘검색으로 강화된 생성’ 시스템입니다. 기존 AI가 학습된 데이터에만 의존했다면, RAG는 실시간으로 관련 정보를 검색해서 더 정확하고 최신의 답변을 만들어내죠. 마치 시험을 볼 때 교과서를 찾아볼 수 있는 오픈북 시험과 같은 개념이에요. 예를 들어 “2025년 최신 아이폰 가격은?”이라고 물으면, AI가 먼저 최신 정보를 검색한 후 그 결과를 바탕으로 답변을 생성하는 방식입니다.

이 시스템이 주목받는 이유는 명확해요. 기존 AI 모델들은 학습 시점 이후의 정보는 알 수 없기 때문입니다. RAG는 이런 한계를 극복하고자 등장했습니다. 실제로 많은 기업들이 고객 서비스, 내부 문서 검색, 마케팅 콘텐츠 생성 등에 RAG 시스템을 도입하고 있어요. 특히 정확성이 중요한 금융, 의료, 법률 분야에서는 RAG가 게임 체인저로 여겨지고 있습니다. 하지만 이 완벽해 보이는 시스템에도 치명적인 약점들이 숨어있다는 사실이 밝혀졌어요.
완벽해 보이는 RAG의 치명적 한계들
RAG 시스템이 아무리 혁신적이라고 해도, 실제로는 예상보다 훨씬 많은 문제점들을 안고 있었습니다. 가장 심각한 문제는 바로 ‘환각(hallucination)’ 현상이에요. 이는 AI가 실제로는 존재하지 않는 정보를 마치 사실인 것처럼 생성하는 현상을 말합니다. 마치 영업사원이 없는 재고를 있다고 확신에 차서 말하는 것과 비슷하죠. 더 놀라운 건 RAG를 도입하면 오히려 AI가 “모르겠습니다”라고 솔직하게 말하는 횟수가 줄어든다는 거예요.
논문 연구 결과에 따르면, Claude 3.5 Sonnet의 경우 RAG 없이는 84.1%나 기권(답변을 포기하고 “모른다”고 하는 것)했지만, RAG를 적용하니 기권율이 52%로 떨어졌습니다. GPT-4o도 34.4%에서 31.2%로, Gemini 1.5 Pro는 무려 100%에서 18.6%로 급감했어요. 이는 AI가 추가 맥락을 받으면 더 자신감을 갖게 되지만, 그 자신감이 항상 정확성과 비례하지는 않는다는 걸 보여줍니다. 특히 작은 모델들인 Llama, Mistral, Gemma는 충분한 정보가 있어도 환각을 자주 일으켜서 더욱 문제가 되고 있습니다.

“충분한 맥락” vs “정답 기반 평가” – 패러다임의 전환
구글은 이러한 RAG 오류의 원인을 규명하고 싶었습니다. 기존에도 RAG 시스템에 대한 연구들은 많았지만, 공통적으로 “왜 AI가 잘못된 답을 내놓는가?”라는 질문에 대한 명확한 해답을 제시하지 못했습니다. AI의 오류가 다음 두 가지 중 어디에서 오는 것인지 구분이 모호했죠.
- 정보 자체의 문제: AI에게 주어진 정보(검색된 맥락)가 질문에 답하기에 애초부터 불충분하거나 잘못되었기 때문일까?
- AI 모델의 문제: 정보는 충분히 주어졌는데, AI(LLM)가 그 맥락을 제대로 이해하고 활용하지 못했기 때문일까?
이 논문은 이 질문에 대한 명확한 답을 찾기 위해 ‘충분한 맥락’이라는 개념을 도입하엿습니다. 맥락의 충분성을 먼저 판단함으로써, 오류의 책임 소재를 맥락과 LLM 중 어느 쪽에 더 가깝게 돌릴 수 있는지 분석하고자 한 것이죠.
관련성 개념의 모호성 해소 및 정의의 통일
물론, 이전 연구들에서도 ‘관련성 있는 맥락’이나 ‘불필요한 맥락’에 대한 논의는 있었지만, 그 정의가 명확하거나 통일되지 않았습니다. 어떤 정보가 ‘관련 있다’는 것은 단순히 주제가 같다는 의미일 수도 있고, 직접적으로 정답을 포함한다는 의미일 수도 있었죠.
이 논문은 ‘충분한 맥락’이라는 개념을 통해 이러한 모호성을 해소하고, “질문에 대한 그럴듯한 답변을 맥락 내에서 도출할 수 있는가?”라는 보다 엄밀하고 실용적인 기준을 제시하고자 했습니다. 이는 RAG 시스템의 맥락 품질을 평가하고 분석하는 데 있어 훨씬 명확한 렌즈를 제공합니다. 핵심은 단순한 관련성이 아니라, 주어진 컨텍스트만으로 질문에 대한 그럴듯한 답변(plausible answer) A를 실제로 구성할 수 있는지를 판단하는 것입니다. 여기서 중요한 점은 이 답변 A가 반드시 정답과 일치할 필요는 없다는 것이에요. 컨텍스트 내에서 논리적으로 도출될 수 있는 답변이면 충분하다고 봅니다.
실제 예시를 통한 차이점 분석
‘충분한 맥락’ 개념이 기존 방식과 어떻게 다른지, 구체적인 예시로 살펴볼게요.
질문: “Lya L.은 누구와 결혼했나요?”
기존 방식: ‘관련성’만 보면 충분하다고 오해할 수 있어요.
- 불충분한 맥락의 경우 (기존 방식으로는 ‘관련성 높음’): “Lya L.이 2006년 Tom과 결혼했고 2014년 이혼했으며, 2018년 Paul과 데이트했다.”
- 이 정보는 Lya L.의 연애사와 결혼 이력이 상세히 나와 있어 기존의 ‘관련성’ 기준으로는 높은 점수를 받을 수 있습니다.
- Lya L.에 대한 정보를 많이 담고 있으니까요.
- 하지만! 이 정보만으로는 현재 누구와 결혼했는지 명확하게 답할 수 없습니다. 단순히 연애 이력일 뿐, 현재 결혼 상태를 확정할 수 없죠.
‘충분한 맥락’ 방식: 질문에 대한 명확한 답이 있는지가 핵심이에요.
- 충분한 맥락의 경우:
- “Lya L.은 2020년 Paul과 결혼했고, 최근 행사에서 함께 행복해 보였다.”
- 또는 위키피디아처럼 간결하게 정리된 “배우자: Paul (2020년 결혼)“
이처럼 ‘충분한 맥락’ 개념은 단순히 질문과 관련 있는 정보를 주는 것을 넘어, 질문에 대한 답을 확실히 내놓을 수 있는 ‘질 좋은 정보’인지를 판단합니다. 이러한 명확한 구분은 실제 RAG 시스템에서 AI의 엉뚱한 답변(환각) 현상을 줄이고, 답변의 정확성을 높이는 데 결정적인 역할을 해요.

충분한 맥락’의 핵심 차별점: ‘정답’ 족쇄를 벗어난 AI 평가
뿐만 아니라 RAG 시스템의 평가 방식과 가장 크게 달라지는 점은 바로 ‘정답(Ground Truth) 의존성’입니다. 이전에는 “나폴레옹의 고향은?” 같은 질문에 대해 ‘정답’이 “코르시카 섬”으로 딱 정해져 있었어요. 만약 컨텍스트에 “나폴레옹은 아작시오에서 태어났다”라고 쓰여 있어도, AI는 오직 미리 정해진 정답인 “코르시카 섬”이라고 답해야만 정답으로 인정받았죠. 비록 아작시오가 실제로 코르시카 섬에 있는 도시일지라도요.
하지만 ‘충분한 맥락’ 방식은 다릅니다. 이 방식은 AI에게 “이 컨텍스트만으로 나폴레옹의 고향에 대한 답을 그럴듯하게 유추할 수 있느냐?”만 판단하게 합니다. 컨텍스트에 “아작시오에서 태어났다”는 정보가 있다면, 비록 ‘코르시카 섬’이라고 직접 쓰여 있지 않아도 고향을 유추할 수 있는 충분한 정보라고 보는 거죠. 더 나아가, 만약 데이터셋에 ‘정답’ 라벨이 실수로 잘못 기입되어 있어도, 이 방식은 오직 컨텍스트 자체의 정보 충실도만을 평가하기 때문에 그런 오류에 영향을 받지 않고 유연하게 판단할 수 있습니다. AI가 ‘정답’에 맹목적으로 얽매이지 않고 주어진 정보의 유용성을 판단하게 되는 겁니다.
왜 AI는 ‘정답’이라는 족쇄에서 벗어나야 할까요?
AI가 미리 정해진 ‘정답(Ground Truth)’에만 얽매이지 않고 맥락의 충분성을 판단하는 능력은 AI의 신뢰성과 유연성을 극대화하는 데 필수적입니다. 이전에는 AI가 ‘정답’을 맞춰야 한다는 부담 때문에, 주어진 맥락이 불완전하거나 심지어 실제와 다를 때도 억지로 답을 지어내거나(환각), 맥락을 왜곡해서라도 ‘정답처럼 보이는’ 답변을 생성하려는 경향이 있었습니다.
하지만 이제 ‘충분한 맥락’ 개념 덕분에 AI는 달라집니다. AI는 더 이상 미리 정해진 ‘정답’에 얽매이지 않고, 주어진 맥락 그 자체에 충실하게 답변할 수 있게 됩니다. 즉, 맥락이 ‘그럴듯한’ 답변을 명확히 제공한다면, 그것이 정답인지 아닌지를 따지기보다 맥락에 근거한 답을 내놓는 거죠. 만약 맥락이 너무 불충분하다면, 억지로 지어내기보다 솔직하게 “모른다”고 답변을 유보하는 현명한 선택을 할 수 있습니다. 이는 AI가 현실 세계의 불완전하고 변화하는 정보 속에서도 더 자율적이고, 지능적이며, 사용자에게 믿음을 줄 수 있는 정보 제공자로 거듭나는 중요한 변화입니다.
AI ‘심사위원’은 어떻게 작동할까? ‘충분한 맥락’ 오토레이터의 비밀
이쯤되면 도대체 ‘맥락의 충분성’이라고 하는 것을 어떻게 측정하는지 궁금하실 수도 있을 것 같은데요. 당연히 수천, 수만 개의 질문과 답변 쌍을 사람이 일일이 “이 맥락이 충분한지 아닌지” 판단하는 건 현실적으로 불가능합니다. 그래서 연구팀은 이 까다로운 작업을 자동화하기 위해 LLM을 마치 ‘심사위원’처럼 활용하는 오토레이터(Autorater) 시스템을 개발했어요. 이 AI 심사위원의 핵심 목표는 단 하나입니다. 주어진 질문과 컨텍스트 쌍을 보고, “이 컨텍스트만으로 질문에 대한 ‘그럴듯한’ 답변을 뽑아낼 수 있는 모든 정보가 들어 있는가?”를 판단하는 거죠. 여기서 중요한 건, 이 ‘그럴듯한’ 답변이 실제 정답과 똑같을 필요는 없다는 거예요. 그저 컨텍스트 내에서 논리적으로 도출될 수 있는 답변이면 충분하다고 보는 겁니다.
Gemini 1.5 Pro, AI 심사위원으로 거듭나다
연구팀은 Gemini 1.5 Pro 모델을 오토레이터로 활용했습니다. 이 AI 심사위원이 어떻게 ‘충분한 맥락’을 판단하는지 그 과정을 자세히 들여다볼게요.
- 명확한 역할 부여: 먼저 Gemini 1.5 Pro에게 “당신은 질문(QUESTION)과 참조 자료(REFERENCES)를 평가하는 데 뛰어난 전문가 LLM 평가자입니다”라고 분명한 역할을 부여합니다.
- 핵심 기준 제시: 그 다음, AI가 따라야 할 핵심 평가 기준을 제시해요.
- “컨텍스트가 질문에 대한 답변을 추론하는 데 충분하다면 1, 충분하지 않다면 0을 출력하시오.”
- 추가로 “쿼리에 타임스탬프가 있다고 가정하시오”라는 조건을 붙여, 시간에 따라 정보가 변할 수 있는 질문에도 대비하게 합니다.
- 3단계 추론 프로세스: 가장 중요한 부분은, AI에게 단순히 결과만 내놓으라고 하지 않고, 체계적인 3단계 추론 과정을 거치도록 지시한다는 점입니다.
- 1단계: 단계별 질문 목록 생성: AI는 먼저 스스로 “이 기준에 대한 라벨을 도출하려면 어떤 질문들을 던져봐야 할까?”라고 생각하며 단계별 질문 목록을 만들어요. 질문에 내포된 가정이나 필요한 계산 과정에 대한 질문도 포함하죠.
- 2단계: 상세 답변: 그다음, AI는 1단계에서 만든 각 질문에 대해 스스로 답을 합니다. 필요한 계산 과정도 단계별로 자세히 설명하고요.
- 3단계: 최종 평가: 마지막으로, AI는 2단계에서 얻은 답변들을 종합하여 최종적으로 ‘충분한 맥락’인지 아닌지를 평가하고, 그 판단 과정(EXPLANATION)과 최종 결과(JSON 형식의 1 또는 0)를 출력합니다.
실제 예시로 본 AI 심사위원의 판단 과정
논문에 나온 실제 사례를 보면 AI 오토레이터의 작동 방식이 훨씬 명확해집니다.
질문: “Roald Dahl의 ‘Guide to Railway Safety’ 출판사가 언제 사라졌는가?”
컨텍스트: “Roald Dahl’s Guide to Railway Safety는 1991년 British Railways Board에서 출판되었다. British Railways Board는 1963년부터 2001년까지 운영된 영국의 국유 기업이었다.”
AI 오토레이터의 추론 과정은 다음과 같습니다.
- 단계별 질문 생성
- “이 책의 출판사가 누구인가?”
- “그 출판사가 언제부터 언제까지 운영되었는가?”
- “운영 종료 연도가 ‘사라진 해’인가?”
- 각 질문에 대한 답변
- “출판사는 British Railways Board다.”
- “이 회사는 1963년부터 2001년까지 운영되었다.”
- “운영 종료 연도인 2001년이 사라진 해다.”
- 최종 판단
- “컨텍스트가 출판사와 그 운영 종료 시점을 명확히 제공하므로, 질문에 답하기에 충분하다.”
- 최종 결과:
{"Sufficient Context": 1}

93% 정확도의 비결: 실제 활용성을 높이다
연구팀은 여러 LLM 모델을 테스트한 결과, Gemini 1.5 Pro(1-shot)가 93%라는 놀라운 정확도를 달성하며 최고 성능을 보였다고 밝혔습니다. 특히 이 방식의 큰 장점은 TRUE-NLI나 Contains GT 같은 기존 평가 방법들과 달리, 미리 정해진 정답(Ground Truth)이 없어도 질문과 컨텍스트만으로 충분성을 판단할 수 있다는 점입니다. 이는 실제 AI 시스템 운영 환경에서 정답을 모르는 상황에서도 맥락의 품질을 평가하고 활용할 수 있다는 엄청난 이점을 제공하죠. AI가 스스로 정보의 유효성을 판단하는 능력을 갖추게 된 셈입니다.

‘충분한 맥락’ 판단이 AI 서비스에 가져올 4가지 혁신
AI가 ‘충분한 맥락’을 스스로 판단하는 능력이 왜 그렇게 중요할까요? 이 기능은 AI 서비스의 효율성과 신뢰성을 극대화하며, 사용자 경험을 한 차원 높이는 결정적인 역할을 합니다.
#1 환각(Hallucination) 감소로 ‘신뢰성’ 확보
가장 중요한 변화는 AI의 환각 현상을 획기적으로 줄일 수 있다는 점입니다. AI가 “이 정보로는 답하기 부족해”라고 판단하면, 섣불리 없는 정보를 지어내는 대신 솔직하게 “모르겠다”고 말하거나 추가 정보를 요청할 수 있게 됩니다. 잘못된 정보가 사용자에게 전달될 위험이 사라지는 거죠. 사용자들은 이제 AI가 제공하는 정보에 대해 깊은 신뢰를 가질 수 있고, 이는 AI 서비스의 전반적인 신뢰도로 직결됩니다.
#2 효율적인 리소스 사용과 ‘낭비 없는’ 운영
AI가 모든 질문에 무조건 답변하려 들지 않기 때문에 불필요한 컴퓨팅 자원 소모와 시간 낭비를 줄일 수 있습니다. 맥락이 불충분하다고 판단되면, 복잡한 답변 생성 과정을 생략하고 다음 단계로 넘어갈 수 있죠. 이는 AI 시스템 운영 전반의 효율성을 높이고 비용을 절감하는 효과를 가져옵니다. 낭비 없는 AI 서비스 운영이 가능해지는 거예요.
#3 ‘개인화’를 넘어선 ‘예측적 사용자 상호작용’
AI가 맥락의 충분성을 판단하는 능력은 사용자 상호작용의 수준을 한 단계 끌어올립니다. AI는 사용자의 과거 행동, 문의 내용 등을 분석하여 다음 단계에서 사용자가 필요로 할 정보를 정확하게 예측할 수 있게 됩니다. 그리고 예측된 질문에 대한 ‘충분한 맥락’이 확보될 때만 해당 정보를 선제적으로 제공하는 거죠. 사용자가 질문하기도 전에 필요한 답을 주거나, 딱 맞는 맞춤형 정보를 제공함으로써 사용자에게 놀라운 경험을 선사하고, 이는 곧 서비스 만족도와 활용도 증가로 이어질 수 있습니다.
1부: RAG 시스템의 한계와 ‘충분한 맥락’ 개념의 등장. 여기까지 RAG 시스템의 현실적인 문제점과 이를 해결하기 위한 ‘충분한 맥락’이라는 새로운 개념, 그리고 이 개념을 AI가 어떻게 스스로 판단하는지 자세히 알아봤습니다. 이제 우리는 AI가 정보가 충분할 때도, 부족할 때도 어떻게 행동하는지 예측하고 분석할 수 있는 강력한 도구를 손에 쥐게 되었죠.
2부에서는 이 연구의 가장 충격적인 발견 세 가지와, AI가 똑똑하게 “침묵”하는 법을 알려주는 ‘선택적 생성 방법’에 대해 깊이 있게 다뤄볼 예정입니다. 다음 이야기에서 AI의 숨겨진 행동 패턴과 더욱 신뢰할 수 있는 AI를 만드는 혁신적인 해결책을 만나보세요!
