[논문 리뷰] MAO-ARAG: Multi-Agent Orchestration for Adaptive Retrieval-AugmentedGeneration

2025. 8. 7. 18:37·Agent

 

 

질문-응답(QA) 시스템에서 RAG(Retrieval-Augmented Generation)는 응답 정확도를 향상시키고 환각(hallucination) 문제를 줄이는 데 핵심적인 역할

RAG 시스템의 아키텍처는 단일 라운드 RAG, 반복적 RAG, 추론 기반 RAG 등으로 다양하게 구성

현실 세계의 질문은 복잡성이 다양하기 때문에, 고정된 RAG 파이프라인은 성능과 비용 효율성 사이에서 균형을 맞추는 데 어려움을 겪습니다.

다중 에이전트 오케스트레이션(Multi-Agent Orchestration)을 활용한 적응형 RAG 프레임워크인 MAO-ARAG를 제안

우리는 쿼리 재구성 에이전트, 문서 선택 에이전트, 생성 에이전트 등 전형적인 RAG 모듈을 실행하는 여러 개의 실행자 에이전트(executor agents)를 정의

그리고 플래너 에이전트(planner agent)는 이들 실행자 중 적절한 에이전트를 선택하고 통합하여, 각 질문에 맞춤화된 워크플로우를 지능적으로 구성

 

대형 언어 모델은 질문 응답, 정보 검색, 다양한 유형의 추론, 평가 등 다양한 작업에 널리 활용되고 있음

LLM은 사전 학습 이후 내부 지식을 신속히 업데이트 할 수 없다는 한계로 시의성이 떨어지거나 부정확한 정보를 생성할 위험 존재

이 문제 해결을 위해서 외부 지식 기반에서 관련 정보를 통합하여 LLM의 생성 성능 향상시키는 Rag 등장

 

기본적인 Rag는 후보 문서를 검색하는 검색 모델과 검색된 문서를 바탕으로 응답을 생성하는 LLM으로 구성

이 구조 이외에도 질문 재작성, 문서 선택, 자기 반영 등의 고급 모듈이 포함된 RAG파이프 라인 존재 

다양한 구성 요소를 가진 Rag 시스템은 상황에 따라 서로 다른 장점을 발휘

복잡한 질문에는 기본형 Rag가 대응이 어려움

반면 고급 Rag 시스템은 복잡한 질문 처리에는 뛰어나지만 LLM 사용량 증가와 함께 시스템 지연 시간 및 자원 소모가 커지는 단점이 존재

질문 유형별로 최적의 워크플로우가 서로 다름, 따라서 고정된 Rag 파이프라인으로만 다양한 질문에 대해 항상 고품질 응답을 제공하면서 비용을 효율적으로 유지하기 어려움

 

제안 방법

멀티 에이전트 오케스트레이션을 활용한 적응형 다중 턴 Rag 프레임워크인 MAO-ARAG를 제안 

기존 Rag 시스템의 주요 구성 요소들 ( 질문 재작성, 검색기, 문서 선택, 응답 생성 ) 을 실행자 (Executor Agent) 로 정의

중앙에는 플래너 에이전트가 위치하며, 각 질문에 맞는 실행자들을 선택하고 조합해 질문별 맞춤형 워크플로우 동적으로 생성

플래너의 조정 능력을 높이기 위해서 PPO 방식 알고리즘 채택 F1과 비용 기반 패널티를 동시에 고려하여 응답 품질과 비용 간 균형을 유지하는 방향으로 플래너 학습

 

기여

기존 Rag 시스템의 모듈들을 실행자 에이전트로 구성하고, 플래너 에이전트를 통해 각 질문에 적합한 조합을 구성하는 동적 오케스트레이션 기반의 적응형 RAG 구현

강화학습 전략으로 플래너의 효과적인 워크 플로우 설계 능력 향상

다양한 QA 벤치마크 실험 수행

 

관련 연구

검색 모델 : LLM 기반 생성기가 최종 응답을 생성할 수 있도록 외부 지식을 제공하며, 대표적으로 sparse 검색 모델인 BM25와 BGE, E5 등 과 같은 밀집 임베딩 생성 설계 등으로 효과적인 밀집 검색 모델로 사용

질문 재구성 : 질문 재구성은 RAG내에서 초기 질문을 다시 쓰거나 세분화하여 처리하는 과정

문서 선택 : 문서 선택은 검색된 후보 문서 중 노이즈를 제거하고 유용한 정보를 선별하는 과정

응답 생성기 : 최종 응답을 생성하는 역할로 딥시크, 라마, 큐웬, GPT 등 이 존재

 

Rag 시스템의 전형적인 워크플로우

단일 라운드 Rag : 

단일 턴 Rag에서는 모듈들이 선형적 구성으로 RRR은 재작성 => 검색 => 생성 프레임워크를 제안,

BGM에서는 선택 => 생성 패러다임 도입

반복형 Rag : 

ITER-RETGEN은 검색과 생성 과정을 반복적으로 통합하여 RAG의 성능을 개선하는 방법 제안

SELF-Rag는 자기 반영적 검색 및 생성 프로세스를 통해 언어 모델의 품질과 사실성을 높임

DRAGIN은 텍스트 생성 중에 실시간 정보 요구를 동적을 해결하여 지식 기반 작업 성능 향상

추론 기반 Rag :

LLM의 추론 능력을 활용하여 Rag 시스템을 향상

 

방법론

Rag를 다중 에이전트 준 마르코프 결정 프로제스로 모델링

MSMDP는 전통적인 마르코프 결정 프로세스를 확장한 것으로 여러 에이전트의 존재와 각 행동의 실행 시간이 가변적임을 반영할 수 있도록 설계

⟨S, A, P, R, γ, T⟩

  • S: 상태 공간 (state space)
  • A = {A₁, A₂, ..., Aₙ}: 각 에이전트 i가 선택할 수 있는 행동 집합
  • P : S × A × S → [0, 1]: 상태 전이 확률 함수
  • R : S × A → ℝ: 보상 함수 (현재 상태와 행동에 대한 피드백 제공)
  • T : S × A → ℝ⁺: 각 행동이 소요하는 시간(duration)을 나타내는 함수

구조 개요

플래너 에이전트가 여러 실행자 에이전트를 조율하는 방식으로 동작

플래너 에이전트 구성 : 

질문 또는 재작성된 하위 질문에 대해 적절한 워크 플로우 설계

사용 가능한 실행자 모듈 중 상황에 맞는 조합을 선택하여 질문별 맞춤형 파이프라인 구성

Executor 에이전트 구성 : 

QDS (쿼리 디컴포지션 시리얼) : 입력 질문을 순차적 의존 관계를 가지는 여러 하위 질문으로 분해

QDP (쿼리 디컴포지션 병렬) : 질문을 독립적으로 여러 하위 질문으로 병렬 분해

QR (쿼리 재작성) : 질문을 더 명확하고 검색하기 쉬운 형태로 재작성

DS ( 문서 선택 ) : 질문과 여러 문서 후보군이 주어진 경우, 유용한 문서를 선택하고 불필요한 문서 제외

RA : 상위 k개의 관련 문서를 변환하는 검색기 역할

AG : 최종 응답 생성

AS : 각 하위 질문과 그 응답 기반으로, 초기 질문에 대한 요약 응답 제공

 

MAO-ARAG는 MSMDP 구조를 활용함으로서 플래너 에이전트의 의사결정 과정과 실행자 에이전트들의 동작을 효율적으로 통합할 수 있으며, 이는 적응형 RAG 구조에 매우 효과적인 방식입니다.

 

강화학습의 핵심요소

프레임워크에서 워크플로우는 최종 응답의 품질을 좌우하는 핵심 요소이며, 이는 워크플로우를 설계하는 플래너의 최적화는 시스템 전체 성능에 매우 중요합니다.

전체 실행 과정에서 여러 라운드에 걸쳐 동작하며, 매 라운드마다 주어진 질문에 대해 플래너가 적절한 워크플로우를 구성해야 합니다.

최적화 목표는 단순히 정답의 품질을 높이는 것 뿐 아니라 비용과 지연을 줄이는 것까지 포함하고 있습니다.

강화학습의 PPO알고리즘을 통해 플래너의 파라미터를 최적화합니다.

플래너의 핵심 구성요소인 관찰, 행동 공간, 보상함수를 소개합니다.

 

관찰 : 플래너의 관찰값은 플래너에게 주어지는 프롬프트와 입력 질문으로 이루어집니다.

행동 공간 : 플래너의 행동 공간은 사용 가능한 실행자들의 축약어로 구성되며 다음과 같이 정의됩니다. 각 항목은 실행자 에이전트의 축약어이며, 플래너의 출력은 이들 중 일부를 조합하여 구성된 워크플로우 시퀀스입니다.

보상함수 : F1 기반 보상(응답 정확도) / 비용 기반 패널티 / 워크플로우 형식 패널티 ( 형식 오류를 감지하는 패널티 ) / 최종 보상

 

결론

QA 시스템을 위한 적응형 RAG 구조로, 새로운 다중 에이전트 오케스트레이션 프레임워크인 MAO-ARAG를 제안

질문 유형에 따라 적절한 워크플로우를 동적으로 구성하며, 질문재구성-문서선택-응답생성 등의 모듈을 실행자 에이전트로 활용합니다.

이 실행자들은 플래너 에이전트에 의해 조율되며, 플래너는 응답 품질과 비용 지표 간의 균형을 고려한 보상함수를 기반으로 강화학습을 통해 최적화

단일 홉과 다중 홉 QA 데이터셋을 대상으로 한 다양한 실험을 통해, MAO-ARAG는 기존 RAG 파이프라인보다 높은 성능과 비용 효율성의 균형을 달성

 

 

 

 

'Agent' 카테고리의 다른 글

에이전트와 백엔드의 서비스 로직 차이  (0) 2025.10.03
SOP-AGENT: EMPOWER GENERAL PURPOSE AIAGENT WITH DOMAIN-SPECIFIC SOPS  (0) 2025.07.11
[논문 리뷰] A Survey on Large Language Model based AutonomousAgents  (0) 2025.07.10
[논문 리뷰] REAC T: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS  (0) 2025.07.10
'Agent' 카테고리의 다른 글
  • 에이전트와 백엔드의 서비스 로직 차이
  • SOP-AGENT: EMPOWER GENERAL PURPOSE AIAGENT WITH DOMAIN-SPECIFIC SOPS
  • [논문 리뷰] A Survey on Large Language Model based AutonomousAgents
  • [논문 리뷰] REAC T: SYNERGIZING REASONING AND ACTING INLANGUAGE MODELS
swk5276
swk5276
흔적을 기록하자
  • swk5276
    개발 공부 기록
    swk5276
  • 전체
    오늘
    어제
    • 분류 전체보기 (219)
      • Agent (5)
      • LangChain (7)
      • DAYCONE (2)
      • 백엔드 (3)
      • 인공지능 (13)
      • 개발 공부 (18)
      • MICROSOFT SAY (14)
      • IT 기술 (3)
      • 프레임워크 (2)
      • IT 개념 (15)
      • 알고리즘 (14)
      • 파이썬 (15)
      • 자바 (26)
      • 정보처리 (27)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    시뮬레이션 알고리즘
    객체
    fetchAPI
    -
    DFS
    API란?
    db
    데이터베이스
    인스턴스
    Ajax
    python 예제
    flask 프레임워크
    git 명령어
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
swk5276
[논문 리뷰] MAO-ARAG: Multi-Agent Orchestration for Adaptive Retrieval-AugmentedGeneration
상단으로

티스토리툴바