VDocRAG 같은 2025 문서형 RAG 논문을 몇 편 읽고 나면 흔히 드는 생각이 있다. 이제 text chunking 대신 전부 이미지 기반으로 가야 하나? 그런데 primary source를 다시 읽어 보면 결론은 그렇게 단순하지 않다. 실제로 갈린 지점은 멀티모달이라서 좋다가 아니라, 문서 구조를 어느 단계에서 보존하느냐였다.먼저 핵심만 보면 이렇다.2025-04-14 공개된 VDocRAG는 parsing loss 자체가 핵심 문제일 때 강하다.2025-05-02 publication marker가 붙은 VisDoMRAG는 multi-document evidence가 visual과 text에 흩어질 때 더 직접적이다.2025-11 EMNLP MultiDocFusion과 2025-05-06 기준 ..