由阿里巴巴通义实验室联合中科大、上海交大推出的一款开源的专注于视觉文档的RAG系统 以 多模态混合检索 和 多智能体迭代推理 重新定义了视觉文档处理的新范式,让AI像人类一样“看懂”图文,并给出精准答案!
在 GPT-4o 上,ViDoRAG 的准确率达到了 79.4%,比传统 RAG 提高了 10% 以上,在多模态信息提取、复杂文档问答等方面展现了极大的潜力。
同时,团队还推出了 ViDoSeek 数据集,这是一个专门针对大规模视觉文档集合检索和复杂推理设计的高难度基准数据集。
它通过多模态混合检索和多智能体迭代推理,不仅解决了传统RAG方法的局限,还显著提升了模型在复杂视觉文档上的处理能力。
GitHub – Alibaba-NLP/ViDoRAG: ViDoRAG: Visual Docu…
没有回复内容