零样本视觉文档检索¶
本作业要求基于视觉语言模型完成零样本视觉文档检索(Visual Document Retrieval, VDR)任务,并以 ColPali 为主要方法基础。具体而言,给定一个文本查询(query),你需要在一批视觉丰富文档(visually rich documents)的页面中检索出最相关的页面。在提升检索效果的同时,还需要综合考虑索引构建、存储成本与推理开销之间的平衡。
一、背景要求¶
传统文档检索方法通常依赖 OCR 和文本索引。然而,对于包含复杂版式、表格、图表、图片以及跨区域排版的文档,纯文本表示往往会丢失重要信息。
二、检索方法介绍¶
本作业主要采用 ColPali-based page retrieval 的基本流程,包括以下三个阶段:
-
文档预处理与索引构建
将 PDF 按页转换为图像,使用多模态模型对每一页进行编码,得到页面表示,并将其保存到本地索引中。 -
查询编码
将文本查询输入模型,得到查询表示。 -
相似度计算与排序
计算查询与所有页面表示之间的相似度,返回 Top-k 相关页面,并使用检索指标进行评测。
三、任务描述¶
本次实验采用 MMLongBench Dataset。作业分为两个任务,具体如下:
3.1 简单任务(60分 = 结果准确性 40分 + 报告质量 20分)¶
任务内容:
- 完成
preprocess/index/retrieve等核心函数,实现一个基本的 ColPali-based 页级检索系统; - 支持离线构建页面索引,并对文本查询返回 Top-k 相关页面(k = 1, 3, 5, 10);
- 在测试集上报告检索结果,至少包含
Recall、Precision、MRR、nDCG等指标。
3.2 进阶任务(40分 = 创新性 20分 + 性能 10分 + 报告质量 10分)¶
任务内容:
设计并实现一种创新的视觉文档检索改进方法,要求如下:
- 该方法在检索性能上优于基础 ColPali,或在保持较好效果的前提下显著降低计算与存储开销;
- 方法设计必须为原创,严禁直接照搬已有论文中的方法。
四、提交要求¶
提交内容包括:
-
完整代码文件
将所有代码文件打包提交,内容应包含预处理、索引构建、检索与评测代码。 -
实验报告(PDF)
五、注意事项¶
-
参考文献
如果你在实验和报告中参考了已发表的文献,请在报告中列出相关文献。 -
可以使用提供的代码与数据进行实现。相关资料如下:
ColPali:
ColPali: Efficient Document Retrieval with Vision Language Models
https://huggingface.co/vidore/colpali-v1.3
MMLongBench:
https://huggingface.co/datasets/ZhaoweiWang/MMLongBench
- 如有疑问,请联系助教:lqr@smail.nju.edu.cn。