基于前提的跨模态推理评测

一、任务简介

在视觉与语言的跨模态推理方向上，常见做法是给定图片形式的事件和文本形式的问题，让机器在多个备选答案中选择符合图片内容的答案。我们认为过去的这类研究属于 "无条件"的跨模态推理，即对图像没有指定任何先验知识，而在实际场景中，却往往不是如此。认知心理学中的ABC理论（Ellis,1995）表明，人类的情绪和由此产生的行为并不直接来自于特定事件，而是来自于特定前提下对事件的解读。受此启发，我们提出了一个"基于前提的跨模态推理"任务（PMR）。在这个任务中，我们为相同图片提供了不同的前提背景信息（文本形式），要求模型先根据背景信息解读图片，再正确回答文本形式的问题。PMR的数据集包含15,360个人工标注的[前提+图片+问题] —— [答案]配对，每个样本都经过了多阶段的众包标注和审核，该任务以高质量的数据为机器跨模态推理提出了更高的挑战。

基于前提的跨模态推理评测设置为单个主任务，每一张图片配有一条文本形式的前提句和问句，以及四个可能的选项，模型需要基于前提线索理解图片，再从四个选项中选择唯一符合问题和图片的答案。

二、数据介绍

数据样例如下，每一张图片配有一条文本形式的前提句和一个问句，以及四个可能的选项，模型需要基于前提线索理解图片，再从四个选项中选择唯一符合问题和图片的答案，图片提供元素标注信息，方便只熟悉文本的参赛者参与评测，图片中的元素标注和文本中的实体保持一致。

我们的标注过程确保了仅凭借文本形式的前提线索或者图片形式的场景线索都无法在四个选项中选出唯一正确的选项，因此，该评测要求模型必须在重复利用前提、图片、问题的基础上做出分类。

数据规模上，该评测任务包含15,360个人工标注的[前提+图片+问题] —— [答案]配对，以及15,360个对抗匹配自动生成的前[前提+图片+问题] —— [答案]配对，前提句和答案句的平均长度分别是9.49和14.31词。

将文本形式的条件引入跨模态推理是该评测的主要动机之一，因此前提句的设计至关重要。数据集中的前提句包含六个不同大类，具体分布情况如下图：

更多数据样例及demo展示见https://2030nlp.github.io/PMR/。

数据集论文：

@inproceedings{dong-etal-2022-premise,
    title = "Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues",
    author = "Dong, Qingxiu  and Qin, Ziwei  and Xia, Heming  and Feng, Tian  and
      Tong, Shoujie  and
      Meng, Haoran  and
      Xu, Lin  and
      Wei, Zhongyu  and
      Zhan, Weidong  and
      Chang, Baobao  and
      Li, Sujian  and
      Liu, Tianyu  and
      Sui, Zhifang",
    booktitle = "ACL (Volume 1: Long Papers)",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.acl-long.66",
    pages = "932--946",
}

数据集标注原始图片库来源于VCR论文，该论文收集并标注了110k来自movieclip的图片：

@inproceedings{zellers2019vcr,
author = {Zellers, Rowan and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin},
title = {From Recognition to Cognition: Visual Commonsense Reasoning},
booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2019}
}
}

三、评价标准

该评测任务为分类任务，每个样例有四个备选答案，其中有唯一正确答案，我们用模型选中正确答案的Accuracy作为评测指标。最终的评测成绩计算比较简单，直接采用每一组最后一次提交结果的Accuracy作为最终成绩。

四、预计赛程

评测开始（2022年6月1日）
- 发布报名系统，开放报名（截止日期2022年6月20日）
- 发布训练集以及验证集
- 发布基线模型、排行榜页面、结果提交页面

第一阶段（2022年6月1日—2022年8月20日，近3个月）：
参赛者需要提交验证集结果，排行榜按验证集成绩排序

参赛者每周可提交3次模型，排行榜每周日更新

此阶段可以不提交模型

第二阶段（2022年8月20日—2022年9月20日，约1个月）：
此阶段开始的同时，报名截止

发布不带答案的测试集

参赛者需要提交测试集结果，排行榜按测试集成绩排序

参赛者每周可提交3次模型，排行榜每天更新

此阶段不提交模型视为弃权

第三阶段（2022年9月20日—2022年9月25日，共5天）：
参赛者选择1个模型作为最终参赛模型提交

此阶段不提交模型视为弃权

总结回顾阶段（2022年10月1日—2022年10月16日）
公布结果并邀请优秀评测单位撰写技术报告（2022年10月1日）

技术报告收取截止（2022年10月10日）

CCL 2022评测研讨会（2022年10月14日—2022年10月16日）

五、报名方式

👉点击填写报名表（截止日期2022年6月20日，如果无法打开，则填写PDF格式报名表并发送到ccl2022_pmr@163.com）。

六、奖项设置

评测奖金由华为公司赞助，奖池共计30000元：

一等奖（1名），奖金10000元；

二等奖（2名），各奖5000元；

三等奖（4名），各奖2500元。

七、评测委员会

单位：北京大学，复旦大学

主席：穗志方，詹卫东，常宝宝，李素建，魏忠钰

成员：董青秀，秦梓巍，夏鹤明等

联系邮箱：ccl2022_pmr@163.com

附录

CCL2022基于前提的跨模态推理评测选手参赛协议

CCL2022基于前提的跨模态推理评测数据集使用许可

🎙️评测最新通知站点