SpaCE2022中文空间语义理解评测数据标注工作指南

欢迎大家参与本次数据标注工作!

 


任务简介

SpaCE2022课题组通过计算机程序收集了大量自然文本语料,这些语料经过计算机程序自动分词和词性标注处理后对方位词趋向动词处所词进行了高亮显示。目前语料中可能会存在”句中有错字“”句义特别难懂“或”句子无空间方位义“的问题,这些问题跟空间语义理解任务无关,因此标注者在标注文本时首先需要排除这些问题,然后再对句子的空间方位信息情况进行判断、分类。标注流程图如下图所示:

image-20220412200239452

关于判断流程和判断标准的说明

image-20220413131455281

 


 

语料来源


选项说明

选项包括:「完全正常」 「尚能说通」 「比较牵强」 「显然异常」 「不适合用于计算机空间语义理解」。标注者首先要认真阅读全句内容,检查是否有”句中有错字“”句子无空间方位义“或”句义特别难懂“的情况,如果有这些情况,请点选「不适合用于计算机空间语义理解」。如果没有这些情况,标注者就要判断该句应归入其他四个选项中的哪一项,判断时需要仔细推敲。试想一个从空间语义完全正常到显然异常的连续区间,最左侧表示完全正常,最右侧表示显然异常,那么,将四个选项置于其中,其对应位置大致如下图所示:

image-20220413131605969

各选项的含义是:


 

注意事项

  1. 本课题收集语料目的仅为研究之用,为避免在计算机自动处理过程中产生不当信息内容,若句子政治性很强,比如涉及国家大政方针、党的理论,国家领导人等信息;或有国家法律法规不允许传播的内容,比如色情内容,涉恐信息等,就归入选项5「不适合用于计算机空间语义理解」。不再进入后续标注流程。

  2. 如果一个句子中有方位词不表达方位义的情况,比如“在……条件下、营业中、天亮前”中的“下”、“中”、“前”等方位词不表达方位义,这种情况不作为该句空间方位义正常与否的判断依据,标注者应该根据整句的空间方位义是否正常来判断一个句子空间方位义正常还是异常。

    • 示例16 仰卧,整个身体在放松的状态躺在地面或垫子上,目视上方,双手放在身体两侧,自然摆放。

      【句中红色高亮方位词“下”,在此处不表达方位义,不作为空间方位义正常与否的判断依据。而该句的”地面或垫子上“、”上方“、”身体两侧“表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,句子应归入“完全正常”。】

    • 示例17 宋钢后来差不多每个月都会进城,他不再是一个人来了,他是在爷爷进城卖菜时,跟着一起走来。爷孙两个人进城的时候天还没有亮,李光头还在睡梦里。走过南门进了城,宋钢就会捧着两棵新鲜的青菜跑在天亮的街道上,跑到李光头的家门口,把青菜悄悄靠在门上,再跑回天亮的菜市场,坐在卖菜的爷爷身旁,替爷爷叫喊。

      【句中红色高亮方位词“前”和“后”,在此处不表方位义,不作为空间方位义正常与否的判断依据。该句“街道上”、”门上“、”身旁“表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,句子应归入“完全正常”。】

  3. 句子中有标点符号不规范、用词不准确、不得体等问题

    SpaCE2022语料标注的目标是对句子中的空间语义进行理解,相对来说,对句子中与空间方位表达无直接关系部分的要求比较宽松,比如如果句子中有少量标点符号使用不规范用词不是很准确,不得体,等等问题,不需要处理。但是,句子中如果存在明显的无争议的错误,比如句子中有错别字,则需要把句子归入“不适合用于计算机空间语义理解”类

  4. 句子不完整问题(有的句子因计算机处理的原因,造成了句子明显是不完整的情况。这种情况如果不影响句子主体部分空间语义表达,就先忽略不处理。一般这种情况主要是句子开头或结尾出现了异常。)

    • (1)句子开头是单个汉字带标点符号,或者也可能是两三个汉字带一个标点符号,让人感觉句子前面的部分被错误截断了。

      • 示例18 响,只见一辆黑色面包车落入水库,车头已没入水中,车辆后半部分尚在水面之上。他没有片刻犹豫,跳下车飞奔过去,从4米多高的堤坝跳入水库,奋力游向正在下沉的车辆。靠近后,他发现落水车辆前门的车窗未关,立即从窗口将一个小男孩拉出水面、救到岸边。随后,他立即游回去从窗口拉出一名妇女和一个小女孩。施救过程中,由于被救者在水里扑腾挣扎,他沉浮好几次,才将她们托举上岸。

        【句中红色高亮部分为句首单字加标点造成句子不完整,但是不影响句子主体部分空间语义表达,就先忽略不处理】

    • (2)句子结尾处是冒号,一般是像“说:” “道:”这样的情况,句子明显没有完,冒号后面的内容被截断了。跟上面的处理方式类似,如果冒号前的句义完整、清楚,标注时就忽略这种情况,只针对句子中的空间方位语义信息,对句子进行归类,而是直接把这种句子归入“不适合用于计算机空间语义理解”类。

  1. 文言诗词类语料请归入选项5「不适合用于计算机空间语义理解」

    • 示例19 “平芜尽处是春山,行人更在春山边”。大雨之后,山泉湍急,那山泉从山上而来,像一条缎带将山乡环绕,终将汇入盱江。山村里,正是春天。
    • 示例20 到汉魏时期,“香囊”的名称正式出现在文献中。如繁钦的《定情诗》:“何以致叩叩?香囊系肘外。”可见,将香囊系在肘臂之下、藏在袖中,是当时一种佩戴香囊的方式。

 


 

标注工具使用说明