SpaCE2022课题组通过计算机程序收集了大量自然文本语料,这些语料经过计算机程序自动分词和词性标注处理后对方位词、趋向动词、处所词进行了高亮显示。目前语料中可能会存在”句中有错字“”句义特别难懂“或”句子无空间方位义“的问题,这些问题跟空间语义理解任务无关,因此标注者在标注文本时首先需要排除这些问题,然后再对句子的空间方位信息情况进行判断、分类。标注流程图如下图所示:

关于判断流程和判断标准的说明:

本任务语料来自多个领域,有普通日常语言的文本,还有专业领域的文本,比如体育领域人体动作类语料、地理百科类语料等。
选项包括:「完全正常」 「尚能说通」 「比较牵强」 「显然异常」 「不适合用于计算机空间语义理解」。标注者首先要认真阅读全句内容,检查是否有”句中有错字“”句子无空间方位义“或”句义特别难懂“的情况,如果有这些情况,请点选「不适合用于计算机空间语义理解」。如果没有这些情况,标注者就要判断该句应归入其他四个选项中的哪一项,判断时需要仔细推敲。试想一个从空间语义完全正常到显然异常的连续区间,最左侧表示完全正常,最右侧表示显然异常,那么,将四个选项置于其中,其对应位置大致如下图所示:

各选项的含义是:
选项1:完全正常
选项2:尚能说通
含义:句中实体成分的空间方位信息表达大致能成立,但从表达准确和自然的角度考虑,又觉得有点问题,或者所描述的空间场景比较罕见,或者句子的表达形式不常见,同样的意思还有更好更自然的表达形式,这类情况就选择“尚能说通”。
示例4 他在幽静的小路上散步,听到断断续续的钢琴声从一所茅屋边传出来,弹的正是他的曲子。
【首先感觉正常,但是句中红色高亮的“茅屋边”用“茅屋里”表达感觉更自然,”茅屋边“的表达也有出现的可能,选择“尚能说通”】
示例5 他抬起头,往四面望了望。林子内静悄悄的,两只小蜜蜂在附近嗡嗡地飞。
【首先感觉正常,但是句中红色高亮的“林子内”用“林子里”表达感觉更自然,选择“尚能说通”】
选项3:比较牵强
含义:句中实体成分的空间方位信息表达不大能成立,虽然这个句子的空间语义还没有到完全无法理解的程度,但仅仅是从表达多样性的角度考虑,才会勉强接受句中罕见的空间语义信息,这类情况就选择“比较牵强”。
示例6 他每天拿着枪,带着狗到森林旁去打猎,或到海边去捕鱼,并且把捕到的活山羊畜养起来。后来他竟有了成群的山羊,可以常喝羊奶,吃羊肉。
【首先感觉错误,”去森林旁打猎“的情况基本不会出现,“森林旁”用“森林里”表达感觉更自然 。但从语义上看,句中红色高亮的”森林旁“所表示的空间关系是成立的,选择“比较牵强”】
示例7 朋友们将她送回到家中,发现他和丈夫的餐桌上仅有一点勉强可以充饥的粮食,但桌子外却放着5袋面粉,这是他们替朋友从商店批发来的。
【首先感觉错误,句中红色高亮的“桌子外”的表达很少见,不清楚到底指哪个空间位置 。但从反面想,”桌子外“所表示的空间关系存在,这个表达形式也让人知道了”面粉“不是在“桌子上”,即排除了一定的空间范围,选择“比较牵强”】
示例8 抬起腿向前落地垫步跳的同时重心上移,换另一侧腿抬起至大腿与地面接近平行。
【首先感觉错误,句中红色高亮部分“重心上移”感觉很难做到 。但或许有人能力非常强,存在比较小发生的可能性,选择“比较牵强”】
示例9 我不知道为什么家里的人要将我送进书塾内去了,而且还是全城中称为最严厉的书塾。也许是因为拔何首乌毁了泥墙吧,也许是因为将砖头抛到间壁的梁家去了吧,也许是因为站在石井栏上跳下来吧,......都无从知道。总而言之:我将不能常到百草园了。
【首先感觉错误,句中红色高亮部分“书塾内”的表达很别扭,虽有明确的空间位置但是不常用。如果用“书塾里”可能更好,选择“比较牵强”】
选项4:显然异常
含义:句中实体成分的空间方位信息表达错误,句子空间语义显然异常,无争议。
示例10 冬天,雪花在空中飞舞。树上积满了白雪。地上的雪厚厚的,又松又软,常常没过膝盖。西北风呼呼地刮过树梢。紫貂和黑熊不得不躲进各自的洞里。紫貂捕到一只野兔当美餐,黑熊只好用舌头舔着自己又肥又厚的脚掌。松鼠靠秋天收藏在洞边的松子过日子,有时候还到枝头散散步,看看春天是不是快要来临。
【空间语义与常识相悖:按常识来说,松鼠是把松子藏在洞里的,例句中红色高亮短语“收藏在洞边的松子”与常识相悖,标注者应点选“ 显然异常”选项。】
示例11 这个时候我看到坡上有五个人骑着自行车下来,每辆自行车下座上都用一根扁担绑着两只很大的箩筐,我想他们大概是附近的农民,大概是卖菜回来。看到有人下来,我心里很高兴,便迎上去喊道:“老乡,你们好。”
【空间语义与常识相悖:按常识来说,自行车只有后座,没有下座,句中红色高亮部分“下座上”应该为“后座上”,标注者应点选“ 显然异常”选项。】
示例12 从“女部长小合唱”中不难看出外经贸部部长吴仪对音乐的喜爱,作为音乐厅的常客,尽管她从不坐贵宾席,不出贵宾室,每次只悄悄坐在边上,但总是很容易被认出来,演出结束后常常挤得这位在谈判中挥洒自如的女部长迟迟不得脱身。
【空间语义冲突:通读整句,可推知“不坐贵宾席,不出贵宾室“应该为”不坐贵宾席,不进贵宾室“,句中红色高亮词”出“应该为”进“,标注者应点选“ 显然异常”选项。】
示例13 十八年过去了。有一天,鲁滨孙忽然发现海边沙滩上有人的脚印。他恐惧万分,猜想这一定是附近陆地上的野人留下来的。他担心这些野人会来吃掉他。于是他在住所前的空地上插下杨柳桩子,又将羊群分成几个地方圈羊。在这种不安的心情旁又生活了两年。鲁滨孙再一次看到野人留下的生火的痕迹和满地的人骨,这使他联想到他们野蛮的宴会。鲁滨孙在恐怖之中开始考虑怎样对付这些可能出现的野人。
【例句中的红色高亮部分“心情旁”是搭配错误,方位词“旁”不能跟“心情”搭配。类似的错误还有“天亮上、天亮下”等。句子中有这类情况,应点选“显然异常”。】
选项5:不适合用于计算机空间语义理解
含义:句子存在以下几种情况:(1)句中有错字;(2)句子整体无空间方位义;(3)因为缺乏领域知识,看不懂句子意思(因而也难以理解句中的空间方位义)。
请注意:选项5是看句中错字问题(即只考虑句子自身的错误问题)。不考虑错词问题(即不考虑因高亮显示透露出的分词错误和词性错误等计算机自动处理造成的错误问题)。
示例14 我们沿者小路散步到井房,房顶上盛开的金银花芬芳扑鼻。莎莉文老师把我的一只手放在喷水口下,一股清凉的水在我手上流过。
【句中红色高亮词“沿者”有错别字,应为“沿着”,标注者应点选“ 不适合用于计算机空间语义理解”选项。】
示例15 由谁去充任那些苦难的角色?又有谁去体现这世间的幸福、骄傲和快乐?只好听凭偶然,是没有道理好讲的。
【句子整体无空间方位义。标注者应点选“ 不适合用于计算机空间语义理解”选项。】
本课题收集语料目的仅为研究之用,为避免在计算机自动处理过程中产生不当信息内容,若句子政治性很强,比如涉及国家大政方针、党的理论,国家领导人等信息;或有国家法律法规不允许传播的内容,比如色情内容,涉恐信息等,就归入选项5「不适合用于计算机空间语义理解」。不再进入后续标注流程。
如果一个句子中有方位词不表达方位义的情况,比如“在……条件下、营业中、天亮前”中的“下”、“中”、“前”等方位词不表达方位义,这种情况不作为该句空间方位义正常与否的判断依据,标注者应该根据整句的空间方位义是否正常来判断一个句子空间方位义正常还是异常。
示例16 仰卧,整个身体在放松的状态下躺在地面或垫子上,目视上方,双手放在身体两侧,自然摆放。
【句中红色高亮方位词“下”,在此处不表达方位义,不作为空间方位义正常与否的判断依据。而该句的”地面或垫子上“、”上方“、”身体两侧“表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,句子应归入“完全正常”。】
示例17 宋钢后来差不多每个月都会进城,他不再是一个人来了,他是在爷爷进城卖菜时,跟着一起走来。爷孙两个人进城的时候天还没有亮,李光头还在睡梦里。走过南门进了城,宋钢就会捧着两棵新鲜的青菜跑在天亮前的街道上,跑到李光头的家门口,把青菜悄悄靠在门上,再跑回天亮后的菜市场,坐在卖菜的爷爷身旁,替爷爷叫喊。
【句中红色高亮方位词“前”和“后”,在此处不表方位义,不作为空间方位义正常与否的判断依据。该句“街道上”、”门上“、”身旁“表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,句子应归入“完全正常”。】
句子中有标点符号不规范、用词不准确、不得体等问题。
SpaCE2022语料标注的目标是对句子中的空间语义进行理解,相对来说,对句子中与空间方位表达无直接关系部分的要求比较宽松,比如如果句子中有少量标点符号使用不规范,用词不是很准确,不得体,等等问题,不需要处理。但是,句子中如果存在明显的无争议的错误,比如句子中有错别字,则需要把句子归入“不适合用于计算机空间语义理解”类。
句子不完整问题(有的句子因计算机处理的原因,造成了句子明显是不完整的情况。这种情况如果不影响句子主体部分空间语义表达,就先忽略不处理。一般这种情况主要是句子开头或结尾出现了异常。)
(1)句子开头是单个汉字带标点符号,或者也可能是两三个汉字带一个标点符号,让人感觉句子前面的部分被错误截断了。
示例18 响,只见一辆黑色面包车落入水库,车头已没入水中,车辆后半部分尚在水面之上。他没有片刻犹豫,跳下车飞奔过去,从4米多高的堤坝跳入水库,奋力游向正在下沉的车辆。靠近后,他发现落水车辆前门的车窗未关,立即从窗口将一个小男孩拉出水面、救到岸边。随后,他立即游回去从窗口拉出一名妇女和一个小女孩。施救过程中,由于被救者在水里扑腾挣扎,他沉浮好几次,才将她们托举上岸。
【句中红色高亮部分为句首单字加标点造成句子不完整,但是不影响句子主体部分空间语义表达,就先忽略不处理】
(2)句子结尾处是冒号,一般是像“说:” “道:”这样的情况,句子明显没有完,冒号后面的内容被截断了。跟上面的处理方式类似,如果冒号前的句义完整、清楚,标注时就忽略这种情况,只针对句子中的空间方位语义信息,对句子进行归类,而不是直接把这种句子归入“不适合用于计算机空间语义理解”类。
文言诗词类语料请归入选项5「不适合用于计算机空间语义理解」。
step1: 用户登录网站 点击网址
step2: 输入 姓名 和 密码 。

step3: 点击「开始标注」按钮,进入标注页面。

step4:根据当前句子情况,点击「完全正常」 「尚能说通」 「比较牵强」 「显然异常」 「不适合用于计算机空间语义理解」5个按钮中的一个进行标注。标注完成后点击「保存并继续」,直至标完事先分配好的任务,界面就会提示 「没有下一条了」。
Tips
标注工具仅支持电脑端chrome、firefox浏览器。
如有任何问题,请联系小组长。
文档最近更新时间:2022-04-23
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。