SpaCE2022课题组通过计算机程序收集了大量自然文本语料,并通过计算机程序对语料进行了自动分词和词性标注。其中方位词、趋向动词、处所词、介词和副词和部分名词是课题组重点关注的,并在标注页面上进行了高亮显示。
人工标注任务首先是根据语感判断一段中文文本中高亮词语所表达的空间语义信息是否有异常(task1任务)。如果确实存在异常,则进一步分析造成异常的原因具体是什么,在标注页面上,选择适当的一种或多种导致空间语义异常的原因类型(task2任务),并选取对应的异常文本片段。标注流程图如下图所示:

标注流程说明:
(1)通读整段;
(2)判断是否「不适合用于计算机空间语义理解」(参见“选项说明-选项5”);
(3)判断是否「并无异常」;
(4)如有异常,按顺序判断是什么原因:「搭配不当」→「语义冲突」→「不符合常识或背景信息」;
(5)以上三类异常原因,并不冲突,可以单选,也可以多选。
本任务语料来自多个领域,有普通日常语言的文本,还有专业领域的文本,比如体育领域人体动作类语料、地理百科类语料等。task2任务中待标注的语料来源于task1任务中标注为“显然异常”的语料。
为了更加规范地描述空间语义异常,我们引入三种基本语义要素来描述句子的空间语义,具体如下。
一个实体是空间实体,当且仅当句中描述了该实体的空间方位信息。空间实体记作S。
S常见的表达形式有:名词(词组)、处所词(词组)、代词(词组)等。
例如: (1)阿Q站在大树旁。
(2)吴妈从冰箱里拿出啤酒。
例(1)中有两个表示实体的词:“阿Q”和“大树”,其中“大树旁”说明了“阿Q”的空间方位信息。所以”阿Q“是空间实体。而“大树”的空间方位信息在句中是缺失的,这句话并不关注“大树”的空间方位。
例(2)中有三个表示实体的词:“吴妈”“冰箱“和”啤酒”,但从句子所表达的意义来说,“啤酒”的空间方位信息很清楚,是“冰箱里”,而“吴妈”和“冰箱”的空间方位信息是缺失的,因此例(2)中“啤酒”是空间实体,“吴妈”和“冰箱”不是空间实体。
空间实体方位是句中描述空间实体S的空间方位信息的语言成分。具体而言,可能涉及S的处所/位置、起点、终点、路径、方向、朝向等信息。空间实体方位记作P。
P常见的表达形式有以下组合:
上面2.1.1小节中例(1),“在 大树 旁”(介词+名词+方位词)就是空间实体“阿Q”的P信息。
空间义相关事件是表达空间实体S位于P的方式、目的等的核心谓词成分。空间义相关事件记作E。
E的常见表达形式是动词性单位,包括:
动词(如例1中的“站”表达了“阿Q”以这种方式“在大树旁”,而不是“躺、靠”等其他方式)
动词+助词“着了过” (如“站 着”)
动宾词组(如 “送给阿Q”)
动补结构(如“站稳、爬起来”)
状动结构(如“再 伸直”)
等等
注意1:句中S、P要素周围若出现多个动词时,E是跟S、P空间义直接相关的动词(5.1.4 E怎么选)。
注意2:整体中部件的方位是比较特殊的方位关系,不同于上面S处于P方位的典型空间方位关系模式。
例如:卡车的左侧前部与小轿车的右侧前部发生碰撞
S P E 卡车 左侧前部 碰撞 小轿车 右侧前部 碰撞 这个例句中,S和P的关系并不是典型的 <空间实体 - 空间方位> 的关系,而是 < 整体 - 部件方位> 的关系。其中的空间实体“卡车和“小轿车”都具有固有的方位信息。“卡车左侧前部,小轿车右侧前部”是所指明确的部件位置,是空间实体的内部方位信息,不需要借助其他外部参照物来定位。对比其他空间实体,可以更清晰地看到这种特征。比如:“桌子左侧、书包右侧”,就都不是所指明确的方位,这里的“左侧”和“右侧”,无论是指空间实体的外部方位信息还是指内部方位信息,都需要在具体语境中根据说话人的方位,才能进一步确认具体的方位所指。
像“卡车、小轿车、公交车、自行车”等交通工具类空间实体,跟“人体”类似,都具有固定的朝向特征。其部件的方位信息,在P要素中描述。
空间语义异常文本标注包括两项任务:(1)标注异常原因;(2)标注异常片段。
本课题组把空间语义异常归结为三种原因:【搭配不当】、【语义冲突】、【不符合常识或背景信息】。关于这三种情况的具体解释,详见下文“选项说明”中选项1到选项3的说明。
空间语义异常总是由冲突造成的,因此,描述异常的文本片段分为两个,记作text1和text2(行文中有时会将二者合称为text)。
空间语义异常原因及异常片段的表示方式如下表所示:
| 空间语义异常类型 | 空间语义异常片段 | |
|---|---|---|
| 搭配不当 | text1 | text2 |
| 语义冲突 | S1,P1,E1 | S2,P2,E2 |
| 不符合常识或背景信息 | S,P,E | <无> |
搭配不当:文中有两处词语片段text1跟text2组合,让人觉得不习惯,不自然,不合语法。二者的组合在普通话中不存在或极罕见。例如"走进"跟"教室外"就不能组合。 详见【选项1:搭配不当】。
语义冲突:文中有两处词语片段text1跟text2存在空间语义信息的冲突。为更清晰地描述冲突点是什么,我们把text1和text2所在的小句分别称为TEXT1和TEXT2。需要注意:TEXT1和TEXT2均为标点句。(注:“标点句”指由逗号、句号、叹号、冒号等分隔的小句。)标注员需在TEXT1和TEXT2中标注出两组<S、P、E>,来揭示具体的语义冲突是什么。
不同文本中,TEXT1和TEXT2语义冲突的程度可能有所不同。
单要素冲突:构成语义冲突的两组S、P、E三要素中,只有一个要素存在冲突,形式上有差异、对立;另两个要素所指相同,词语形式相同或大体相同(示例5)。
多要素冲突:构成语义冲突的两组S、P、E三要素中,不止一个要素有冲突(示例7到示例8),甚至三个要素都不同,整体冲突(示例9)。
以上两种情况并非截然不同。有时候有模糊性(示例6)。
详见【选项2:语义冲突】。
不符合常识或背景信息:文本中有一处空间语义信息不符合一般的生活常识,或者跟当前语境中的隐含(可推导)空间义相关的背景信息有冲突。我们把这一处异常文本片段所在的标点句称为TEXT,标注员需在TEXT中标注出空间语义三要素<S、P、E>,来揭示具体是如何与常识或背景信息发生冲突的。 详见【选项3:不符合常识】。
提示:
小写的text(含text1,text2)指空间语义异常的文本片段。 大写的TEXT(含TEXT1,TEXT2)指空间语义异常的文本片段所在的标点句。
若空间语义异常归因为”语义冲突“ ”不符合常识或背景信息“,则一般应标注完整的S、P、E语义三要素成分(示例5到示例11)。只有当整句中有一个要素未出现或不明确的情况下,才允许该要素空缺(例如“桌子上的书”这个片段中,E未出现,填写时就空缺。另见示例12);
表1:存在空间语义冲突的两个文本片段
TEXT1 TEXT2 阿Q躺在走廊里的长椅下 阿Q坐在长椅上等吴妈 表2:TEXT1和TEXT2中的S、P、E要素标识示例
序号 S1 P1 E1 S2 P2 E2 1 阿Q 在走廊里的长椅下 躺 阿Q 坐在长椅上 等吴妈 2 阿Q 走廊里 躺 阿Q 长椅上 等吴妈 3 阿Q 长椅下 躺在 阿Q 在长椅上 坐等吴妈 4 阿Q 在长椅下 躺 阿Q 在长椅上 坐 表1中TEXT1和TEXT2分别表达了空间实体“阿Q”的空间方位信息,并且有冲突(二者不可能同时成立),如何表示二者的冲突呢?表2用S-P-E要素分解的方式来表达冲突,但孤立地看,TEXT1和TEXT2都有不止一种切分为S、P、E三元组的方式,表2列举了4种。很显然,从平行比对的角度讲,第4种标识S、P、E要素的方式是最优的,因为无论从整体还是分项角度看,第4种标识S、P、E的方法都最符合平行比对原则。
注意:
原则1是强调S、P、E应该应标尽标,不要遗漏。同时,S、P、E不应该不成词、不成结构(5.1.5)。
原则2是强调S、P、E的选取范围通常局限在TEXT之内。非必要不越界。确有必要方可越界。
原则3是强调S、P、E每个要素,在标注时都应选词准确、恰当。
原则4是强调:两组<S, P, E>内,各要素的填写标准(主要是对原则3的把握尺度),应保持同步。
在标注各要素时,如果有多个候选方案,那么,符合原则最多的方案最优。
上述原则的优先级顺序是:原则1 > 原则4 > 原则3 > 原则2
- 用上述原则来检视两个具体标注方案甲和乙时,可能会有冲突。比如甲符合原则4,但违反原则2,乙符合原则2,但违反原则4。这种情况下,应采取甲方案标注。(示例7)
示例1 慢慢地弯曲双膝,弯曲双肘,把头放在地面边,然后再依次轻轻地把后脑勺、颈项、背部放到地面上。双腿并拢屈膝,并将双膝收向胸前,双手抱住膝盖下方。
示例2 毛泽东终于见到了贺子珍,这是在老界山的山里下。那天在董老的安排下,两人在蒙蒙的细雨中,在老界山下那个半壁的小石屋里见面了。警卫员吴吉清把那盏马灯点亮,便退了出去。
示例3 在芦苇丛里,水面边露出个小脑袋来。雨来还是像小鸭子一样抖着头上的水,用手抹一下眼睛和鼻子,扒着芦苇,向岸上的人问道:“鬼子走了?
示例4 中午时分在一处小镇上买些面条吃了,又向东行。他无牵无挂,任意漫游,走到傍晚,前面树林中露出一角黄墙,行到近处,见是一所寺观,屋宇宏伟,门前铺着一条宽阔平正的青石板路,山门顶走出两个身负长剑的黄冠道人来。
含义:句中有两处空间信息存在矛盾、冲突。这两处空间信息对应着两个事件,由两组<S、P、E>来表示。句中的S-P-E要素可能全部出现,也可能存在某个要素省略的情况。比如S1出现了,但S2跟S1相同因而在句中省略。对于“语义冲突”类的异常片段S-P-E三要素的填写,要特别注意【S-P-E标注原则】的【原则4】。
示例5 这个就是我从水里捞出来的美国人手上戴着的戒指,里面刻着他的名字。塞科高高地举起戒指,他一边看一边念出前面刻着的字:“约翰·罗伯森·邓纳姆”。
标注:归因为“语义冲突”。例5原文中有语义冲突的两处文本分别为“里面刻着他的名字”和“前面刻着的字”。它们所在的标点句TEXT1和TEXT2分别是“里面刻着他的名字”和“他一边看一边念出前面刻着的字”。标注工作,就是在TEXT1中和TEXT2中确认两组<S、P、E>。例5的标注结果如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 他的名字 里面 刻着 与 字 前面 刻着 语义冲突 P1“里面”和P2“前面”,单独看所指方位并不清楚,但二者词形不同,已经能表达冲突。因此不再跨出标点句范围去增加标注两个方位词所依托的参照物“戒指”。这个标注方式遵循了S-P-E标注原则3“语义简明原则”。
需注意的是,E1和E2词形相同,但选取的是两个标点句中的词,不是同一个位置的“刻着”。
示例6 从“女部长小合唱”中不难看出外经贸部部长吴仪对音乐的喜爱,作为音乐厅的常客,尽管她从不坐贵宾席,不出贵宾室,每次只悄悄坐在边上,但总是很容易被认出来,演出结束后常常挤得这位在谈判中挥洒自如的女部长迟迟不得脱身。
标注:归因为“语义冲突”。例6原文有语义冲突的两处文本分别为“她从不坐贵宾席”和“ 不出贵宾室”。具体标注S、P、E要素如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 她 贵宾席 不坐 与 她 贵宾室 不出 语义冲突 此例可以在TEXT1中确认S1为“她”,相应的TEXT2中没有出现空间实体,但根据上下文语义可知,S2=S1=“她”,因此,S2和S1均填写“她”(注意:这个“她”是原文中同一个位置的同一个词)。此例中E1跟E2是主要冲突点,也可以认为<P1, E1>和<P2,E2>共同构成冲突点。这4个要素均为原文中出现的词语,即“不坐贵宾席”和“不出贵宾室”。E1中,副词“从”可以不填,因为不影响E1的语义,且不填“从”,E1可以跟E2保持最大程度的平行性,符合S-P-E标注原则中【原则4】的精神。
示例7 孩子们睡在蒙古包里,他们一醒来,就跳起来跑进蒙古包找妈妈。
标注:归因为“语义冲突”。例7中有语义冲突的两处文本分别为“孩子们睡在蒙古包里”和“跑进蒙古包”。具体标注的S、P、E要素填写情况如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 ① 孩子们 在蒙古包里 睡 与 孩子们 进蒙古包 跑 语义冲突 ② 孩子们 蒙古包里 睡在 与 孩子们 蒙古包 跑进 语义冲突 ③ 孩子们 在蒙古包里 睡 与 孩子们 蒙古包 跑进 语义冲突 注意1:在TEXT2“就跳起来跑进蒙古包找妈妈”中,S2要素未出现(承前省略)。根据上下文语义,S2和S1所指应相同,因此填入同一个位置的相同词语“孩子们”。
- 如果从邻近原则(原则2)角度看,从TEXT2往左侧寻找S,最邻近的空间实体成分是“他们”。但是,“他们”的人称代词,跟S1的词形不同,根据平行比对原则(原则4),义同则形同,S2应该跟S1保持同形,因此,填“孩子们”。原则4优先级高于原则2。
注意2:上表中列出了3种标注方式,第①种方式最优,第②种次之,第③种最不好。
- 第①种标注方式是符合原则最多的标注方法。
- 第②种标注方式,形式上基本满足原则3的平行比对要求,但从语义角度看,并不是最好的平行比对方式。因为P1和P2形式基本一样,不构成空间方位语义冲突,这样就把语义冲突的表达都压到了E1和E2的对立上,并没有很好地体现TEXT1和TEXT2之间真实语义冲突之所在。此外,“睡在”是一个不完整语法单位,独立性比较弱,不满足原则1的要素完整要求。
- 第③种不满足原则3的平行比对要求。P1中有介词和方位词“在……里”来指示方位;P2中则缺少方位指示性成分“进”,“进”被填入E2了,由此造成E2跟E1不平行,同时,P2和P1形式不平行,而语义基本相同。
示例8 经审理查明,2020年11月19日16时45分许,被告人杨某某驾驶牌号为沪EGXXXX的重型自卸货车沿上海市浦东新区盐朝公路由东向西行驶至川南奉公路路口向北遇绿灯右转弯时,适逢被放行的被害人朱某某(女性,1954年出生)驾驶自行车沿盐朝公路由南向西行驶至此,双方发生碰撞,造成朱某某当场死亡及自行车损坏(物损人民币241元)的道路交通事故。
标注:归因为“语义冲突”。语义冲突的text1和text2分别为“牌号为沪EGXXXX的重型自卸货车沿上海市浦东区盐朝公路由东向西行驶”和“自行车沿盐朝公路由南向西行驶”。具体标注S、P、E要素如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 货车 沿盐朝公路由东向西 行驶 与 自行车 沿盐朝公路由南向西 行驶 语义冲突 注意1:此例中TEXT1和TEXT2很长,其中S、P、E要素具体如何填写存在多种可能性。根据S-P-E标注原则中的“原则3:语义简明原则”,S1和S2分别填写“货车”和“自行车”即可,因为“货车”和“自行车”都可以清楚地判定所指,没有歧义。
注意2:P1和P2的主要信息分别是“由东向西”和“由南向西”,这两个信息构成冲突,但如果仅填写方向,所指还不清楚,应加上方向所参考的公路路名信息,因此,P1和P2分别填写“沿盐朝公路由东向西”和“沿盐朝公路由南向西”(这些词语都在TEXT1和TEXT2标点句内,不需要跨句选取)。
注意3:E1和E2均为“行驶”,且是两个TEXT中不同位置上的“行驶”。
示例9 7月中下旬,亚洲上空西风带再次经历一次剧变,北移到最北位置。地面太平洋高压进一步向西向南扩展,高压脊线从北纬25°再次北推到北纬30°附近(北纬25°~35°),夏季风开始在华北盛行。至此,环流形势从初夏进入盛夏。
标注:归因为“语义冲突”。例9中有语义冲突的两处文本分别为“地面太平洋高压向西向南扩展”和“ 高压脊线从北纬25°北推到北纬30°附近”。具体标注S、P、E要素如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 地面太平洋高压 向西向南 扩展 与 高压脊线 从北纬25°到北纬30°附近 北推 语义冲突 注意:此例中S1和S2比较容易确定,分别是“地面太平洋高压”和“高压脊线”,填写时跟原文保持一致即可(S2不需要增加信息填成“地面太平洋高压脊线”)。P2的完整信息是“从北纬25°到北纬30°附近”,这在原文中是两个不连续片段,需要分两次鼠标操作点选添加到P2文本框中。E1和E2在原文中分别是“进一步扩展”和“再次北推”,其中“进一步”和“再次”在语义冲突描述中属于不重要的信息,因此不填。仅填写表示事件的核心词语“扩展”和“北推”即可。
含义:句中有一处文本片段的空间语义违反常识或者违反句子的背景信息。这个空间语义异常的文本片段,要由S、P、E三要素来标注。并且,填写时应遵循S-P-E标注原则1“要素完整原则”。
示例10 他信步而行,走了半天,又到了长江里边,沿着江边大路,向下游行去。
标注:归因为“不符合常识或背景信息”。具体的异常文本片段是 "又到了长江里边"。S、P、E要素标注结果如下表所示:
S P E 异常类型 他 长江里边 到 与常识或背景信息不符 异常片段text本身就是一个标点句。在“又到了长江里边”中,S省略,由上下文语义可推知,应为上文的“他”,因此,在S文本框中填入“他”。P为“长江里边”,E为“到”。此例中E仅填写单个动词“到”即可。标点中表示时体信息的“了”,充当状语的副词“又”,跟此句的空间方位信息都无直接关系,不是重要信息,因此不需要填入(参考S-P-E标注原则3“语义简明原则”)。
示例11 男人们在午前到亲戚家、朋友家拜年。女人们在家中接待客人。城内城外有许多寺院举办庙会,小贩们在庙外摆摊卖茶、食品和各种玩具。小孩们特别爱逛庙会,为的是有机会到市区看看野景,可以骑毛驴,还能买到那些新年特有的玩具。庙会上有赛马的,还有赛骆驼的。这些比赛并不为争谁第一谁第二,而是在观众面前表演马骆驼与骑者的美好姿态与娴熟技能。
标注:归因为“不符合常识或背景信息”。文中异常的文本片段是 “到市区看看野景”,与常识不符。具体标注S、P、E要素如下表所示:
S P E 异常类型 小孩们 到市区 看看野景 与常识或背景信息不符 异常片段所在的标点句是“为的是有机会到市区看看野景”,这个TEXT中没有S成分,因此跨出标点句,向前找到“小孩们”,标注为S。
示例12 他叹了口气,悄悄地坐了下来。教室前一片寂静,静得能听见赵小损轻轻抽泣的声音。过了好一会儿,程老师从讲台上走下来,走到他面前,声音发颤地说:“李京京,请你……把课文全部读完吧。”
标注:归因为“不符合常识或背景信息”。文中异常的文本片段是 “教室前一片寂静”。从原文语境可以推知,这里应该是描写“教室里一片寂静”,而不是“教室前一片寂静”,此处异常,是与句子背景信息不符(要得出这个信息,实际上也调用了常识)。具体标注S、P、E要素如下表所示:
S P E 异常类型 教室前 一片寂静 与常识或背景信息不符 异常片段“教室前一片寂静”中未出现S。语义上“一片寂静”是说明P的情况,而非描述某个潜在的S的情况。从空间信息角度讲,句中的“他”“赵小损”“程老师”“李京京”等,都应处于P位置,但都不适合作为个体,填写到S位置,因为无论这些实体中的哪一个填入S位置,所形成的S-P-E三要素,合在一起,都无法构成一个合理的整体空间语义事件。在这种情况下,S应该空缺不填。<P, E>两个语义要素已经可以清楚简明地表达一个完整的空间语义了,符合S-P-E标注原则3“语义简明原则”的要求。
示例13 圆明园在北京西北郊,是一座举世闻名的皇家园林。它由圆明园、万春园和长春园组成,所以也叫圆明三园。此外,还有许多小园,分布在圆明园东、西、南三面,众星拱月般环绕在圆明园周围。
含义:一段话有错字、句子整体无空间方位义、句中存在敏感信息(如涉恐、涉政、涉个人隐私、黄暴)等不适合用于空间语义理解的情况。
示例14 由谁去充任那些苦难的角色?又有谁去体现这世间的幸福,骄傲和快乐?只好听凭偶然,是没有道理好讲的。
这个句子整体无空间方位义。应归入选项5。
可参看 第 5.4 节:应淘汰语料 。

选取操作(op1): 鼠标左键点击片段起始字,鼠标左键点击片段结束字,该片段即被选中。在选取异常片段时,可能是句中连续的语言成分,也可能是不连续的语言成分。文本框已填内容后有一个“添”字符按钮,点击该按钮,可以将选中拷贝好的不连续成分添加到当前文本框内容后,拼接成更大的文本内容。
填入操作(op2): 将选中的词语或文本片段填入文本框。
撤销操作(op3): 填入文本框的文本片段尾部有一个 ”删“ 字符按钮,点击该按钮,可撤销填入内容。
以上1、2、3这三个操作,是标注中最常用的基本操作。
清除操作(op4): 选取一个文本片段后,会弹出“清除选区”和“拷贝选区”按钮。 点击“清除选区“即可撤销选取操作。
拷贝操作(op5): 选取操作后,被选中的片段将被拷贝至剪贴板,可用于搜索引擎检索或讨论交流。
以上4、5两个操作为辅助功能,标注中可以不用。仅在不是出于标注目的而拷贝一段文字内容时会用到。
具体操作请参见以下视频说明。
如果未点击“保存并继续”按钮,则当前标注内容将不被保存,导致标注者需要重新标注的严重后果!!!
选取“搭配不当”的两个片段时,text1和text2也跟S-P-E标注一样,应该遵循”简明原则“的指导思想,所填选的文本片段应精当,避免冗长,能说明问题即可。
示例15 穿过一条狭窄巷子,在一片民居群下,我走进了扎西达吉的家。屋子里到处堆满了养蜂的各种工具。看得出来,这个家庭充满着劳动的热烈气氛。扎西达吉把我扶上楼梯,和我一起爬到屋顶上,带我去看他立在屋顶的蜂箱。站在屋顶上凝望,身边蜜蜂飞舞,四周楼房林立,天空澄澈如洗,我看到了养蜂人家的甜蜜生活图景。
该段有问题的文本片段是”在一片民居群下“。可能的标注方式有:
text1 text2 异常类型 ① 在一片民居群 下 搭配不当 ② 一片民居群 下 搭配不当 ③ 民居群 下 搭配不当 最恰当的标注为③。”民居群“和”下“不能组合,已经可以清楚地说明异常问题之所在,不需要增添更多的成分来说明这种搭配不当的情况。①这种标注方式语法层次不对,”在一片民居群“单独无法成立,因此不能构成text1。②这种标注方式相比③来说,不符合”语义简明原则“的指导思想,因为在此例中,”一片“是不重要的信息,不需要填入。
一个标点句中,如有两个指称相同的空间实体,都可以填到S、P、E要素中,应选取指称功能更为明确的词语形式,比如,姓名优于人称代词:在“阿Q”和“他”同指且在同一个标点句中时,应选专名“阿Q”。
一个空间义相关事件中,如果既有直接经历者,又有间接经历者,那么,应在S中填写直接经历者。
例如:被告人阿Q驾驶号牌为沪AXXXX的小轿车沿未庄路由西向东行驶,撞到了路口人行道上的吴妈。
这个句子中“小轿车”是“行驶”的直接经历者,可填入S。“阿Q”不是“行驶”的直接经历者,不能看作S。
P中包含介词,意味着介词在有区别方位信息中起作用。
例如:
① 阿Q 站 在大树旁 。
② 阿Q 站 到大树旁 。
例①中P为“在大树旁”,例②中P为“到大树旁”,二者的区别在于介词”在“和”到“的不同,如果P中不填入介词,则例①和例②的空间方位信息就没有区别了。
示例16 他起来写了一封信,夹在随身携带的记事本旁,到姚家去听音乐,顺便到姚宓的小书房去翻书,就在小书桌上的书里夹一个签条,注明参看某书某页。他就把写给姚宓的信取出来,抚平了折成双折,夹在那本书的那一页里。信是这样写的。
P中不含介词,意味着介词在当前空间方位关系中,并不起作用。
例如:从厨房架子上挂着的篮子里拿两个西红柿
① S:篮子 P:厨房架子上 E:挂着
② S:篮子 P:从厨房架子上 E:挂着
上面两种空间语义要素标注,①中的P是正确的,②中的P是错误的。②中P里的介词“从”不是跟“厨房架子上”有组合关系,而是跟“篮子里”有组合关系。这个例句中,介词“从”所关联的空间语义事件是“从篮子里拿两个西红柿”,而不是“从厨房架子上挂着篮子”。
P中是否应包含“在”,有模糊性。
示例17 坐在地面上,伸直双腿,将双脚并拢靠在一起。保持上身直立,将双手手掌按在臀部上侧的地板上,指尖向前。放松全身。
此例中异常的文本片段是”臀部上侧的地板“。可能的标注方式有:
序号 S P E 异常类型 ① 地板 在臀部上侧 不符合常识或背景信息 ② 地板 臀部上侧 不符合常识或背景信息 第①种标注方式P中有介词“在”,第②种标注方式P中没有介词“在”。从组配关系上讲,例17的“在”是跟异常片段所在标点句最后的“地板上”远距离组合,而不是跟临近的“臀部上侧”组合。因此②中P的标注更合理,不需要包含”在“。但是,是不是就此说第①种标注方式是错的呢?答案是否定的。因为也可以说“在”同时跟“地板上”和“臀部上侧”都有组合关系。甚至可以假设,这里有两个“在”,因为语音形式相同,说话的时候说快,合并成了一个“在”。这个假设,也可以从语义分析中得到支持:异常的文本片段“臀部上侧的地板”变换成“地板在臀部上侧”,是完全等义的,可见“地板”和“臀部上侧”之间,也可以有个“在”。
①和②这两种标注方式,语义并无实质差别。这个情况,跟上面举的介词“从”的例子,性质有很大的差异。在上文的例子中,两种标注方式对应的S-P-E空间语义,相差是很大的。“篮子 - 从厨房架子上 - 挂着”根本不能成立。而例17中,有没有“在”,对应的S-P-E空间语义,完全一样:“地板 - 在臀部上侧” 跟 “地板 - 臀部上侧”,语义无差别。从这个角度说,①和②这两种标注方式都有其合理性,都可以接受。
顺便说明一下:此例中E不需要,也不应填“按”。因为S跟P的方位关系,与“按”无关。按照E的定义,“按”并不是跟空间语义相关的事件(核心动词),所以,不需要填入E中。只有当空间实体S是“手掌”的时候,相应的E要素,才应该填“按”,即<手掌,在地板上,按>构成一个<S, P, E>空间语义三要素。
在确定异常片段三要素成分时,一般先确定S、P。如果异常片段S、P周围有不止一个动词性成分,那么,由哪一个动词来充当E要素,应从语义性质角度去判断,依据两个标准来判定:
下面以2.1.1节中例(1)(2)为基础,构造两个新的例句。每句中都有不止一个动词性成分:
(1')阿Q站在大树旁等吴妈。
(2')吴妈从冰箱里拿出啤酒招待客人。
例(1‘)中,“站”和“等吴妈”都可以标记为E要素:
<阿Q,在大树旁,站>是<空间实体,空间方位,行为方式>
<阿Q,在大树旁,等吴妈>是<空间实体,空间方位,行为目的>
具体选取哪一个作为E要素,要根据异常片段的描述需求来定。在同等条件下,行为方式充当E优于行为目的。因为“方式”跟“目的”相比,跟空间语义的关系更直接。
例(2')中,“拿出”可以标记为E要素,但“招待客人”不行:
<啤酒,从冰箱里,拿出> 是<空间实体,空间方位,行为方式>
<啤酒,从冰箱里,招待客人>是一个错误的<S, P, E>三元组,无法正确描述句中的空间语义。需要特别注意的是:虽然“招待客人”跟“啤酒”有直接的语义联系,但是,从空间方位语义的角度说,“招待客人”这个动作行为,跟<啤酒、从冰箱里>并没有空间方位的直接语义关联。
标注异常片段时需注意:要避免填入断词的情况,例如”科生“(应填片段为”本科生“)、“京大学”(应填片段为”北京大学“)等等。同时,也要避免填入不完整结构的情况。前一种情况容易察觉,也容易避免。后一种情况一般也容易根据自然语感来判断。
之所以有可能出现不完整结构的情况,是因为一个异常片段有多种内部切分方式。不同的切分方式中,有的切分方式,就可能含有不完整的结构。不完整的结构,语感上会觉得读起来不舒服,是少见的组合,独立性弱。对于“不完整性”,注意要从两个方向看,缺少成分是不完整,成分多余也是不完整。因为就切分得到的两个片段而言,一个片段中有成分缺少了,也就意味着另一个片段中有成分多余了。两种情况,可统称不完整。
下面以“从垃圾桶前捡出来”这个异常片段为例,来对比不同切分方式得到片段的完整性差异:
序号 text1 text2 切分方式1 从垃圾桶 前 捡出来 切分方式2 从垃圾桶前 捡 出来 切分方式3 从垃圾桶前 捡出来 切分方式1中,text2“前 捡出来”很不自然,是不完整的语法结构;
切分方式2中,text1“从垃圾桶前 捡”虽然能成立,但以这个组合整体去跟text2“出来”组合,很不自然,表现特征就是:“捡”后无法停顿,也就是说,在“从垃圾桶前捡出来”这段话中,“从垃圾桶前 捡”,不是一个自然的韵律结构单位。
对比之下,切分方式3得到的两个片段text1和text2显然完整性最好,无论是语法结构性质,还是韵律结构性质,都是很自然的单位。
从以上对比可以看出:如果有多个切分方式要比较选择的话,那么,切出来的不完整片段越少越好。最合理、最自然的切分方式,就是不完整片段最少的切分方式。
适用情形1:句子中空间语义异常的原因只有一种。
示例18 总书记微笑着向大家挥手致意。他走到会场正中的座位前方并没有停下脚步,继续向前走,走到另上侧,挥手向大家问好。
该段落中的异常片段为“另上侧”,“另”和“上侧”无法搭配,应归因为“搭配不当”。这段话中不存在“语义冲突”或“不符合常识或背景信息”的问题。
示例19 宋钢在侧面推着奔跑,跑得满头大汗,跑得上气不接下气,跑得眼睛发直,跑得口吐白沫。李光头听着风声飕飕地响,衣服哗哗地抖,自己的光头更是滑溜溜的舒服。李光头指挥后面的宋钢。
该段落中的异常原因是“宋钢在侧面推着奔跑”和“李光头指挥后面的宋钢”这两个片段存在“语义冲突”。其内部成分没有搭配问题,不能归入“搭配不当”,也不应归入“不符合常识或背景信息”。
示例20 随着“咚咚咚”的敲门声,裁判员、技术官员、媒体记者等来到锦州的第一顿饭,是由工作人员送到房间的。为确保比赛安全顺利进行,所有相关人员来到赛区前需提供一份7日内的核酸检测阴性证明,到达锦州后的第一时间还需进行第二次检测,在检测结果出来之前,只能在各自房间旁隔离。待核酸检测结果出来后,才能在封闭的园区内活动。
该段落中的异常片段为“只能在各自房间旁隔离”,属于“不符合常识或背景信息”,不应归入“搭配不当”或“语义冲突”。
适用情形2:句子的空间语义异常归入“不符合常识或背景信息”,比较容易选取异常文本片段,如果归入另外两类,则难以填写异常文本片段。
示例21 “这两个大汉抬着一块门板,门板前躺着杜雍和。杜小康和母亲跟在门板后面。
这段话中有问题的文本片段是"门板前躺着杜雍和"。如果选择空间语义异常类型为“语义冲突”,则可能的标注方式如下表所示:
S1 P1 E1 与 S2 P2 E2 异常类型 ① 大汉 门板 抬着 与 杜雍和 门板前 躺着 语义冲突 ② 门板 大汉抬着 与 杜雍和 门板前 躺着 语义冲突 标注①中,“大汉”不是S,“门板”不是P,二者都不符合空间语义要素的要求,填写错误。
标注②中,P1缺失,整个标注不满足“原则4:平行比对原则”。
仔细分析后可以发现,如果要把这段话的空间语义异常归入text1“两个大汉抬着一块门板”和text2“门板前躺着杜雍和”之间的语义冲突,在选取S、P、E语义要素时,会碰到困难,<S2, P2, E2>这一组语义要素很清楚,容易填写,但<S1, P1, E1>这一组则没有合适的成分可以同时满足三个要素的填写要求。在这种情况下,合理的标注方式,是把这段话的空间语义异常归入“不符合常识或背景信息”,仅填写一组<S, P, E>就可以说明问题了。正确的标注方式如下表中 ③ 所示:
S P E 异常类型 ③ 杜雍和 门板前 躺着 不符合常识或背景信息
适用情形(1):一个句子整体上有空间语义,句中有一处跟方位词相关的错误,但该错误跟空间语义理解没有直接关系,这种情况下,标注者需要先选择一种异常归因类型进行标注。然后再点选“不适合用于计算机空间语义理解”。这种标注方式意味着:并不是整句都不适合用于计算机空间语义理解,而是表示:句中某个特定位置的错误,与空间语义理解问题无直接关系,只是这个错误位置所在的小句不适合用于计算机空间语义理解任务,而不是整段语料都不适合用于计算机空间语义理解任务。
示例23 本报北京8月2日电中央气象台8月2日18时继续发布台风蓝色预警,今年第4号台风“黑格比”的中心2日17时位于浙江省苍南县东南方大约600公里的西北太平洋洋面上,中心附近最大风力8级。预计“黑格比”将以每小时15公里—20公里的速度向西北方向移动,强度逐渐增强,登陆前强度将有所减弱,将于3日夜间在浙江南部到福建北部一带沿海登陆,登陆旁强度迅速减弱。
该段落有多处空间义词语被高亮显示,有一部分高亮词语的空间语义没有异常。其中存在异常的文本片段是“登陆旁强度迅速减弱”。“登陆”和“旁”无法组合,需标注异常的原因是“搭配不当”。同时,由于“登陆旁”跟空间义无关,还需标注“ 不适合用于计算机空间语义理解”。
与上面例子不同,下面的例子属于整个句子都无空间语义,应直接选择“不适合用于计算机空间语义理解”,不需要再关注其他选项。
示例24 联大主席发言人瓦尔马在7日举行的例行记者会上介绍,尽管特别会议举办的相关细节仍在谈判内,但会员国已基本同意会议在12月3日至4日前后举行。
适用情形(2):在选择空间义异常文本片段时,S、P、E或者 text1、text2可能由于分词错误,导致无法准确选取合适的词语填入,这种情况下,应该选一个大致接近的成分完成异常归因标注,同时,点选「不适合用于计算机空间语义理解」,并且在备注中标注“分词错误”。
在分析一段语料中的空间语义异常时,一般情况下,通过自然语感加以判断就够用了。但在有的语料中,空间场景可能不是人们特别熟悉的情况。这时候,对于空间语义是否存在异常,以及异常的具体问题在哪儿,可能不能完全依靠自然语感来判断,而是要在脑中想象文本所对应的空间场景,最好是通过画图的方式,在图上分析文本中各空间实体的方位关系,从而准确地判断文本中的空间方位异常情况。这种“空间场景还原”分析法,在分析交通事故和体育动作语料中可以起到很好的作用。
示例25 公诉机关指控,2018年7月16日17时许,被告人张伟元驾驶号牌号码为沪C4XXXX大型普通客车沿上海市嘉定区新源路由北向南行驶至曹安公路路口处遇绿灯,遂右转弯由西向东行驶,适逢被害人李红英骑行牌号为XXXXXXX电动自行车沿新源路西侧非机动车道由北向南行驶,由于张伟元未按规定让行,致所驾车辆与李红英所骑电动自行车相撞,致两车不同程度损坏,李红英跌地被碾压后当场死亡。
该段语料对应的空间场景如下图所示:
由图示可知,句中客车先“由北向南行驶”再“右转弯”,转弯后的行驶方向是“由东向西”,与句中“右转弯由西向东行驶”在语义上形成明显的冲突,因此,该句空间语义异常的原因可归入“语义冲突”。具体的异常文本片段标注如下表所示。
| S1 | P1 | E1 | 与 | S2 | P2 | E2 | 异常类型 |
|---|---|---|---|---|---|---|---|
| 客车 | 沿上海市嘉定区新源路由北向南 | 行驶 | 与 | 客车 | 右转弯由西向东 | 行驶 | 语义冲突 |
注意:P2也可以填写:“曹安公路路口右转弯由西向东”,从语义所指明确清晰的要求来说,这样填写,P2的信息量更大,更清楚,但这样填写,要求跨小句增补成分,要在上一个小句中,准确找到“右转弯”这个转向信息所依托的参考位置。对于标注操作来说,有一定难度。所以,不作为必须达到的标注要求。P2目前的标注结果,是在标点句范围内所能找到的语义所指明确清晰的最为完整的成分。
Tips
文档最近更新时间:2022-06-08
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。