在根据空间方位义情况对句子进行分类的任务中,标注人员和审核人员碰到了一些有代表性的问题,现归纳如下,请标注人员在后续标注过程中注意采取正确的处理方式。
句子中有的方位词用法已经虚化,或者是表示时间相关的意义,不是表达物理空间方位义,比如“在……条件下、营业中、天亮前”中的“下”、“中”、“前”等方位词,都属于这种情况。如果句子中存在这类方位词(不妨称为“假方位词”,记作FF),标注者需要注意,在判断句子归属时分情况对待。
1) 如果FF本身的用法是正常的,那么,就观察句子中其他表达方位词、处所词、趋向动词等表达的物理空间方位义是否正常,根据整句的空间方位义是否正常来对句子进行归类。下面示例来自task1标注指南。
示例16 仰卧,整个身体在放松的状态下躺在地面或垫子上,目视上方,双手放在身体两侧,自然摆放。
【句中高亮方位词“下”,在此处不表达方位义,但其用于“在……状态下”这种用法本身是正常的,这部分就不作为整句空间方位义正常与否的判断依据。而该句中的“地面或垫子上”、“上方”、“身体两侧”等表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,因此,句子应归入“完全正常”。】
示例17 宋钢后来差不多每个月都会进城,他不再是一个人来了,他是在爷爷进城卖菜时,跟着一起走来。爷孙两个人进城的时候天还没有亮,李光头还在睡梦里。走过南门进了城,宋钢就会捧着两棵新鲜的青菜跑在天亮前的街道上,跑到李光头的家门口,把青菜悄悄靠在门上,再跑回天亮后的菜市场,坐在卖菜的爷爷身旁,替爷爷叫喊。
【句中红色高亮方位词“前”和“后”,在此处不表方位义,是表示时间义,“天亮前”“天亮后”这些用法本身是正常的,这部分就不作为空间方位义正常与否的判断依据。该句“街道上”、”门上“、”身旁“表示空间方位,整句有空间方位信息,且句中实体成分的空间方位信息表达无误,空间方位语义可以理解,因此,句子应归入“完全正常”。】
2) 如果FF本身的用法是错误的,如“心情旁”、“天亮上”等,属于方位词的错误搭配,那么,句子就归入“显然异常”。下面示例来自task1标注指南。
示例13 十八年过去了。有一天,鲁滨孙忽然发现海边沙滩上有人的脚印。他恐惧万分,猜想这一定是附近陆地上的野人留下来的。他担心这些野人会来吃掉他。于是他在住所前的空地上插下杨柳桩子,又将羊群分成几个地方圈羊。在这种不安的心情旁又生活了两年。鲁滨孙再一次看到野人留下的生火的痕迹和满地的人骨,这使他联想到他们野蛮的宴会。鲁滨孙在恐怖之中开始考虑怎样对付这些可能出现的野人。
【例句中的“心情旁”是搭配错误,方位词“旁”不能跟“心情”搭配。类似的错误还有“天亮上、天亮下”等。句子中有这类情况,应归入“显然异常”。】
待标注语料可能比较长,其中包含几个自然句,各句中都有空间方位义,独立看其中一处的空间方位义,可能是对的,也可能是不易理解的,碰到这样的情况,都需要在整个句段的基础上,对文本所描述的空间方位语义,进行整体的把握,构建空间场景,判断该空间场景在实际物理世界中能否成立,能成立,则句子就归入正常类,不能成立,则归入异常类。下面分别看交通文本和地理百科文本中的相关例子。
1) 交通类文本中的例子
交通类文本中有大量的“由X向Y”格式的表达,比如“由东向西”“由南向北”,一般这种格式中,X和Y是对立的方向(“东”和“西”、“南”和“北”),但语料中也会出现X和Y不是对立方向的情况,例如,“由西向南”,这种情况要根据文本中的空间描述来做具体分析。标注者在根据句子空间方位义情况判断句子的归属时,需要根据整句的描述设想一下现场的情况,评估整句所描述空间场景在实际中的可能性。
(1) 经审理查明,2020年11月19日16时45分许,被告人杨某某驾驶牌号为沪EGXXXX的重型自卸货车沿上海市浦东新区盐朝公路由东向西行驶至川南奉公路路口向北遇绿灯右转弯时,适逢被放行的被害人朱某某(女性,1954年出生)驾驶自行车沿盐朝公路由南向西行驶至此,双方发生碰撞,造成朱某某当场死亡及自行车损坏(物损人民币241元)的道路交通事故。
【句中前有“沿盐朝公路由东向西”,后有“沿盐朝公路由南向西”,两处描述冲突,不可同时存在,因此,句子应归入“显然异常”】
(2) 公诉机关指控,2018年7月16日17时许,被告人张伟元驾驶号牌号码为沪C4XXXX大型普通客车沿上海市嘉定区新源路由北向南行驶至曹安公路路口处遇绿灯,遂右转弯由西向东行驶,适逢被害人李红英骑行牌号为XXXXXXX电动自行车沿新源路西侧非机动车道由北向南行驶,由于张伟元未按规定让行,致所驾车辆与李红英所骑电动自行车相撞,致两车不同程度损坏,李红英跌地被碾压后当场死亡。
【单看这句话“右转弯由西向东行驶”是成立的,但是句中客车先“由北向南行驶”再“右转弯”,可推知客车的行驶方向是“由东向西”,因此,应归入“显然异常”。】
2)地理百科类文本的例子
在对句子的空间方位语义情况做判断时,需要全局考虑空间关系是否成立,而不是局限于句中某个部分。请看下面的例子:
(1) 7月中下旬,亚洲上空西风带再次经历一次剧变,北移到最北位置。地面太平洋高压进一步向西向南扩展,高压脊线从北纬25°再次北推到北纬30°附近(北纬25°~35°),夏季风开始在华北盛行。至此,环流形势从初夏进入盛夏。
【例句中“向西向南扩展”单独看没有问题,但跟下文的“从北纬25°再次北推”放到一起,就明显有冲突,因此,句子应归入“显然异常”。】
句子中可能存在一些跟空间方位义无关的错误,主要有两类情况:
1)句子不完整
有的句子因计算机处理的原因,造成了句子明显是不完整的情况。这种情况如果不影响句子主体部分空间语义表达,就先忽略不处理。一般这种情况主要是句子开头或结尾出现了异常。
(1) 句子开头是单个汉字带标点符号,或者也可能是两三个汉字带一个标点符号,让人感觉句子前面的部分被错误截断了。下面示例来自task1标注指南。
示例18 响,只见一辆黑色面包车落入水库,车头已没入水中,车辆后半部分尚在水面之上。他没有片刻犹豫,跳下车飞奔过去,从4米多高的堤坝跳入水库,奋力游向正在下沉的车辆。靠近后,他发现落水车辆前门的车窗未关,立即从窗口将一个小男孩拉出水面、救到岸边。随后,他立即游回去从窗口拉出一名妇女和一个小女孩。施救过程中,由于被救者在水里扑腾挣扎,他沉浮好几次,才将她们托举上岸。
【句子开头的“响,”,明显感觉有问题,句子是不完整的,但是因为其后的句子内容是可以理解的,不影响对句子主体部分空间语义表达的理解,这个问题就可以忽略。标注时只针对句子中的空间方位语义信息,对句子进行归类。】
(2)句子结尾处是冒号,一般是像“说:” “道:”这样的情况,句子明显没有完,冒号后面的内容被截断了。跟上面的处理方式类似,如果冒号前的句义完整、清楚,标注时就忽略这种情况,只针对句子中的空间方位语义信息,对句子进行归类,而不是直接把这种句子归入“不适合用于计算机空间语义理解”类。
2)句子中有标点符号不规范、用词不准确、不得体等问题
SpaCE2022语料标注的目标是对句子中的空间语义进行理解,相对来说,对句子中与空间方位表达无直接关系部分的要求比较宽松,比如如果句子中有少量标点符号使用不规范,用词不是很准确,不得体,等等问题,不需要处理。但是,句子中如果存在明显的无争议的错误,比如句子中有错别字,则需要把句子归入“不适合用于计算机空间语义理解”类。
文档最近更新时间:2022-04-17
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。