(1)task1:根据语感判断一段中文文本中高亮词语所表达的空间语义信息是否有异常。(task1标注指南)
(2)task2:分析造成异常的原因具体是什么,包括确定异常类型和异常信息文本片段。(task2标注指南)
(3)task3:标注句中空间实体,空间实体的方位信息,与空间实体方位信息有关的事件(含时间)信息。
标注流程:
(1)通读整段;
(2)确认有空间信息的标点句(以下简称“SS句”);
(3)选取SS句中的空间实体(S),全部S都应标注;
(4)选取空间实体S的空间方位信息(P),S的全部P信息都应标注(详见3.2节);
(5)选取与空间实体方位信息有关的事件信息(E),跟S、P相关的全部E信息都应标注;
(6)选取与S、P、E相关的时间信息(T),跟S、P、E相关的全部T信息都应标注(详见第5节);
(7)对E做进一步事件角色信息标注(详见第4节);
(8)文本中跟S、P相关实体的同指关系标注(R)(参见“同指关系标注”);
(9)假S-P信息的标注(F)(参见否定信息标注)。
为方便记忆和称说,本文档将task3的S、T、E、P空间语义四要素信息标注概括为STEP信息标注。
关于S、P、E空间语义要素的说明,参见task2标注指南;
从标注顺序的角度讲,上述信息关系如下:
- P依附于S(标注时,先定S,再定P);
- E依附于S、P(标注时,先定S、P,再定E);
- T依附于S、P,E(标注时,先定S、P、E,再定T);
- R依附于S、P,用于标记文本中指称相同的实体成分,在S、T、E、P标完后,再标注R信息;
- F依附于S、P,用于标记S-P为虚假信息,在S、T、E、P标完后,再标注F信息。
标注对象主要是空间信息,其次是事件信息(含时间信息)。
空间信息指句中的空间实体及其空间方位信息。可以针对这些信息发问。典型的问题如下:
(1)某物(或某人)在何处?
(2)某物(或某人)某时在何处?
(3)谁使得某物(或某人)某时在某处?以及如何使得某物(或某人)某时在某处?
以上粗黑体字所代表的信息,就是task3标注任务关注的信息。包括:
(1)空间实体的静态方位信息和动态方位信息;
(2)影响空间实体空间信息的事件信息;
(3)跟空间实体空间信息和事件信息相关的时间信息;
在task3标注任务中,空间信息指S和P信息。句中的S和P信息是task3的首要标注任务。
例如:
(1)汤姆在院子里大喊,他平常放在床头的泰迪熊不见了。
S T E P 泰迪熊 平常 放 在床头 泰迪熊 不见 不在床头 上表的STEP信息,可以用于回答关于例(1)句中空间实体“泰迪熊”的如下问题:
(a)泰迪熊平常在什么地方?
(b)泰迪熊现在在什么地方?
句中的STEP信息有显性和隐性之分。
上表中第一条标注P是显性空间信息。其中,S、T、E、P信息都是从原文中选取词语填入的。
上表中第二条标注P是隐性空间信息。P”不在床头“是通过句中字面符号含义简单推理得到的。T信息在句中并无具体的时间义词语来表达。
task3标注任务以显性空间信息为主,适当关注隐性空间信息。
隐性空间信息受限标注原则 —— 隐性空间信息在填写时,需满足两个条件:
跟一个已填写的P信息直接相关;
跟一个E信息直接相关。
比如:
例(1)第2条标注的隐性空间信息,跟第一条标注的P信息(“在床头”)直接相关,是第一条P信息的否定信息。并且,这条信息中的E字段为“不见”,是文本中出现的信息。这意味着第2条标注的P信息“不在床头”可以直接由E信息“不见”推导得到。
之所以这样规定,是为了避免推理过度,标注过多的隐性空间信息(比如:泰迪熊平常不在院子里)
在task3标注任务中,事件信息E是次要标注任务。E信息的作用是说明S、P的方式、目的、原因等信息。
E信息的作用,可以通过对比不同事件来显现:
例如:
(2a)汤姆平常放在床头的泰迪熊不见了。
(2b)汤姆平常挂在床头的泰迪熊不见了。
(2c)汤姆平常藏在床头的泰迪熊不见了。
上面三个句子的E信息分别为“放、挂、藏”,而S、P、T信息则没有区别。E信息的不同,可以表示空间信息的细微差异:
“放”意味着“泰迪熊”在床头表面区域,处于“跟床头接触”的空间关系中;
“挂”意味着“泰迪熊”在床头上方区域,处于“未跟床头接触”的空间关系中;
“藏”意味着“泰迪熊”在床头位置,但不在床头表面,而是被某个物体“遮盖”了,未暴露在人的视线中。
跟task2任务不同的是,在task3任务中,要在标注E信息的基础上,进一步标注每个事件E的事件的语义角色(详见第4节)。
例(1)的E事件语义角色信息如下表所示:
E 主体角色 客体角色 空间角色 时间角色 …… 放 汤姆 泰迪熊 在床头 平常 不见 泰迪熊
- 所谓事件的语义角色,就是动词周围的名词性成分所起到的不同的语义功能。对这些名词性成分的不同语义功能的标注,有助于更全面地理解空间实体的空间方位信息之间的联系。
- 在事件语义角色的标注中,包含了空间实体(S信息)所充任的角色,空间方位(P信息)所充任的角色,事件时间(T信息)所充任的角色。
在task3标注任务中,时间信息T是次要标注任务。T信息依附于<S,P,E>,分为两类:
时值时间:指句中表达时间义的词语所负载的时间信息。如上面例中“平常”是时间义词语,即为时值时间。
参照时间:指未在句中明示的时间信息。具体又分两种参照方式:
注意:
- 句子的词序隐含了事件之间的顺序信息,可以由此推断句中事件的时序关系,确定时间范围。
- 标注T信息的优先顺序是:时值时间 > 参照时间( 事件时间 > 说话时间)。
空间实体S的标注要求比较简单。跟task2对S的要求基本一样。不过,也有几点需要注意:
句中的一个名词性成分是S,当且仅当它有P信息。比如例(2a)“泰迪熊”是S,而“汤姆”不是S。
选取S的具体内容时,遵循语义简明原则,即所选取字符片段,能区别于句中其他实体即可。
典型的S是现实物理空间中的实体。此外,也包括信息空间中的实体,虚拟认知空间中的实体。
如果没有针对句中实体的空间信息发问的动机,则该实体不是S。
例如:
(3)照片上那只狗被拴在一根柱子上。
(4)这句话似一幢楼塌下来压在我们头上,……。我们似乎走进了一条长长的黑地道……
(5)史婆婆道:“你要是伤了我徒儿性命,我这就上碧螺山去,一辈子也不出来了。”
(6)…… 周冠仁从事法医工作十几年来,养成了一出家门就将一切抛在脑后的性格。
例(3)是一个信息空间,“狗”在信息空间“照片”中,也属于需要描写其P信息的空间实体S。
例(4)是虚拟想象的场景,同时也是有修辞色彩的句子。其中“一幢楼”,“我们”都是S,有相关P信息。
例(5)是虚拟条件句,“我”的空间信息“上碧螺山去”尚未发生,将来条件得到满足时可能发生。
例(6)中“周冠仁”不是S,因为无法以此句信息为基础,提出有关该实体的空间方位信息问题。
并列结构中的多个空间实体:
名词词组中的中心名词是S的核心信息,必须填入S;其他修饰中心名词的修饰性成分,是否需要填入S,根据“语义简明原则”的精神,以是否对S有指别度(identifiability)价值作为判断标准。比如上面例(3)“一根柱子”的“一根”,对于S的指别度没有影响,只说“柱子”,也知道是文本中的哪个实体,就不要把“一根”填入S。
空间实体在文本中可能以指代词形式表达(如人称代词“你、我、他”),也可能以指称词形式表达(如姓名、机构名等专名)。
指代词和指称词的同指关系(co-reference),应以“ = ”形式标注,如例(5)中“ 我 = 史婆婆 ”。
同指关系将单独标注,不在S、P、E、T中分别标注(参见第6节操作说明)。
注意:
- 只需标注有P信息的空间实体的同指关系。文本中两个实体同指,如果与空间方位信息无关,则不需标注同指关系。
- 有同指关系的空间实体,共享STEP信息。两个或多个同指空间实体S的STEP信息共享,意味着有同指关系的空间实体S,只需要标注其中一个空间实体S的STEP信息,不需要重复标注,除非表达同指关系的是集合型(复数)名词组,内含多个独立空间实体。这种情况可能需要分别标注各个空间实体的STEP信息。比如“两个人 = 聂性初 马继平”,尽管标注了“两个人”与“聂性初和马继平”的同指关系,但“两个人”跟“聂性初”,“两个人”跟“马继平”,并不是平等关系,而是包含关系,因此STEP信息并一定不能共享,需要根据文本的实际情况,分别作为3个空间实体S,分别标注3条STEP信息。
- 同指关系标注,以指代词和指称词的同指为主,其他名词组(如“数量词+名词”)的同指关系,如果标注后,有助于简化、减少整段文本中STEP信息标注量(即共享STEP信息),也应该标注。
- 句中完全同形的词语多次重复出现(比如“教室里”在文中出现多次),如果所指不跟其他词语发生歧义理解情况,则不需要标注同形词语的同指关系,默认同形即同指。
- 句中如果存在同形异指的情况,需要标注同指关系为“否”(false),表达句中两个同形词语并不同指。(参见同指关系标注操作方法)
空间方位P的标注是task3标注任务的重中之重。包括多个具体项目,需要根据句中实际信息出现情况来标注。下表是P信息的细化信息项(特征),以及取值的表达形式(用词语组合模式来表示)和具体含义的说明。

关于表1的说明:
(1)表中“介词、方位词、趋向动词”等是沿用一般《现代汉语》教科书中定义的汉语词类名称。“处所词”指有处所语义的词语,比如“北京、图书馆、人群、太空、未名湖、郊外、四处”等等,处所词能跟“在、到、从”等有空间方位表达功能的介词组合,能跟“上、下、左、右、前、后、里、外”等方位词组合。
(2)“部件处所”特征,专门针对一个空间实体作为一个更大空间实体的部件,描述其空间方位。关于一个空间实体的位置信息,有两个描述视角,一个是以空间实体周围的外部物体为参照物时的空间信息,也就是表中第1项空间特征“处所”的含义,例如:“鼻子在嘴的上方”,其中“鼻子”的处所信息是“在嘴的上方”;另一个视角是以整体为参照物来描述其中部件的方位,例如:“鼻子在脸的中间”,以整体“脸”为参照物来描述“鼻子”的方位,就需要标注“部件处所:在脸的中间”。参见示例10。
(3)“部位”特征,指从一个空间实体看其内部组成部分的位置。典型的场景是交通工具的不同部位的描述。一般是交通工具发生碰撞事件时,指明具体的碰撞位置。例如“货车右前部” “小轿车左后部”等。参见示例12。
- 描述人体动作时,也经常会涉及到“部位”信息。例如:她回到那死者旁边,两手抄在死者的腋窝下。
- 这个例句中后半部分的空间方位信息标注,需要借助“部位”特征来完成:
- 实体:她,部位:两手,处所:在死者的腋窝下,E:抄
- 需要注意的是,这条STEP信息中,“处所”是指“部位”所在的位置,而不是指“实体”所在的位置。
- 在有“部位”的STEP信息中,其他P信息小项的直接语义联系都指向“部位”,跟“实体”的联系是间接的。
(4)“朝向”特征,涉及到空间实体自身的特性,只有空间实体的不同侧面功能不同时,才有描述“朝向”的需要。比如:一块自然界的石头没有朝向;而一个由石头雕刻而成的人体石雕则有朝向。因为人体作为一个立体实体,其不同侧面是有不同功能的;表达一个空间实体的“朝向”一般有两种方式:一种是借助方向表达,比如“床头朝东”;另一种是借助另一个空间实体来表达,比如“背对着镜子”。两种表达通常都需要加介词(形式标志)。“朝向”特征,既适用于静态空间实体,也适用于动态空间实体。前者没有“方向”特征,后者则既有“朝向”特征,也同时有“方向”特征。比如,假设甲和乙面对面站立,甲面朝南,乙面朝北,甲以后退方式离开乙,那么,以乙的观察视角来描述甲的空间方位信息,就是甲的位移“方向”为北,甲的自身“朝向”为南。
(5)“路径”特征,包括实际位移和静态的路线(相当于想象的位移)。“路径”取值是原文中的字符串。“路径”值有3种可能性:
(I)用形状表达路径,如“之字形”;
(II)用有“通路”“通道”功能的处所词表达路径,如“河西走廊、101国道、G6高速”;
(III)用位移过程中经过的多个空间实体组成的列表表达路径,如<北大东门,中关村北站,清华西门>。多个实体组成的路径,可以通过“并置”操作填入“路径”字段(参见“拼接与并置”)。
注意:一条路径有起点,有终点,但路径的“起点”和“终点”,不能填入“起点”和“终点”字段(表1中的第4、5项信息)。如果S有“起点”和“终点”信息,表示S是一个移动的空间实体,“起点”和“终点”是对S位移状态的描述。路径的“起点”和“终点”,只能放在“路径”字段中描述。比如,“北京地铁4号线从安河桥北到天宫院,全长50公里”。空间信息标注:空间实体S:北京地铁4号线,路径:<从安河桥北,到天宫院>
“路径”字段有两个用途:
- 一个用途是描述位移空间实体S的路径信息(此时“路径”的含义是:S移动时经过的路径);
- 另一个用途是描述一个作为路径的空间实体S的路径节点构成情况(此时“路径”的含义是:S本身就是一个路径);
- 前一种使用场景,“路径”的取值为形状值(如“之字形”),或者“通路”“通道”类处所词;
- 后一种使用场景,“路径”的取值为一个空间实体组成的列表;
- 特殊情况下,表达“路径”组成情况的列表中也可以只有一个空间实体(参见示例2)。
(6)“形状”特征,可以起到帮助空间实体定位的作用。例如:“一个花圃是圆环形的,花圃中每隔4米放置一个花盆”。句中这些花盆之间的相对位置关系,就需要借助花圃的形状“圆环形”来说明。“形状”特征有两种使用场景:
- (I)单个空间实体的形状 (如上面“花圃”的例子)
- (II)多个空间实体构成的形状(如:公司总部大楼A座、B座、C座,排成了一个“品”字形)
如果需要描述多个空间实体共同构成的形状,这些空间实体可以并置方式填入S(参见“拼接与并置”)。“形状”取值都是原文中的字符串。
(7)“距离”特征是二元关系型特征,涉及到两个空间实体。两个空间实体以并置方式填入S(参见“拼接与并置”)。距离的取值有两种情况:一是文本中有表达距离义的具体词语,一般是“数词+单位词”形式;另一种是定性描述:用“远、近、变远、变近”四个系统预定义关键字来表达。如下表所示:空间实体“手术室”和“住院部”的距离“200米”是从文本中选取的片段(填入“距离1”字段),“急诊”与“医院大门”的距离“近”是系统预定义关键字(填入“距离2”字段)。“距离1”和“距离2”两个字段,都需要通过“添加字段”操作添加,然后再标注具体取值(参见“添加字段”操作说明)。
S 距离1 距离2 手术室 住院部 200米 急诊 医院大门 近 (8)以上P信息项(10个特征),跟空间实体S的对应关系如下表所示:
S 特征1、2、3、4、5、6、7、8 特征9 特征10 单个实体 √ √ × 两个实体 √ √ √ 多个实体 √ √ × S-P对应关系及语义解释的5种情况:
类型 S P S-P的语义解释 说明 适用P特征 1 s1 p_value s1的P特征值是p_value 分配式 特征1-特征9 2a s1, s2 p_value s1的P特征值是p_value
s2的P特征值是p_value分配式 特征1-特征8 2b s1, s2 p_value s1和s2的P特征值是p_value 加合式 特征9-特征10 3a s1, s2, s3 p_value s1的P特征值是p_value
s2的P特征值是p_value
s3的P特征值是p_value分配式 特征1-特征8 3b s1, s2, s3 p_value s1和s2和s3的P特征值是p_value 加合式 特征9 说明:表中s1,s2,s3指具体的空间实体,p_value指一个P信息项的取值。类型2代表两个实体的情况;类型3代表多个实体的情况。
- P信息项在填值时,应包含句中跟处所词一起出现的介词、趋向动词等指示空间方位信息的词语。这个要求跟task2中SPE标注的要求一致(参见task2标注规范5.1.3“P要不要含介词”)
事件角色信息标注,是以动词为中心,描述动词周围在事件中承担不同语义功能的成分。换言之,这些成分在事件中扮演着不同的角色。比如表示动作的发出者,动作的受影响者等,这类角色主要由名词或名词词组来充当;还有的成分表示动作发生的空间场所,动作受影响者所在的位置等空间信息,这类空间角色主要由处所词、介词+处所词、趋向动词+处所词等语言单位来充当。
事件中的语义角色有不同的分类体系,分类粒度粗细有所不同。本课题设计了一个7类语义角色的标注体系(参考附录1,进行了大幅简化)。角色名称参照命题语义标注语料库(Propbank)的方式;角色含义参照北京大学计算语言学教育部重点实验室在国家973项目“面向三元空间的互联网中文信息处理理论与方法”(项目编号:2014CB340500)子课题4:“融合三元空间的中文语言知识与世界知识获取和组织”中所用的定义(参考附录2)。
| 序号 | 角色标记 | 对应论旨角色 | 含义 |
|---|---|---|---|
| 1. | arg0 | 施事(共同施事)、当事(间接当事) | 核心角色1:主体 |
| 2. | arg1 | 受事、系事、结果、对象、内容 | 核心角色2:客体 |
| 3. | arg2 | 与事 | 核心角色3:受益/受损者 |
| 4. | arg3 | 工具、材料、方式 | 外围角色1:伴随者(准外围) |
| 5. | argM | 事量、范围、原因、目的 | 外围角色2:环境成分(真外围) |
| 6. | argS | 起点、终点、路径、方向、处所 | 外围角色3:空间角色 |
| 7. | argT | 起始、结束、时点、时段 | 外围角色4:时间角色 |
注意:
(1)并不是句中所有的谓词,都要标注其语义角色。仅需针对跟S、P有关的E事件,标注其角色信息。
(2)E的事件角色描写,尽量在标点句范围内,选取符合上表中7个角色要求的成分。角色的取值应该直接从原文中选取字符片段。
(3)argM泛指修饰性的外围语义角色(Modifier)。argM比arg3更外围,跟事件核心动词的关系更松散。比如:用刀砍了两天树。“刀”是动词“砍”的工具角色,属于外围语义角色,但跟”两天‘这个事件时间量成分相比,“刀”跟“砍”的关系更紧密。因为“刀”能组合的动词范围比较小,“刀”跟如“等”“听课”之类的动词就没有组合关系,无法充当“工具”角色,而“两天”跟动词组合的范围就很大,可以“等两天、听两天课”,所以,如果针对“用刀砍了两天树”来标注语义角色,则“刀”标注为动词“砍”的arg3,而“两天”则标注为argM。
(4)E如果是动词的离合用法,应将分离的成分(不连续字符)拼接成一个完整单位。
(5)标点句内的角色如果只有指代性成分(如人称代词、身份词、绰号等),则填入指代性成分即可,不需要跨句寻找到指称性成分(如姓名,单位名称等专名)。
例如:
- (7)他昨晚在宾馆洗了两次澡。
- (8)吴仲荣掏出办公室的钥匙,放到桌上,他缓缓地站起来,向门口走去。
上面的高亮成分是这3个例句的E成分,其事件角色信息标注如下:
句子 E arg0 arg1 arg2 arg3 argM argS argT (1) 洗 · 澡 他 两次 在宾馆 昨晚 (2) 站 他 所有角色都是在标点句范围内选取跟当前E谓词相关的成分,不应标注与E无关的其他成分。比如例(3)中“办公室” “钥匙” “桌上” “向门口” 等,都跟“站”这个动作行为无关,而且也不在“站”所在的标点句中,因此不能标注在 arg0 到 argT这些角色中。
- 例(7)中“洗 · 澡”表示句中是动词离合用法:“洗”和“澡”不连续出现,但却是一个整体单位(一个动词);上表中为显示清晰,用“·”分隔,表示两个不连续成分拼接。在实际标注中并不需要手工添加“ · ”号(参见下文操作说明“拼接与并置”部分)。
- 例(7)中argS(空间语义角色)的值是“在宾馆”,是“介词+处所词”格式。跟P信息项中填值需要把介词、趋向动词等指示空间方位信息的词语填入一样,事件角色中argS的值,也应把句中跟处所词一起出现的介词和趋向动词等指示空间方位信息的词语填入(参见task2标注规范5.1.3“P要不要含介词”)。
- 例(8)中arg0填写标点句内的人称代词“他”即可。不需要跨句到上文找到“他”的指称词“吴仲荣”,即不需要在arg0等事件角色中填写 “ 他=吴仲荣 ”。指代词与指称词的同指关系,在专门设置的“同指关系”区标注,不在事件角色信息中重复标注(参见下文操作说明)。
时间信息标注,是以P信息为基准,描述每个P信息伴随的T信息(参见2.3)。
如果一句话标注了多个P信息(参见表1),则每个P信息都应考虑标注对应的T信息。
T信息在标注界面上分为3个字段来描述:原文时间,参照事件,参照时间。
“原文时间”指从原文中选取时间义词语来表示时间信息,属于T信息中的“时值时间”;
“参照时间”包括两种:一种是参照说话的时间,一种是参照事件的时间。
如果是参照说话的时间,则T信息从标注界面上“参照时间”字段对应的下拉菜单中选取,有3个系统关键字可供选择:“说话时”、 “过去“、 ”将来“ 。
如果是参照事件的时间,则T信息需要分两步填写:
下面表3是关于T信息类型、标注界面时间字段、时间值具体取值的说明。
| 序号 | 类型 | 时间字段 | 时间值 | 示例 / 说明 |
|---|---|---|---|---|
| 1. | 时值时间 | 原文时间 | 时间义词语 | 上午、13:15,2022年6月25日,儿童节,夏至 |
| 2. | 说话时间 | 参照时间 | 说话时 | 参考语境说话人时间信息,“说话时”为系统关键字 |
| 3. | 说话时间 | 参照时间 | 过去 | 参考语境说话人时间信息,“过去”为系统关键字 |
| 4. | 说话时间 | 参照时间 | 将来 | 参考语境说话人时间信息,“将来”为系统关键字 |
| 5. | 事件时间 | 参照事件+参照时间 | V之前 | 参考事件V的时间信息,V是句中动词 |
| 6. | 事件时间 | 参照事件+参照时间 | V之后 | 参考事件V的时间信息,V是句中动词 |
| 7. | 事件时间 | 参照事件+参照时间 | V之时 | 参考事件V的时间信息,V是句中动词 |
| 8. | 事件时间 | 参照事件+参照时间 | V之间 | 参考事件V的时间信息,V是句中动词 |
注意:
- 句中若字面上有“现在”类时间词语,并且其所指时间就是说话时间,但T信息类型仍优先归属”时值时间“,需从句中选取“现在”填入“原文时间”字段对应的文本框。
- T信息不是task3标注的主要内容。为简化标注操作,约定:
- (1)T为空时,代表时间信息未知、或不受关注;当T信息中填值时,表示该信息值得强调。
- (2)如果已填写E信息,同时T信息为空,则代表T是“E中所填动词V之时”。
- (3)如果未填写E信息,同时T信息为空,则代表T是“常态”(泛时)或者时间信息不受关注。
- (4)上表中第1类时间信息,必需填入T信息中(除非跟S、P无关)。
- (5)上表中第2类到第8类时间信息,均可不填。
- (6)填写T信息遵循“非必要,不需填”原则:T信息可以不填写,除非T信息对于说明S、P信息比较重要,即有区别价值,如果不填T信息,会导致S、P信息不清楚,与其他状态信息发生混淆。
以上关于S、T、E、P信息标注的说明,均以肯定信息真实性为假设条件。
文本中也会出现对空间信息做否定性陈述,或字面上不一定有否定表达,但从推理可知空间信息为假的情况。
对空间信息为假的情况,采用F信息标注(Facticity),取值为false(f),标注当前STEP信息为假。
例(1)汤姆在院子里大喊,他平常放在床头的泰迪熊不见了。
STEP-F信息标注如下:
序号 S T E P F 1 泰迪熊 平常 放 在床头 2 泰迪熊 说话时 不见 在床头 f 注意:F信息的默认值(default value)是“真”,以t(true)标记,一般不填。只有当F信息值为“假”时,才填写f标记。f标记的含义是,当前 S的空间方位信息P 为假。
表4:Task3标注信息标签数量总表
信息大项 大项数量 信息小项 小项数量 合计 S 1 0 1 E 1 arg0, arg1, arg2, arg3, argM, argS, argT 7 8 T 0 " ",说话时,过去,将来,之前,之后,之间,之时 8 8 P 0 处所,部件处所,部位,起点,终点,
方向,朝向,路径,形状,距离10 10 F 1 0 1 R 1 0 1 合计 4 25 29
STEP信息标注原则1:信息内容最大化
Task3标注任务就是针对一段有空间信息的文本,尽量全面、充分地将文本中显性和隐性的空间信息提取出来,按照本文档所定义的29个信息项的要求,逐一进行标注(有某项目则标,无某项目则不标)。其中S和P对应的11个信息项为重点标注项目。以显性P信息标注为主,隐性P信息标注为辅。
STEP信息标注原则2:表达形式最简化
Task3标注中,如果P信息相对于S信息是同类项分配关系,则STEP只需标注一次,不需重复标注。比如:
Task3标注中,不要通过转换方位视角来标注隐性P信息(参见隐性空间信息受限标注原则)。比如:
例句:“某甲站在某乙的左边”。
STEP标注中,隐性空间信息遵循受限标注原则
标注1:以某甲为空间实体S,则某甲的P信息为“在某乙的左边”;
标注2:以某乙为空间实体S,标注相应的P信息“在某甲的右边”。
标注2是不需要的隐性P信息。
受task3标注工具的限制,所有标注信息均需从原文中选取字符,或由程序提供预置关键字。一般来说,仅有例句中的文本字符,无法实现标注2。因为文中并没有“右边”这个词。但是,假如“某甲在某乙的左边”这个片段所在的整个文本中出现了“右边”,技术上讲,标注2是可以实现的。因此,需要根据“隐性空间信息受限标注原则”规定:不允许在标注时选取(实为借用)“右边”这个片段来构建一条STEP信息,也就是说,标注2“某乙在某甲的右边”是错误标注。
操作界面:
(1)操作面板:操作界面左侧是语料文本显示区(在上)和“S-P-E参考信息显示区”(在下),右侧是操作面板。面板初始界面上有3个“新增×××”导航按钮(下图红色框所示),分别点击后,会对应显现出3个信息标注区:
- S-T-E-P整体信息标注区(逐条标注文本中的S、T、E、P信息,其中重点标注内容是S和P信息)
- 事件角色信息标注区(标注E的arg0、arg1、arg2、arg3、argM、argS、argT角色)
- 同指关系标注区(标注空间实体的指称关系)
(2)标注显示:在3个“新增……”按钮的上方,有标注内容实时显示区(图中“暂无内容”所在文本框区域)
(3)内容排序:在标注显示区下方,有3个排序按钮,分别可以对标注结果按照3个标注排序,包括:
- 按照词语在原文中的顺序排序
- 按照标注时创建条目的顺序排序
- 按照“STEP整体信息、事件角色、同指关系”3个组排序。
(4)数据层级:由大到小顺序:记录(record) → 字段(field)→ 值(value)
- 一条数据记录由若干个字段构成;
- 一个字段如果在原文中有相应的信息,就要填入一个值(词语)。
- 记录(record):上面框图的全部信息,代表“S-T-E-P”一条数据记录,在框图左上角的“S-T-E-P整体信息标注 [2]”,表示这是第2条记录;
- 字段(field):框图内从上往下用短线分隔了4个区,分别对应S、P、E、T信息标注区,最后有一行“添加字段”,用于增加不太常用的字段。在框图中显示的“实体S” “处所” “起点” “终点” “方向“ ”朝向“ ”事件E“ ”原文时间“ ”参照事件“ ”参照时间“ 等,都是同一条记录的不同字段名称,每个字段占一行;
- 值(value):字段名称后对应的文本框中,就填写字段的值。标注时,主要就是从语料文本中选取合适的文本片段,作为各字段的信息值,填入文本框中。
操作顺序:
step1:在S-T-E-P整体信息标注区
step1-a:标注S信息,在语料原文中选取空间实体文本片段,填入“实体S”对应的文本框;
step1-b:标注P信息,选取合适词语填入空间特征(处所、起点…)对应的文本框;
step1-c:标注E信息,选取S-P对应的动词,填入“事件E”对应的文本框;
step1-d:标注T信息:
- 如果原文中有时值时间,从文本中选取词语,填入“原文时间”对应的文本框;
- 如果原文中没有时值时间,参考时间为“说话时”,则从“参照时间”下拉菜单中选取填入。
- 如果参考时间为原文中事件,则先从文本中选取动词,填入“参照事件”对应的文本框,然后在“参照时间”下拉菜单中选取合适的参照时间值“之前”“之后”之间“”之时“等。
step1-e:标注F信息:若当前S-P信息为假,在“添加字段”下拉菜单选取“事实性”,添加false标记。
step2:在事件角色信息标注区,选取当前S、P所在标点句内的事件语义角色,填入角色对应文本框;
事件谓词E要填入“谓词来源”字段,该字段的下拉菜单中列出了已经填写的全部STEP记录,谓词E从中选择一条填入。
step3:在同指关系标注区,选取文本中指称相同的S成分,填入“同指片段”对应文本框;
同指片段从原文文本中选取;
同形同指是默认情形,不需要在同指片段对应文本框中标注;
两个异形同指的片段,在填入文本框中时,采用“并置”操作,而不是“拼接”(参见下文拼接与并置操作说明)。
两个同形异指的片段,如果需要强调其异指,则标注分为两步进行:
- 在“同指片段”中选取两个同形的片段(记作A),以“并置”方式填入;
- 在“添加字段”下拉菜单中,选取“同指事实性”添加(即加上 false 标记);
- 完成上述两步后,当前同指片段的关系即为 A ≠ A。
异形同指有一种特殊的情形,可以表示为“A = B C”,其中A 是集合总称性成分,通常是复数性指代词,比如“他们” “他们俩”;B、C是集合的成员性成分,比如“阿Q 小D”。同指关系为:他们俩 = 阿Q 小D。在填入“同指片段”文本框时,“阿Q”和“小D”这两个成分要以“拼接”方式填入,不能以“并置”方式填入。如果以“并置”方式填入,则同指关系变为: 他们俩 = 阿Q = 小D。这就不符合实际情况了。对于 “A = B C”型同指关系,标注分为两步进行:
- 在”同指片段“中先填入A,再以”并置“方式填入B;
- 然后选取C,以“拼接”方式,将C合并到B之后,得到 A = B C 这样的同指关系,其语义相当于:A= B 和 C
- 需要注意的是,在 “A = B C”这种同指关系中,A、B、C都只能是原文中的连续片段,不能是由非连续成分拼接而成的成分。假设 B = B1 B2,且B1和B2是原文中的不连续片段,则“A = B C”实际上就变成了 “A = B1 B2 C”,这样,语义(指称)关系再次发生改变,不再是“A = B 和 C”,而是变成了 “A = B1和B2和C”。因此,在“A = B C”同指关系的标注中,A、B和C均不允许是由拼接操作构成的成分。例如:“他们俩 = 未庄网红阿Q 小D” 这个同指关系中,如果“未庄网红” 跟 “阿Q”是以拼接方式填入“同指片段”文本框中的,那么,同指关系就成了:他们俩 = 未庄网红 和 阿Q 和 小D,即等号右侧,包含3个指称词,无法跟“他们俩”同指,同时,“未庄网红”跟“阿Q”也不再是同一个指称对象了。这样,同指语义关系就无法成立。
注意事项:
- S-T-E-P整体信息标注区,从上到下分为4个子区,分别对应S、P、E、T的信息填写。
- 为使标注区域版式简洁,其中P区域没有把表4中P信息10个小项全部列出,而是预置了其中比较常见的5项:处所、起点、终点、方向、朝向。另外5项,出现频次相对较低,如果需要标注,可以通过“添加字段”的方式,添加到S-T-E-P整体信息标注区,然后再填写相应信息。
- F信息的出现频次也较低,如果需要标注,也通过“添加字段”方式,添加到S-T-E-P整体信息标注区。添加时在下拉菜单中选择“事实性”,添加后程序自动为F信息项赋值为false。
下表是“添加字段”菜单项对应的待标注信息项,以及添加一个字段后相应的操作说明:
序号 信息大项 信息小项 “添加字段”菜单项 操作 1 P 部件处所 部件处所 从原文中选取片段填写 2 部位 部位 从原文中选取片段填写 3 路径 路径 从原文中选取片段填写 4 形状 形状 从原文中选取片段填写 5 距离 距离1 从原文中选取片段填写 6 距离2 下拉菜单选项 [远、近、变远、变近] 7 F 事实性 无
“距离”取值有两种情况:
- 如果原文中有关于两个空间实体距离的具体表述,则相应文字内容填入“距离1”字段;
- 如果原文中没有,但距离信息可以推知,则用“远、近、变远、变近”来描述,填入“距离2”字段。
- “距离1”和“距离2”这两个字段,都需要通过“添加字段”下拉菜单选取添加。
操作方法:
操作要点:
要点1:拷贝、粘贴、修改、删除、存储 —— 这5个基本操作均为鼠标点选操作。
要点2:“删除”功能针对不同层级的数据,操作有所不同:
- 点“删除”(在“克隆”的右侧):表示删除当前记录(record),即删除整个信息标注区;
- 点“删”:表示删除当前字段(field),即删除字段名称及其同一行文本框;
- 点 × 号:表示删除当前值(value),即删除一个文本片段。
- 有点意外
:点击3个信息标注区右上角的 × 号,表示关闭当前标注区,不是删除。
要点3:
保存字段值:点击“存”,表示保存每个字段的值;
保存记录:点击“保存”(在“克隆”的左侧),表示保存当前数据记录(全部字段及字段值);
- 点击“保存”相当于自动点击了全部的“存”(即自动保存记录中每个字段和字段值)。
如果没有点击“存”,也没有点击“保存”,填入内容将不会被记录!!!
要点4:新增与克隆 ——
功能 操作 界面 新增记录 点击右侧 按钮 新增STEP整体信息标注 | 新增事件语义角色标注 | 新增同指关系标注 新增字段 点击右侧 + 号 克隆记录 点击右侧 “克隆” —— 新增记录:为数据表增加一条新记录(record);
—— 新增字段:为记录添加一个新字段(field);
—— 克隆记录:复制当前记录(STEP整体信息),并新增一条同样内容的新记录。
(1)需要为一个新的S标注STEP信息时,使用“新增记录”功能; (2)需要为一个现有的S增加同类字段新的P信息时,使用“克隆记录”功能; (3)需要为一个现有的S增加更多字段表达P信息时,使用“新增字段”功能; 在一条STEP记录中,字段不能重复,比如“处所”、”路径“、”形状“等只有一个(界面上只有一个)。
一个S不能有两个“处所”信息。表达一个S的两个处所信息,标注方法有以下两种:
两个“处所”信息在两条STEP中表达;
在“处所”字段中用“并置”方式列出两个P信息。
关于“并置”操作,参见下面↓↓↓
拼接:点击⊕加号,把当前拷贝字符串与文本框中原有字符串进行拼接,合并为一个单位。
并置:点击“填入”,把当前拷贝字符串与文本框中原有字符串并置,使文本框内容为两个并列单位。
- 以上面的例子来说,如果在原文中选取词语“姐姐”后,点击⊕加号,就是跟文本框中已有的“阿曾”拼接,成为“阿曾姐姐”,仍然是一个S;点击“填入”,就是跟文本框中已有的“阿曾”并置,这时候实体S相当于有两个了,一个是“阿曾”,另一个是“姐姐”,即“阿曾和姐姐”。
拼接操作比较常用的场合是:
- 将文本中的离合词恢复为一个单位;
- 将分离在两处但属于同一信息项的P信息片段拼接成一个单位;
并置操作比较常用的场合是:
- 在“实体S”字段,列出多个P信息相同的空间实体;
- 在“实体S”字段,列出需要描述形状信息的两个或多个空间实体;
- 在“实体S”字段,列出需要描述距离信息的两个空间实体;
- 在“处所”字段,列出多个处所信息;
特别提醒:

说明:上图所示语义角色层级体系,是国家973项目“面向三元空间的互联网中文信息处理理论与方法”(项目编号:2014CB340500)子课题4:“融合三元空间的中文语言知识与世界知识获取和组织”的研究成果。
下表是28个论旨角色的含义说明及示例(黄色高亮成分即为对应语义角色在当前句中的示例,方框中是谓词)。

Tips
文档最近更新时间:2022-06-30
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。