SpaCE2022中文空间语义理解评测数据标注工作指南

task3:句子空间语义信息精标注

欢迎大家参与本次数据标注工作!


1 任务简介

(1)task1:根据语感判断一段中文文本中高亮词语所表达的空间语义信息是否有异常。(task1标注指南)

(2)task2:分析造成异常的原因具体是什么,包括确定异常类型和异常信息文本片段。(task2标注指南)

(3)task3:标注句中空间实体,空间实体的方位信息,与空间实体方位信息有关的事件(含时间)信息。



2 标注对象

标注对象主要是空间信息,其次是事件信息(含时间信息)。

空间信息指句中的空间实体及其空间方位信息。可以针对这些信息发问。典型的问题如下:

(1)某物(或某人)在何处

(2)某物(或某人)某时何处

(3)使得某物(或某人)某时在某处?以及如何使得某物(或某人)某时某处

以上粗黑体字所代表的信息,就是task3标注任务关注的信息。包括:

(1)空间实体的静态方位信息和动态方位信息;

(2)影响空间实体空间信息的事件信息

(3)跟空间实体空间信息和事件信息相关的时间信息

2.1 空间信息

在task3标注任务中,空间信息指S和P信息。句中的S和P信息是task3的首要标注任务。

2.2 事件信息

在task3标注任务中,事件信息E是次要标注任务。E信息的作用是说明S、P的方式、目的、原因等信息。

2.3 时间信息

在task3标注任务中,时间信息T是次要标注任务。T信息依附于<S,P,E>,分为两类:



3 空间信息标注

3.1 空间实体信息S的标注

空间实体S的标注要求比较简单。跟task2对S的要求基本一样。不过,也有几点需要注意:

* 空间实体S的同指关系标注 *

3.2 空间方位信息P的标注

空间方位P的标注是task3标注任务的重中之重。包括多个具体项目,需要根据句中实际信息出现情况来标注。下表是P信息的细化信息项(特征),以及取值的表达形式(用词语组合模式来表示)和具体含义的说明。

表1:P信息标记集

spatial_features

关于表1的说明

(1)表中“介词、方位词、趋向动词”等是沿用一般《现代汉语》教科书中定义的汉语词类名称。“处所词”指有处所语义的词语,比如“北京、图书馆、人群、太空、未名湖、郊外、四处”等等,处所词能跟“在、到、从”等有空间方位表达功能的介词组合,能跟“上、下、左、右、前、后、里、外”等方位词组合。

(2)“部件处所”特征,专门针对一个空间实体作为一个更大空间实体的部件,描述其空间方位。关于一个空间实体的位置信息,有两个描述视角,一个是以空间实体周围的外部物体为参照物时的空间信息,也就是表中第1项空间特征“处所”的含义,例如:“鼻子在嘴的上方”,其中“鼻子”的处所信息是“在嘴的上方”;另一个视角是以整体为参照物来描述其中部件的方位,例如:“鼻子在脸的中间”,以整体“脸”为参照物来描述“鼻子”的方位,就需要标注“部件处所:在脸的中间”。参见示例10

(3)“部位”特征,指从一个空间实体看其内部组成部分的位置。典型的场景是交通工具的不同部位的描述。一般是交通工具发生碰撞事件时,指明具体的碰撞位置。例如“货车右前部” “小轿车左后部”等。参见示例12

  • 描述人体动作时,也经常会涉及到“部位”信息。例如:回到那死者旁边,两手抄在死者的腋窝下
  • 这个例句中后半部分的空间方位信息标注,需要借助“部位”特征来完成:
  • 实体:她,部位:两手,处所:在死者的腋窝下,E:抄
  • 需要注意的是,这条STEP信息中,“处所”是指“部位”所在的位置,而不是指“实体”所在的位置。
  • 在有“部位”的STEP信息中,其他P信息小项的直接语义联系都指向“部位”,跟“实体”的联系是间接的

(4)“朝向”特征,涉及到空间实体自身的特性,只有空间实体的不同侧面功能不同时,才有描述“朝向”的需要。比如:一块自然界的石头没有朝向;而一个由石头雕刻而成的人体石雕则有朝向。因为人体作为一个立体实体,其不同侧面是有不同功能的;表达一个空间实体的“朝向”一般有两种方式:一种是借助方向表达,比如“床头朝东”;另一种是借助另一个空间实体来表达,比如“背对着镜子”。两种表达通常都需要加介词(形式标志)。“朝向”特征,既适用于静态空间实体,也适用于动态空间实体。前者没有“方向”特征,后者则既有“朝向”特征,也同时有“方向”特征。比如,假设甲和乙面对面站立,甲面朝南,乙面朝北,甲以后退方式离开乙,那么,以乙的观察视角来描述甲的空间方位信息,就是甲的位移“方向”为北,甲的自身“朝向”为南。

(5)“路径”特征,包括实际位移和静态的路线(相当于想象的位移)。“路径”取值是原文中的字符串。“路径”值有3种可能性:

  • (I)用形状表达路径,如“之字形”;

  • (II)用有“通路”“通道”功能的处所词表达路径,如“河西走廊、101国道、G6高速”;

  • (III)用位移过程中经过的多个空间实体组成的列表表达路径,如<北大东门,中关村北站,清华西门>。多个实体组成的路径,可以通过“并置”操作填入“路径”字段(参见“拼接与并置”)。

  • 注意:一条路径有起点,有终点,但路径的“起点”和“终点”,不能填入“起点”和“终点”字段(表1中的第4、5项信息)。如果S有“起点”和“终点”信息,表示S是一个移动的空间实体,“起点”和“终点”是对S位移状态的描述。路径的“起点”和“终点”,只能放在“路径”字段中描述。比如,“北京地铁4号线从安河桥北到天宫院,全长50公里”。空间信息标注:空间实体S:北京地铁4号线,路径:<从安河桥北到天宫院>

  • “路径”字段有两个用途

    • 一个用途是描述位移空间实体S的路径信息(此时“路径”的含义是:S移动时经过的路径);
    • 另一个用途是描述一个作为路径的空间实体S的路径节点构成情况(此时“路径”的含义是:S本身就是一个路径);
    • 前一种使用场景,“路径”的取值为形状值(如“之字形”),或者“通路”“通道”类处所词;
    • 后一种使用场景,“路径”的取值为一个空间实体组成的列表;
    • 特殊情况下,表达“路径”组成情况的列表中也可以只有一个空间实体(参见示例2)。

(6)“形状”特征,可以起到帮助空间实体定位的作用。例如:“一个花圃是圆环形的,花圃中每隔4米放置一个花盆”。句中这些花盆之间的相对位置关系,就需要借助花圃的形状“圆环形”来说明。“形状”特征有两种使用场景:

  • (I)单个空间实体的形状 (如上面“花圃”的例子)
  • (II)多个空间实体构成的形状(如:公司总部大楼A座、B座、C座,排成了一个“品”字形)

如果需要描述多个空间实体共同构成的形状,这些空间实体可以并置方式填入S参见“拼接与并置”)。“形状”取值都是原文中的字符串。

(7)“距离”特征是二元关系型特征涉及到两个空间实体。两个空间实体以并置方式填入S参见“拼接与并置”)。距离的取值有两种情况:一是文本中有表达距离义的具体词语,一般是“数词+单位词”形式;另一种是定性描述:用“远、近、变远、变近”四个系统预定义关键字来表达。如下表所示:空间实体“手术室”和“住院部”的距离“200米”是从文本中选取的片段(填入“距离1”字段),“急诊”与“医院大门”的距离“近”是系统预定义关键字(填入“距离2”字段)。“距离1”和“距离2”两个字段,都需要通过“添加字段”操作添加,然后再标注具体取值(参见“添加字段”操作说明)。

S距离1距离2
手术室 住院部200米 
急诊 医院大门 

(8)以上P信息项(10个特征),跟空间实体S的对应关系如下表所示:

S特征1、2、3、4、5、6、7、8特征9特征10
单个实体×
两个实体
多个实体×

S-P对应关系及语义解释的5种情况:

类型SPS-P的语义解释说明适用P特征
1s1p_values1的P特征值是p_value分配式特征1-特征9
2as1, s2p_values1的P特征值是p_value
s2的P特征值是p_value
分配式特征1-特征8
2bs1, s2p_values1和s2的P特征值是p_value加合式特征9-特征10
3as1, s2, s3p_values1的P特征值是p_value
s2的P特征值是p_value
s3的P特征值是p_value
分配式特征1-特征8
3bs1, s2, s3p_values1和s2和s3的P特征值是p_value加合式特征9

说明:表中s1,s2,s3指具体的空间实体,p_value指一个P信息项的取值。类型2代表两个实体的情况;类型3代表多个实体的情况。

 



4 事件角色信息标注

事件角色信息标注,是以动词为中心,描述动词周围在事件中承担不同语义功能的成分。换言之,这些成分在事件中扮演着不同的角色。比如表示动作的发出者,动作的受影响者等,这类角色主要由名词或名词词组来充当;还有的成分表示动作发生的空间场所,动作受影响者所在的位置等空间信息,这类空间角色主要由处所词、介词+处所词、趋向动词+处所词等语言单位来充当。

事件中的语义角色有不同的分类体系,分类粒度粗细有所不同。本课题设计了一个7类语义角色的标注体系(参考附录1,进行了大幅简化)。角色名称参照命题语义标注语料库Propbank)的方式;角色含义参照北京大学计算语言学教育部重点实验室在国家973项目“面向三元空间的互联网中文信息处理理论与方法”(项目编号:2014CB340500)子课题4:“融合三元空间的中文语言知识与世界知识获取和组织”中所用的定义(参考附录2)。

表2:E信息标记集

序号角色标记对应论旨角色含义
1.arg0施事(共同施事)、当事(间接当事)核心角色1:主体
2.arg1受事、系事、结果、对象、内容核心角色2:客体
3.arg2与事核心角色3:受益/受损者
4.arg3工具、材料、方式外围角色1:伴随者(准外围)
5.argM事量、范围、原因、目的外围角色2:环境成分(真外围)
6.argS起点、终点、路径、方向、处所外围角色3:空间角色
7.argT起始、结束、时点、时段外围角色4:时间角色

注意

(1)并不是句中所有的谓词,都要标注其语义角色。仅需针对跟S、P有关的E事件,标注其角色信息。

(2)E的事件角色描写,尽量在标点句范围内,选取符合上表中7个角色要求的成分。角色的取值应该直接从原文中选取字符片段

(3)argM泛指修饰性的外围语义角色(Modifier)。argM比arg3更外围,跟事件核心动词的关系更松散。比如:用刀砍了两天树。“刀”是动词“砍”的工具角色,属于外围语义角色,但跟”两天‘这个事件时间量成分相比,“刀”跟“砍”的关系更紧密。因为“刀”能组合的动词范围比较小,“刀”跟如“等”“听课”之类的动词就没有组合关系,无法充当“工具”角色,而“两天”跟动词组合的范围就很大,可以“等两天、听两天课”,所以,如果针对“用刀砍了两天树”来标注语义角色,则“刀”标注为动词“砍”的arg3,而“两天”则标注为argM。

(4)E如果是动词的离合用法,应将分离的成分(不连续字符)拼接成一个完整单位。

(5)标点句内的角色如果只有指代性成分(如人称代词、身份词、绰号等),则填入指代性成分即可,不需要跨句寻找到指称性成分(如姓名,单位名称等专名)。

例如:

  • (7)他昨晚在宾馆了两次
  • (8)吴仲荣掏出办公室的钥匙,放到桌上,他缓缓地起来,向门口走去。

上面的高亮成分是这3个例句的E成分,其事件角色信息标注如下:

句子Earg0arg1arg2arg3argMargSargT
(1)洗 · 澡   两次在宾馆昨晚
(2)      

所有角色都是在标点句范围内选取跟当前E谓词相关的成分,不应标注与E无关的其他成分。比如例(3)中“办公室” “钥匙” “桌上” “向门口” 等,都跟“站”这个动作行为无关,而且也不在“站”所在的标点句中,因此不能标注在 arg0 到 argT这些角色中。

  • 例(7)中“洗 · 澡”表示句中是动词离合用法:“洗”和“澡”不连续出现,但却是一个整体单位(一个动词);上表中为显示清晰,用“·”分隔,表示两个不连续成分拼接。在实际标注中并不需要手工添加“ · ”号(参见下文操作说明“拼接与并置”部分)。
  • 例(7)中argS(空间语义角色)的值是“在宾馆”,是“介词+处所词”格式。跟P信息项中填值需要把介词、趋向动词等指示空间方位信息的词语填入一样,事件角色中argS的值,也应把句中跟处所词一起出现的介词和趋向动词等指示空间方位信息的词语填入(参见task2标注规范5.1.3“P要不要含介词”)。
  • 例(8)中arg0填写标点句内的人称代词“他”即可。不需要跨句到上文找到“他”的指称词“吴仲荣”,即不需要在arg0等事件角色中填写 “ 他=吴仲荣 ”。指代词与指称词的同指关系,在专门设置的“同指关系”区标注,不在事件角色信息中重复标注(参见下文操作说明)。

 



5 时间信息标注

时间信息标注,是以P信息为基准,描述每个P信息伴随的T信息(参见2.3)。

如果一句话标注了多个P信息(参见表1),则每个P信息都应考虑标注对应的T信息。

T信息在标注界面上分为3个字段来描述:原文时间,参照事件,参照时间。

下面表3是关于T信息类型、标注界面时间字段、时间值具体取值的说明。

表3T信息标记集

序号类型时间字段时间值示例 / 说明
1.时值时间原文时间时间义词语上午、13:15,2022年6月25日,儿童节,夏至
2.说话时间参照时间说话时参考语境说话人时间信息,“说话时”为系统关键字
3.说话时间参照时间过去参考语境说话人时间信息,“过去”为系统关键字
4.说话时间参照时间将来参考语境说话人时间信息,“将来”为系统关键字
5.事件时间参照事件+参照时间V之前参考事件V的时间信息,V是句中动词
6.事件时间参照事件+参照时间V之后参考事件V的时间信息,V是句中动词
7.事件时间参照事件+参照时间V之时参考事件V的时间信息,V是句中动词
8.事件时间参照事件+参照时间V之间参考事件V的时间信息,V是句中动词

注意

  • 句中若字面上有“现在”类时间词语,并且其所指时间就是说话时间,但T信息类型仍优先归属”时值时间“,需从句中选取“现在”填入“原文时间”字段对应的文本框。
  • T信息不是task3标注的主要内容。为简化标注操作,约定:
  • (1)T为空时,代表时间信息未知、或不受关注;当T信息中填值时,表示该信息值得强调。
  • (2)如果已填写E信息,同时T信息为空,则代表T是“E中所填动词V之时”。
  • (3)如果未填写E信息,同时T信息为空,则代表T是“常态”(泛时)或者时间信息不受关注。
  • (4)上表中第1类时间信息,必需填入T信息中(除非跟S、P无关)。
  • (5)上表中第2类到第8类时间信息,均可不填。
  • (6)填写T信息遵循“非必要,不需填”原则:T信息可以不填写,除非T信息对于说明S、P信息比较重要,即有区别价值,如果不填T信息,会导致S、P信息不清楚,与其他状态信息发生混淆。

 

* 否定信息的标注 *

 

Task3需标注信息总集

表4:Task3标注信息标签数量总表

信息大项大项数量信息小项小项数量合计
   S  1 0  1  
E1arg0, arg1, arg2, arg3, argM, argS, argT78
T0" ",说话时,过去,将来,之前,之后,之间,之时88
   P  0处所,部件处所,部位,起点,终点,
方向,朝向,路径,形状,距离
1010
F1 01
R1 01
合计4 2529


6 操作说明

操作界面

(1)操作面板:操作界面左侧是语料文本显示区(在上)和“S-P-E参考信息显示区”(在下),右侧是操作面板。面板初始界面上有3个“新增×××”导航按钮(下图红色框所示),分别点击后,会对应显现出3个信息标注区 task3_UI_buttons

  • S-T-E-P整体信息标注区(逐条标注文本中的S、T、E、P信息,其中重点标注内容是S和P信息
  • 事件角色信息标注区(标注E的arg0、arg1、arg2、arg3、argM、argS、argT角色)
  • 同指关系标注区(标注空间实体的指称关系)

(2)标注显示:在3个“新增……”按钮的上方,有标注内容实时显示区(图中“暂无内容”所在文本框区域)

(3)内容排序:在标注显示区下方,有3个排序按钮,分别可以对标注结果按照3个标注排序,包括:

  • 按照词语在原文中的顺序排序
  • 按照标注时创建条目的顺序排序
  • 按照“STEP整体信息、事件角色、同指关系”3个组排序。

(4)数据层级:由大到小顺序:记录(record) → 字段(field)→ 值(value)

  • 一条数据记录由若干个字段构成;
  • 一个字段如果在原文中有相应的信息,就要填入一个值(词语)。

task3_UI_buttons

  • 记录(record):上面框图的全部信息,代表“S-T-E-P”一条数据记录,在框图左上角的“S-T-E-P整体信息标注 [2]”,表示这是第2条记录;
  • 字段(field):框图内从上往下用短线分隔了4个区,分别对应S、P、E、T信息标注区,最后有一行“添加字段”,用于增加不太常用的字段。在框图中显示的“实体S” “处所” “起点” “终点” “方向“ ”朝向“ ”事件E“ ”原文时间“ ”参照事件“ ”参照时间“ 等,都是同一条记录的不同字段名称,每个字段占一行;
  • (value):字段名称后对应的文本框中,就填写字段的值。标注时,主要就是从语料文本中选取合适的文本片段,作为各字段的信息值,填入文本框中。

操作顺序

  • step1:在S-T-E-P整体信息标注区

    • step1-a:标注S信息,在语料原文中选取空间实体文本片段,填入“实体S”对应的文本框

    • step1-b:标注P信息,选取合适词语填入空间特征(处所、起点…)对应的文本框

    • step1-c:标注E信息,选取S-P对应的动词,填入“事件E”对应的文本框

    • step1-d:标注T信息

      • 如果原文中有时值时间,从文本中选取词语,填入“原文时间”对应的文本框
      • 如果原文中没有时值时间,参考时间为“说话时”,则从“参照时间”下拉菜单中选取填入。
      • 如果参考时间为原文中事件,则先从文本中选取动词,填入“参照事件”对应的文本框,然后在“参照时间”下拉菜单中选取合适的参照时间值“之前”“之后”之间“”之时“等。
    • step1-e:标注F信息:若当前S-P信息为假,在“添加字段”下拉菜单选取“事实性”添加false标记

  • step2:在事件角色信息标注区,选取当前S、P所在标点句内的事件语义角色,填入角色对应文本框

  • 事件谓词E要填入“谓词来源”字段,该字段的下拉菜单中列出了已经填写的全部STEP记录,谓词E从中选择一条填入。

  • step3:在同指关系标注区,选取文本中指称相同的S成分,填入“同指片段”对应文本框

    • 同指片段从原文文本中选取;

    • 同形同指是默认情形,不需要在同指片段对应文本框中标注;

    • 两个异形同指的片段,在填入文本框中时,采用“并置”操作,而不是“拼接”(参见下文拼接与并置操作说明)。

    • 两个同形异指的片段,如果需要强调其异指,则标注分为两步进行:

      • 在“同指片段”中选取两个同形的片段(记作A),以“并置”方式填入;
      • 在“添加字段”下拉菜单中,选取“同指事实性”添加(即加上 false 标记);
      • 完成上述两步后,当前同指片段的关系即为 A ≠ A。
    • 异形同指有一种特殊的情形,可以表示为“A = B C”,其中A 是集合总称性成分,通常是复数性指代词,比如“他们” “他们俩”;B、C是集合的成员性成分,比如“阿Q 小D”。同指关系为:他们俩 = 阿Q 小D。在填入“同指片段”文本框时,“阿Q”和“小D”这两个成分要以“拼接”方式填入,不能以“并置”方式填入。如果以“并置”方式填入,则同指关系变为: 他们俩 = 阿Q = 小D。这就不符合实际情况了。对于 “A = B C”型同指关系,标注分为两步进行:

      • 在”同指片段“中先填入A,再以”并置“方式填入B;
      • 然后选取C,以“拼接”方式,将C合并到B之后,得到 A = B C 这样的同指关系,其语义相当于:A= B 和 C
      • 需要注意的是,在 “A = B C”这种同指关系中,A、B、C都只能是原文中的连续片段,不能是由非连续成分拼接而成的成分。假设 B = B1 B2,且B1和B2是原文中的不连续片段,则“A = B C”实际上就变成了 “A = B1 B2 C”,这样,语义(指称)关系再次发生改变,不再是“A = B 和 C”,而是变成了 “A = B1和B2和C”。因此,在“A = B C”同指关系的标注中,A、B和C均不允许是由拼接操作构成的成分。例如:“他们俩 = 未庄网红阿Q 小D” 这个同指关系中,如果“未庄网红” 跟 “阿Q”是以拼接方式填入“同指片段”文本框中的,那么,同指关系就成了:他们俩 = 未庄网红 和 阿Q 和 小D,即等号右侧,包含3个指称词,无法跟“他们俩”同指,同时,“未庄网红”跟“阿Q”也不再是同一个指称对象了。这样,同指语义关系就无法成立。

注意事项

  • S-T-E-P整体信息标注区,从上到下分为4个子区,分别对应S、P、E、T的信息填写。
  • 为使标注区域版式简洁,其中P区域没有把表4中P信息10个小项全部列出,而是预置了其中比较常见的5项:处所、起点、终点、方向、朝向。另外5项,出现频次相对较低,如果需要标注,可以通过“添加字段”的方式,添加到S-T-E-P整体信息标注区,然后再填写相应信息。
  • F信息的出现频次也较低,如果需要标注,也通过“添加字段”方式,添加到S-T-E-P整体信息标注区。添加时在下拉菜单中选择“事实性”,添加后程序自动为F信息项赋值为false。

下表是“添加字段”菜单项对应的待标注信息项,以及添加一个字段后相应的操作说明

序号信息大项信息小项“添加字段”菜单项操作
1P部件处所部件处所从原文中选取片段填写
2 部位部位从原文中选取片段填写
3 路径路径从原文中选取片段填写
4 形状形状从原文中选取片段填写
5 距离距离1从原文中选取片段填写
6  距离2下拉菜单选项 [远、近、变远、变近]
7F 事实性
  • “距离”取值有两种情况:

    • 如果原文中有关于两个空间实体距离的具体表述,则相应文字内容填入“距离1”字段;
    • 如果原文中没有,但距离信息可以推知,则用“远、近、变远、变近”来描述,填入“距离2”字段。
    • “距离1”和“距离2”这两个字段,都需要通过“添加字段”下拉菜单选取添加。

 

操作方法

操作要点

  • 要点1贝、粘、修除、储 —— 这5个基本操作均为鼠标点选操作。

  • 要点2:“删除”功能针对不同层级的数据,操作有所不同:

    • “删除”(在“克隆”的右侧):表示删除当前记录(record),即删除整个信息标注区;
    • “删”:表示删除当前字段(field),即删除字段名称及其同一行文本框;
    • × 号:表示删除当前值(value),即删除一个文本片段。
    • 有点意外task3_UI_buttons:点击3个信息标注区右上角的 × 号,表示关闭当前标注区,不是删除。
  • 要点3

    • 保存字段值:点击“存”,表示保存每个字段的值;

    • 保存记录:点击“保存”(在“克隆”的左侧),表示保存当前数据记录(全部字段及字段值);

      • 点击“保存”相当于自动点击了全部的“存”(即自动保存记录中每个字段和字段值)。
    • 如果没有点击“存”,也没有点击“保存”,填入内容将不会被记录!!!

  • 要点4新增克隆 ——

功能操作界面
新增记录点击右侧 按钮新增STEP整体信息标注 | 新增事件语义角色标注 | 新增同指关系标注
新增字段点击右侧 + 号add
克隆记录点击右侧 “克隆”clone

—— 新增记录:为数据表增加一条新记录(record);

—— 新增字段:为记录添加一个新字段(field);

—— 克隆记录复制当前记录(STEP整体信息),并新增一条同样内容的新记录

(1)需要为一个新的S标注STEP信息时,使用“新增记录”功能;​ (2)需要为一个现有的S增加同类字段新的P信息时,使用“克隆记录”功能; (3)需要为一个现有的S增加更多字段表达P信息时,使用“新增字段”功能; 在一条STEP记录中,字段不能重复,比如“处所”、”路径“、”形状“等只有一个(界面上只有一个)。

一个S不能有两个“处所”信息。表达一个S的两个处所信息,标注方法有以下两种:

两个“处所”信息在两条STEP中表达;

在“处所”字段中用“并置”方式列出两个P信息。

关于“并置”操作,参见下面↓↓↓

  • 要点5拼接并置 —— coordinate

    拼接:点击⊕加号,把当前拷贝字符串与文本框中原有字符串进行拼接,合并为一个单位

    并置:点击“填入”,把当前拷贝字符串与文本框中原有字符串并置,使文本框内容为两个并列单位

    • 以上面的例子来说,如果在原文中选取词语“姐姐”后,点击⊕加号,就是跟文本框中已有的“阿曾”拼接,成为“阿曾姐姐”,仍然是一个S;点击“填入”,就是跟文本框中已有的“阿曾”并置,这时候实体S相当于有两个了,一个是“阿曾”,另一个是“姐姐”,即“阿曾和姐姐”。
  • 拼接操作比较常用的场合是:

    • 将文本中的离合词恢复为一个单位;
    • 将分离在两处但属于同一信息项的P信息片段拼接成一个单位;
  • 并置操作比较常用的场合是:

    • 在“实体S”字段,列出多个P信息相同的空间实体;
    • 在“实体S”字段,列出需要描述形状信息的两个或多个空间实体;
    • 在“实体S”字段,列出需要描述距离信息的两个空间实体;
    • 在“处所”字段,列出多个处所信息;

 

特别提醒


 

附录

附录1: 一个论旨角色层级分类体系

theta_roles

说明:上图所示语义角色层级体系,是国家973项目“面向三元空间的互联网中文信息处理理论与方法”(项目编号:2014CB340500)子课题4:“融合三元空间的中文语言知识与世界知识获取和组织”的研究成果。


附录2:事件角色细粒度分类

下表是28个论旨角色的含义说明及示例(黄色高亮成分即为对应语义角色在当前句中的示例,方框中是谓词)。

theta_roles_table


文档最近更新时间:2022-06-30

北京大学SpaCE2022评测任务课题组

本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。