SpaCE2024中文空间语义信息标注工作指南V2.0

欢迎大家参与本次数据标注工作!

阅读说明:黄色高亮的部分是标注时需要特别注意的事项,下划线的部分是有别于SpaCE2022~2023的表述。

V2.0版本更新说明

1.更正错误:

  • 拼接改为并置。

    • 2.1节空间实体S的标注中,对于并列结构,如果P信息相同,则将并列结构内的实体以并置的方式填入S。

    • 参照时间是“V1和V2之间”时,V1和V2以并置的方式填入参照事件文本框。

  • 更正操作面板的按钮介绍说明。

2.新增内容:

  • 普通实体标注。详见第2.4节。

  • 操作视频。详见第6节“操作说明”。

  • “部位”和“距离”的标注规定。详见第2.2节注意事项。

  • 参照时间的参照事件选择。详见第4节注意事项。

  • 不需要分析机构、行政区划等专有名词名称的空间信息。详见示例13。

  • 身体动作文本的标注。详见示例14。


1 任务简介

课题组通过计算机程序收集了大量自然文本语料,主要是专业领域的文本(如交通事故类语料),少量普通日常语言文本。语料已进行了自动分词和词性标注,其中跟空间信息相关的方位词趋向动词处所词介词副词已在标注页面上进行了分色高亮显示。

为方便记忆和称说,本文档将S、T、E、P空间语义四要素信息标注概括为STEP信息标注。其中,S-P空间信息是标注的核心,是必备要素。从标注顺序的角度讲,上述要素关系如下:

P依附于S(先定S,再定P);

E依附于S、P(先定S、P,再定E);

T依附于S、P,E(先定S、P、E,再定T);

F依附于S、P,用于标记S-P不发生(在S、P标完后,再标注F);

R依附于S、P,用于标记文本中指称相同的实体成分(在S、P、E、T标完后,再标注R)。


2 空间信息标注

2.1 空间实体S的标注
2.2 空间方位信息P的标注
表1:P信息标签集

spatial_features

注意事项:

2.3 实体同指关系标注

注意事项:

2.4 普通实体标注

3 事件信息标注

3.1 事件信息

注意事项:

3.2 事件角色标注
表2:事件角色标签集
序号角色标记对应论旨角色含义
1arg0施事(共同施事)、当事(间接当事)核心角色1:主体
2arg1受事、系事、结果、对象、内容核心角色2:客体
3arg2与事核心角色3:受益/受损者
4arg3工具、材料、方式外围角色1:伴随者(准外围)
5argM事量、范围、原因、目的外围角色2:环境成分(真外围)
6argS起点、终点、路径、方向、处所外围角色3:空间角色
7argT起始、结束、时点、时段外围角色4:时间角色

注意事项:


4 时间信息标注

表3:T信息标签集
序号类型时间字段时间值示例 / 说明
1时值时间原文时间时间义词语上午、13:15,2022年6月25日,儿童节,夏至
2说话时间参照时间说话时参考语境说话人时间信息,“说话时”为系统关键字
3说话时间参照时间过去参考语境说话人时间信息,“过去”为系统关键字
4说话时间参照时间将来参考语境说话人时间信息,“将来”为系统关键字
5事件时间参照事件+参照时间V之前参考事件V的时间信息,V是句中动词或动词词组
6事件时间参照事件+参照时间V之后参考事件V的时间信息,V是句中动词或动词词组
7事件时间参照事件+参照时间V之时参考事件V的时间信息,V是句中动词或动词词组
8事件时间参照事件+参照时间V1和V2之间参考事件V1和V2的时间信息,V1和V2是句中动词或动词词组

注意事项:


5 空间信息否定标注

注意事项:


6 操作说明

  • 为使标注区域版式简洁,其中P区域没有把表1中P信息的10个小项全部列出,而是预置了其中比较常见的5项:处所、起点、终点、方向、朝向。另外5项,出现频次相对较低,如果需要标注,可以通过“*添加字段”的方式,添加到S-T-E-P整体信息标注区,然后再填写相应信息。

  • F信息的出现频次也较低,如果需要标注,也通过“添加字段”方式,添加到S-T-E-P整体信息标注区。添加时在下拉菜单中选择“事实性”,添加后程序自动为F信息项赋值为false。

  • 距离”取值有两种情况:

    • 如果原文中有关于两个空间实体距离的定量描述,则通过“添加字段”的方式,选择“距离1”字段,填入相应文字内容。

    • 如果原文中是定性描述,或者原文中没有,但距离信息可以推知,则通过“添加字段”的方式,选择“距离2”字段,从下拉菜单中选择“远、近、变远、变近”中的一个来描述距离。

注意事项:


附录

附录1:指示空间方位信息的形式标记
形式标记指示的P信息
在;于处所;部件处所
从;由;自起点
到;至;在终点
经;过;沿;从;顺着;通过路径
向;朝;往方向
上;下;进;出;回;往;起;来;去
上来;上去;下来;下去;进来;进去;出来;出去;回来;回去;起来
方向
向;朝;对着朝向
距;离;距离距离
附录2:一个论旨角色层级分类体系

theta_roles

附录3:事件角色细粒度分类

下表是28个论旨角色的含义说明及示例(黄色高亮成分即为对应语义角色在当前句中的示例,方框中是谓词)。

theta_roles_table


文档最近更新时间:2024-01-22

北京大学SpaCE2024评测任务课题组

本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。