注意事项:
语料及标注:
示例1 “这个就是我从水里捞出来的美国人手上戴着的戒指,上面刻着他的名字。”塞科高高地举起戒指说,“上面的名字是,”他一边看一边念出上面刻着的字:“约翰·罗伯森·邓纳姆。”
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 美国人 捞 [arg0:我, arg1:美国人] [起点:从水里,方向:出来] 2戒指捞 [arg0:我, arg1:戒指][起点:从水里,方向:出来]3 戒指 戴 [arg0:美国人,arg1:戒指] [处所:美国人手上]
- “捞”是一个动态的位移义相关的事件;“戴”是个静态空间义事件。
- 这个句子有歧义,仅根据当前上下文,无法判断“捞”的是“美国人”,还是“戒指”。
- 这里第1条标注,是把“捞”的对象解释为“美国人”;第2条标注,是把“捞”的对象解释为“戒指”。
- 两种解释相比较来说,“捞“的对象是”美国人”这种解释可能更自然一些。因此上表中把第2条标注加了删除线。在实际标注中,按照“我从水里捞出美国人” “美国人手上戴着戒指”的语义理解,分别做第1条STEP信息标注和第3条STEP信息标注。
SS2
序号 S T E P 4 他的名字 刻 [arg1:名字] [处所: 戒指上面]
SS3
序号 S T E P 5 戒指 举 [arg0: 塞科, arg1: 戒指] [处所:塞科] 说明:塞科举着戒指,按常理,这意味着“戒指在塞科手上”。但SS3中字面上无“手上”信息,无法填写这个信息。这里P就填SS3句字面上存在的“塞科”,表示“戒指”在“塞科(处)”的信息。
SS4
序号 S T E P 6 名字=约翰·罗伯森·邓纳姆 刻 [arg1:名字] [处所: 戒指上面] SS4开头“上面的名字”表达的信息跟SS2基本一样,只是SS4开头没有重复事件信息“刻”。像这样的段中空间信息重复出现的情况,只需在第一次出现时标注,后面标点句中不再重复标注。
SS4句中的新信息是:“名字”的具体情况更清楚了,即“名字 = 约翰·罗伯森·邓纳姆”(= 号表示前后两个成分有共同的指称),这个可以作为信息空间实体,标注为S成分。需要注意的是,原句中姓名字符的前后有引号,但这里的引号起的作用是标记引语,并不是说名字中带有引号,因此,引号不需要,也不应该填入到S中。对比SS4句和SS2句的标注,可以看到,只有S信息不同,其余三项信息都一样。这正好准确地反映了原文中这两个标点句的相同和差异。
注意:
例1划分出4个标点句(SS1,SS2,SS3,SS4),是为后续标注STEP信息打草稿,方便逐句定位S。
在实际标注系统中,操作并不包含划分4个标点句,只需要在操作界面中填写上面表格中的各项信息。
示例2 当我们到达医院时,一大群人已围在外面。地下室里,一条长廊通向手术室。我们在远处发现了外婆,妈妈和继父连忙跑上前去,我和哥哥走在旁边,互相搀扶着,极力使自己镇静下来。
(1)识别内含空间方位信息的标点句:
注意:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 我们 到达 [arg0:我们] [终点: 医院] 分析文中语义可知,“我们”所指对象包括:妈妈、继父、哥哥和我。但因为这些词语也不是指称词,因此不做同指关系标注。
SS2
序号 S T E P 2 一大群人 围 [arg0: 一大群人, argS: 在外面] [处所: 在医院外面] S中若填写“人”,则所指不清楚。填写“一大群人”,可以区别原文中的“我们” “我和哥哥”等等。
填写空间实体信息时,以语义有指别度,同时形式又简明为原则,即填入的成分要避免指称歧解,同时又尽可能简短,不含冗余信息。
P中“处所”取值为“在医院外面”,字面上这一句的处所信息是“在外面”,但根据上文可知,更为具体的处所信息是“在医院外面”,因此,标注操作时,需要从SS1中选取“医院”这个片段,插入到SS2的两个片段“在”和“外面”之间,拼合成更大的片段“在医院外面”,作为“处所”字段的取值。
序号 S T E P 3 地下室 [处所: 医院] 4 长廊 通 [arg0: 长廊, argS: 向手术室] [处所: 地下室里, 路径:<手术室>] 5 手术室 [处所: 地下室里]
- SS3句中,“长廊”自身的处所是在“地下室”。同时它起到了“路径”功能,即沿着“长廊”,可以“通向手术室”。不过,SS3句没有给出这条“路径”上的其他节点信息,只能将仅有的一个空间实体“手术室”作为节点填入 < > 中。
- 上表中为了突出路径“节点”的含义,用 < > 把一个空间实体括起来,以区别于单个空间实体。在标注页面上,标注“路径”信息时,并没有 < > 标记。
SS4
序号 S T E P 6 外婆 发现 [arg0:我们, arg1:外婆] [处所: 地下室里] 7 我们 发现 [arg0:我们, arg1:外婆] [处所: 地下室里] 8 外婆 我们 发现 [arg0:我们, arg1:外婆] [距离: 远] SS4句中“在远处”这个空间信息,用“距离”标注比较合适,因为“远处”表达了外婆和我们之间的距离远的信息,而外婆和我们各自的处所信息,只能从上下文推知,是在“地下室里”,并不清楚具体在地下室的什么位置。虽然联系上文SS3中“手术室”的信息,有较大概率推知“外婆”是在手术室附近,而我们是在向手术室方向移动的过程中,但这个推测性的信息并不能十分肯定,因此不做标注。
需注意的是,“距离: 远” 中的特征值“远”,是系统关键字,不是原文中的字符“远处”中的“远”。
在task3标注界面上,
- 以“远近”来定性表达距离的字段名称为“距离2”;
- 以文本中的距离词语表达距离的字段名称为“距离1”。
这样区分,是界面程序设计需要。在本文档示例时,不区分“距离1”和“距离2”,通称为“距离”。
SS5
序号 S T E P 9 妈妈和继父 跑 [arg0: 妈妈和继父] [方向:上前去,终点:外婆] 10 妈妈和继父 外婆 [距离:变近] "妈妈和继父"是位移空间实体,移动的方向是“上前去”,目标是到达外婆所在的位置,因此“方向”特征标记为“上前去“,”终点“特征标记为”外婆”。同时“妈妈和继父”跟“外婆”的距离是在缩短,因此,“距离”特征的取值是“变近”,这也是系统预定义的关键字,不是原文中的字符。
SS6
序号 S T E P 11 我和哥哥 走 [arg0: 我和哥哥] [处所:在妈妈和继父旁边] SS6中的“我和哥哥”,以及SS5中的“妈妈和继父”,都不是单个的空间实体。
从事理角度讲,妈妈和继父之间,我和哥哥之间,也有空间方位关系(比如距离关系),但这些空间方位信息不是原文字面上显式表达的,因此,不做标注。
示例3 正在山上对着白云唱歌的薄平看到远远的山坡上走来的王实味,慌忙躲进一个山洞里,王实味满山遍野中找呀,喊呀,一直折腾到天黑,薄平就是不出来。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 薄平 唱歌 [arg0: 薄平, argS:在山上对着白云] [处所: 在山上, 朝向: 对着白云] 2 王石味 走 [arg0:王石味, argS:山坡上] [处所: 山坡上, 方向: 薄平 ] 3 薄平 王石味 看到之后 [距离: 变近] 第3条STEP标注,S信息是“薄平 王石味”,针对这两个空间实体,P信息可以标注“距离”特征。S中两个空间实体的顺序,跟原文保持一致,“薄平”在前,“王石味”在后。
SS2
序号 S T E P 4 薄平 看到之后 躲 [arg0:薄平, argS: 进一个山洞里] [终点: 进一个山洞里]
SS3
序号 S T E P 5 王实味 找 [arg0: 王实味, arg1: 薄平, argS: 满山遍野] [处所: 满山遍野] 6 王实味 喊 [arg0: 王实味, arg1: 薄平, argS: 满山遍野] [处所: 满山遍野]
SS4
序号 S T E P 7 薄平 找之时 [处所: 山洞里] 由SS4字面语义可以推知,“薄平”的处所信息是“一直在山洞里”。E仍延续SS2句中的“躲”,此句中未出现,因而不填。句中“一直折腾到天黑”提示了时间信息,但不是很清晰的时间义词语,T未填写。
示例4 她知道这意味着什么,她转过头,注视着几米开外那支瞄向她的枪口。枪口下的刺刀在残阳的照射下闪着寒光。猛然间刺刀上抖动起来,她看到枪身后那个带着稚容的枪手,正恐惧不安地看着她。她缓缓地回过头,朝着脚下带着潮气的泥土,深深地吸了一口气,慢慢闭上了眼睛。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 她 注视 [arg0: 她, arg1: 枪口] [朝向:枪口] 2 枪口 瞄 [arg0:枪口, arg1:她] [朝向:向她] 3 她 枪口 [距离: 几米]
SS2
序号 S T E P 4 刺刀 [处所: 枪口下]
SS3
序号 S T E P 5 枪手 看 [arg0:枪手, arg1:她] [处所: 枪身后, 朝向: 她] 6 她 看 [arg0:她, arg1:枪手] [朝向: 枪手] 7 她 枪手 看 [arg0:她, arg1:枪手] [距离: 几米]
SS4
序号 S T E P 8 她 [朝向: 泥土] 9 泥土 [处所: 她脚下]
示例5 村边,一条干枯的河床上,几个新堆起的小土包一字排开。阿曾和几个刑事犯一起被押到土包前。她身后的两个汉子狠劲地把她摁跪在地上。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 河 [处所: 村边] 2 几个小土包 [处所: 河床上, 形状: 一字排开]
SS2
序号 S T E P 3 阿曾和几个刑事犯 押 [arg1: 阿曾和几个刑事犯, argS: 到土包前] [终点: 到土包前]
SS3
序号 S T E P 4 两个汉子 [处所: 她身后] 5 她=阿曾 摁 [arg0: 两个汉子, arg1: 她] [终点: 在地上] 6 她=阿曾 跪 [arg0: 她] [处所: 在地上] SS3句中的“她”指“阿曾”,P中填写“她身后”,因同指关系可知:“她身后=阿曾身后”。
需要注意的是:
(1)此句中“她=阿曾”的空间方位信息都是“在地上”,但在“摁”事件中,“在地上”是终点,在“跪”事件中,“在地上”是处所。第5条和第6条标注对此做了区分。
(2)这里标注上所做的区分,也仅仅是对应原文文本内容的字面信息标注。从空间场景理解角度说,“摁”和“跪”事件造成的变化,实际上是“阿曾”的姿态变化,而不是空间方位信息变化,无论“在地上”标注为“终点”,还是“处所”,P信息上的细微区分,其实都无法体现“阿曾”的姿态变化。
示例6 北山顶上巨石皑皑,罗列在荒榛野草的中间,像是满山的绵羊。风很大,吹得人对面说话都听不真。东北一带全是高山,大丰山就紧依在后边。天晴的时候,西边可以看见太平府,南边可以看见金陵,现在都隐没在云雾里。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 巨石 [处所: 北山顶上]
SS2
序号 S T E P 2 巨石 罗列 [arg0: 巨石, argS: 在荒榛野草的中间] [处所: 在荒榛野草的中间] 3 荒榛野草 [处所: 北山顶上]
SS3
序号 S T E P 4绵羊[处所: 北山顶上]注意:这句中的动词“像是”联系的是上句中的“巨石”和本句中的“绵羊“,并不是用来说明本句中S和P的关系的,因此,不填入E中。本句字面上的空间方位信息仅仅是”绵羊 - 满山(实际指北山顶上)“,只有S和P信息。但是,这里“像是满山的绵羊”是一个比喻场景,不是真实的空间信息,也许北山顶上从来没有真正的绵羊。因此,第4条STEP标注,并不是必须的,可以删去,也可以标注(两可)。
SS4
序号 S T E P 5 高山 是 [arg0: 东北一带, arg1: 高山] [处所: 北山东北一带] 注意:“东北一带”是相对于“北山”而言的,因此,“高山”的位置是在“北山东北一带”
SS5
序号 S T E P 6 大丰山 依 [arg0: 大丰山, argS: 在后边] [处所: 在北山后边] 此句中 E ”依“ 的arg0和argS角色填写字面上的”大丰山“和”在后边“,空间方位信息P则需要填写”在北山后边“,即方位词“后边”需要补出具体的参照物。根据语境理解,可知参照物为句首的“北山”。
SS6
序号 S T E P 7 太平府 [处所: 北山西边] 此句中的“西边”是相对于“北山”而言的,因此,“太平府”的位置是“北山西边”,句中谓词“可以看见”是从人的角度描述“太平府”的能见度,但并不影响“太平府”在“北山西边”的空间方位信息。为简化描述,此类信息不看作E信息,不填写。
SS7
序号 S T E P 8 金陵 [处所: 北山南边]
SS8
序号 S T E P 9 大平府 现在 隐没 [argS: 在云雾里] [处所: 在云雾里] 10 金陵 现在 隐没 [argS: 在云雾里] [处所: 在云雾里] 此句中S未出现,从上文可知,“隐没在云雾里”的是大平府和金陵。句中出时间词“现在“需填入T中。
示例7 我俩就这样一个窗里,一个窗外地僵持着,一会儿,他执拗地近乎乞求地又动员我:“还是去吧,外面的夜色特别好,就去走一走。去吧,去吧!”
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 我 [处所: 窗里] 2 他 [处所: 窗外]
SS2
序号 S T E P 3 我 将来 [终点: 外面, 方向: 去] SS2句中是祈使句,其中的空间方位信息并未实现。T标注“将来”(预定义关键字),表示“我去外面”是将来之事。这是一种近似的时间信息标注方式。
示例8 平的单位在市郊,平去上班,单位是终点站。平下班回家,单位是起点站,平坐了几天车后,开始不满了。车到终点站,平要下车时,车下站满了要上车的人。车一停,这些人就往上挤,要挤上车去抢位子。这样便弄得车上的人下不去了。车上原本人多,只上不下,更挤。平常常被挤皱了衣服,踩脏了皮鞋。平这时便大叫:“先下后上,先下后上。”但平的声音很微弱,根本没人听平的。
(1)识别内含空间方位信息的标点句:
SS1: 平的单位在市郊
SS2: 平去上班,单位是终点站。平下班回家,单位是起点站
SS3: 平坐了几天车后,开始不满了
SS4: 车到终点站,平要下车时,车下站满了要上车的人
SS5: 车一停,这些人就往上挤,要挤上车去抢位子
SS6: 这样便弄得车上的人下不去了
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 平的单位 [处所: 在市郊]
SS2
序号 S T E P 2 平 上班 [arg0: 平, argS: 单位] [起点: 家, 终点: 单位] 3 平 下班 [arg0:平, argS: 家] [起点: 单位, 终点: 家]
SS3
序号 S T E P 4平坐 [arg0: 平, argS: 车][处所: 车]
SS4
序号 S T E P 5 车 [处所: 到终点站] 6平[处所: 车]7 要上车的人 平要下车时 站[arg0: 要上车的人, argS: 车下] [处所: 终点站车下] 第4条和第6条标注,并不是文中明示的空间信息,可以不标。
第7条标注:这句中时间义词语是“平要下车时”,从文本中选取这个片段填入T中。
SS5
序号 S T E P 8 这些人=要上车的人 车停之时 挤 [arg0: 这些人, argS: 往上] [方向: 往车上] 这句的T信息“车停之时”,选择“参照事件”是句中“车一停”中的”车停“,选择的“参照时间”是“之时”,组合为“车停之时”。
SS6
序号 S T E P F 9 车上的人 下去 [arg0: 车上的人] [起点: 车上, 终点: 车下] f SS6中谓词是“下去”,中间插入否定词“不”,采用F信息标注(Facticity),取值为false(f),标注当前这一条STEP信息为假。表示“车上的人”的起点信息和终点信息(“车上”和“车下”)不是真实空间信息:“车上的人从车上到车下”并非事实。
在标注界面上,f信息需要在”添加字段“的下拉菜单中选取”事实性“进行标注。
第9条标注是通过字面义推知的隐性信息,可标可不标。
示例9 回到里屋,在镜子面前用梳子拢了拢头发,换了一件只有四五个补钉的蓝布小衫子,她提了这篮子豆角,里边还装了十个鸡蛋,往工作队走,半道遇见韩长脖。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 她 [终点: 到里屋,方向: 回]
SS2
序号 S T E P 2 她 拢头发 [arg0: 她, arg3: 梳子] [处所:在镜子面前]
SS3
序号 S T E P 3 四五个补钉 [处所: 蓝布小衫子] 第3条STEP信息,可标可不标。这句并未凸显空间方位信息。
SS4
序号 S T E P 4 篮子 提[arg0: 她, arg1: 篮子] [处所: 她] 5 豆角 [处所: 篮子里边] 6 鸡蛋 装[arg1: 鸡蛋, argS: 篮子里边] [处所: 篮子里边] SS4句有“她提着篮子”的事件信息,这个E信息连带的空间信息,按常理是“篮子在她手上”。但因为字面上没有出现“手上”,在“篮子”的P信息中,只能选取字面上的“她”填入”处所“字段,作为”处所“的值。
第4条标注可标可不标。
SS5
序号 S T E P 7 她 走 [arg0: 她, argS: 往工作队] [方向: 往工作队] SS5中“工作队”指的是“工作队(办公场所)”。“往工作队走”表示“她”的位移方向,这里需要注意的是,“工作队”不能标注为P中的“终点”信息,而应该标注为“方向”信息。“工作队”只是潜在的终点,但并不一定是此次位移的终点。
SS6
序号 S T E P 8 她 遇见[arg0: 她, arg1: 韩长脖] [处所:半道]
示例10 它的图案为正圆形,由三部分构成,即上方的太阳,下方的叶片和中心的蓓蕾,描绘一幅在明媚阳光照耀下作物茁壮生长的景象。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 图案 [形状: 正圆形]
SS2
序号 S T E P 2 太阳 [部件处所: 图案上方, 处所: 蓓蕾上方] 3 叶片 [部件处所: 图案下方, 处所: 蓓蕾下方] 4 蓓蕾 [部件处所: 图案中心, 处所: 太阳下方 叶片上方] 由上下文可知,这里的“太阳、叶片、蓓蕾”都是图案中图画形状,属于信息空间中的实体。
SS2中字面上的空间信息,按照常理可以翻译为上表中第2条到第4条标注。其中部件处所的取值,都表达了这些信息空间实体的相对位置关系。
第4条标注中,“处所:太阳下方 叶片上方”,两个处所信息是并置关系(参见“并置”操作说明)。
示例11 审询室是一间小小的房间,里边陈设简单,只有一张方桌,三条板凳,桌子上方坐着两个人,一个是询问人,聂性初,穿了一身灰布人民装,看上去有四十上下年纪,其实不过三十刚出头,可是革命严峻的斗争在他的额头和眼角留下了痕迹,深深的皱纹和饱经风霜的皮肤就显得苍老了。他是法院刑庭的审判员,坐在他左边的青年是笔录人,叫马继平。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 一张方桌 有[arg0: 审讯室, arg1: 一张方桌,三条板凳] [处所: 审询室里边] 2 三条板凳 有[arg0: 审讯室, arg1: 一张方桌,三条板凳] [处所: 审询室里边]
SS2
序号 S T E P 3 两个人=聂性初 马继平 [处所: 桌子上方] 4 两个人 坐 [arg0:两个人, argS: 板凳] [处所: 板凳上] 5 聂性初=他=询问人 [处所: 桌子上方] SS2字面上是“桌子上方坐着两个人”,但按常理,人不会坐在桌子上。这里的“上方”表示“上座”,是一个带有文化属性的空间方位概念。根据常识可以知道,不是桌子上坐着两个人,而是桌子旁的板凳上坐着人。坐人的这个板凳是三条板凳中更靠里位置的板凳,也就是距离门更远的位置。可以推测:聂性初跟马继平坐在同一条板凳上。他们俩所坐的这条板凳,是离门最远的,另外两个板凳,分在桌子的两侧,也就是在坐着的人的左右两侧。受限于标注只能从原文的字符中取材,这里无法表达出“板凳”相对于“桌子”的位置关系。上表仅呈现了“两个人”跟“桌子上方”的方位关系,同时“两个人”跟“板凳”的方位关系。
SS3
序号 S T E P 6 马继平=笔录人 [处所: 桌子上方 聂性初左边 板凳上] 根据上下文可知,“马继平”的处所信息有3个,在上表中填入处所信息值时以空格分开。在标注工具界面上,是以并置方式将“桌子上方” “聂性初左边” “板凳上”这3个处所信息填入“处所”字段。
上面的STEP标注中,还需要补充“方桌=桌子”这个同指关系标注。
示例12 钱××驾驶农用三轮车,上乘赵××、刘××两人,由北向南行驶到上述地点时,适有李×驾驶切诺基小客车随后驶来,李×发现三轮车后,在制动向左打轮过程中,小客车的右前部与农用车的左后部相撞,小客车驾驶员李×受伤;农用车乘车人赵××受伤;驾驶员钱××受伤,送天坛医院抢救无效于当日死亡,两辆车损坏。
(1)识别内含空间方位信息的标点句:
(2)对每个SS,标注其中的S、T、E、P信息
SS1
序号 S T E P 1 钱×× 驾驶 [arg0:钱××, arg1:农用三轮车] [处所:农用三轮车上] 2 赵×× 刘×× 乘 [arg0:赵×× 刘××, arg1:农用三轮车] [处所:农用三轮车上]
SS2
序号 S T E P 3 农用三轮车 行驶 [arg0:农用三轮车] [方向:由北向南, 终点:到上述地点] 4 李× 驾驶 [arg0:李×, arg1:切诺基小客车] [处所:切诺基小客车] 5 切诺基小客车 驶 [arg0:切诺基小客车] [处所:农用三轮车后, 方向:由北向南 来]
SS3
序号 S T E P 6 切诺基小客车 打轮 [arg0:切诺基小客车] [方向: 向左] 7 切诺基小客车 相撞 [arg0:切诺基小客车, arg1:农用车] [部位: 右前部] 8 农用车=农用三轮车 相撞 [arg0:切诺基小客车, arg1:农用车] [部位: 左后部] 第7条标注,P信息是“部位: 右前部”,表示这是“切诺基小客车”的内部部位信息,而不是“切诺基小客车”所处的外部位置信息。
第8条标注,P信息是“部位: 左后部”,表示这是“农用车”的内部部位信息,而不是“农用车”所处的外部位置信息。
SS4
序号 S T E P 9 钱×× 当日 送 [arg1:钱××, argS:天坛医院] [终点:天坛医院] 10 钱×× 当日 死亡 [arg0:钱××] [处所:天坛医院]
文档最近更新时间:2022-06-30
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。