1. SpaCE2022课题组通过计算机程序收集了大量自然文本语料,用途是进行句子空间方位语义理解研究。空间方位语义指句中有关于实体在物理空间中的方位信息,包括静态的方位信息和动态的方位信息,前者如“会议室里有一张大桌子”;后者如“他们把会议室的大桌子搬出去了”。请注意: (1)这里的“物理空间”是日常生活中可以观察、可以感知的的客观的几何空间,如“操场上、会议室里、大桥下”等。不包括比较主观的抽象空间,如“印象中”、“概念中”等。 (2)除典型的“物理空间”外,还有一些“信息空间”,比如“微信中”、“名单里”、“信里”等,一般也有可观察、可感知的客观的“物理载体”,因此这类信息空间也属于本课题关注的空间方位信息。
2. 收集到的自然文本语料已经过计算机程序自动分词和词性标注处理,并对方位词、趋向动词、处所词 进行了高亮显示(名词不再高亮)。方位词、处所词都可表示方向或位置,趋向动词表示位置的移动。下表是三个词类的释义和举例。
| 词类 | 释义 | 例子 |
|---|---|---|
| 方位词 | 方位词表示带有参照点的方向或相对位置关系,如“上”、“下”、“左”、“右”、“前”、“后”、“旁”等。方位词表示的相对位置既可以是空间也可以是时间,本文仅关注方位词表达的空间语义。 | “桌子上面”、“大树下”中的“上”、“下”是方位词,表示空间;“春节前”中的“前”是方位词,表示时间。 |
| 趋向动词 | 趋向动词是表达趋向意义的动词,趋向指相对于某个参照点的位置移动,如“来”、“去”、“进”、“出”、“回”、“进来”、“出去”、“出来”等。 | “去上海”、“下乡去”、“回家”、“进屋”、“把子弹从身体中取出来”中的“去”、“回”、“进”、“出来”是趋向动词,表示位置移动。趋向动词不表示位移义的例子:“他看上去很疲惫。”“两轮谈判下来,大家都筋疲力尽。”中的“上去”“下来”已彻底虚化,不表实际位移。 |
| 处所词 | 处所词表示空间位置,可用“哪里”提问,可做“在”的宾语。 | “在民间”、“在远处”中的“民间”和“远处”属于处所词。 |
| 问题范围/焦点 | 问题描述 | 标注时对应的选项(按钮) | 标注方式 |
|---|---|---|---|
| 整段 | 无空间方位义、复杂难懂、句段不完整 | 该段落不表达空间方位义/复杂难懂/不完整 | 归类 |
| 整段 | 字、词、符号错误 | 该段落存在错别字以及符号错误 | 标识+归类+修改 |
| 方位词 | 并不表达空间方位义 | 红色词(方位词)不表达空间方位义 | 标识+归类 |
| 趋向动词 | 并不表达空间方位义 | 橙色词(趋向动词)不是表达空间方位义的趋向动词 | 标识+归类 |
| 句段中高亮的方位词、趋向动词、处所词 | 高亮的方位词、趋向动词、处所词存在分词错误(不考虑词性标注错误) | 高亮词存在分词错误 | 标识+归类 |
语料来源于多个领域,有普通日常语言的文本,还有专业领域的文本,比如体育领域人体动作类语料、地理百科类语料等。
选项1: 该段落不表达空间方位义/复杂难懂/不完整:仅需做“归类”操作。请注意:冒号结尾的句子,如果冒号前的句义完整,则不属于“不完整”。
示例1 由谁去充任那些苦难的角色?又有谁去体现这世间的幸福,骄傲和快乐?只好听凭偶然,是没有道理好讲的。
【句子整体无空间方位义。标注者应选择“ 该段落不表达空间方位义/复杂难懂/不完整”。】
示例2 在双臂快速向下摆动的同时身体跳起。单脚落地支撑,
【句尾处是逗号“,”,整个句子意思不完整。标注者应选择“ 该段落不表达空间方位义/复杂难懂/不完整”。】
选项2: 该段落存在错别字以及符号错误:需做“标识+归类+修改”操作
示例3 我们沿者小路散步到井房,房顶上盛开的金银花芬芳扑鼻。莎莉文老师把我的一只手放在喷水口下,一股清凉的水在我手上流过。
【句中红色高亮词“沿者”是“沿着”之误。标注者应用鼠标选中“沿者”,点选“该段落存在错别字以及符号错误”,在弹出的文本框内修改为“沿着”。】
示例4 在双臂快速向下摆动的同时身体跳起。单脚落地支撑,呈稳定的单腿运动姿,注意膝盖不要超过脚尖)并保持身体稳定。
【句中标红的标点符号“)”错误。标注者应用鼠标选中“脚尖)并”,点选“该段落存在错别字以及符号错误”,在弹出的文本框内修改为“脚尖并”。】
示例5 在双臂快速向下摆动的同时身体跳起。单脚落地支撑,呈稳定的单腿运动姿,注意膝盖不要超过脚尖并保持身体稳定
【此句语义是完整的,但句尾缺少句号。标注者应用鼠标选中“稳定”,点选“该段落存在错别字以及符号错误”,在弹出的文本框内,在”稳定“后添加一个句号,即修改为“稳定。”】
示例6 发展简史安徽最古的文化属距今约4000多年的龙山文化。此后,由于淮河流域毗邻当时经济、文化比较先进的中原地区,开发较早。《左传》记载“禹会诸侯于涂山,执玉帛者万国”。涂山就在今怀远县。春秋、战国时代(公元前770~前221),省境中、西部属于楚国领域,寿春(今寿县)曾为楚国国都。
【此句语义是完整的,在地理百科类文本,有小标题嵌入文段的情况,例如“发展简史安徽”可将其改成“发展简史:安徽”。应用鼠标选中“发展简史安徽”,点选“该段落存在错别字以及符号错误”,在弹出的文本框内,修改为“发展简史:安徽”】
选项3: 红色词(方位词)不表达空间方位义:需做“标识+归类”操作
示例7 1563年制定的英国《学徒法》中有这样的规定:“所有的工匠和工人,在3月中旬至9月中旬的期间内,早上应于时钟显示5点或5点前上岗。
【句中红色高亮词“前”,在此处表达时间概念,并不是表示空间方位义。标注者应用鼠标选中“前”,然后点选“红色词(方位词)不表达空间方位义”。】
示例8 仰卧,整个身体在放松的状态下躺在地面或垫子上,目视上方,双手放在身体两侧,自然摆放。
【句中红色高亮词“下”,在此处不表示空间方位义。标注者应用鼠标选中“下”,然后点选“红色词(方位词)不表达空间方位义”。】
选项4: 橙色词(趋向动词)不是表达空间方位义的趋向动词:需做“标识+归类”操作
示例9 我常梦想着在人间彻底消灭残疾,但可以相信,那时将由患病者代替残疾人去承担同样的苦难。
【句中橙色高亮词“去”不是表达空间方位义的趋向动词。标注者应用鼠标选中“去”,然后点选“橙色词(趋向动词)不是表达空间方位义的趋向动词”。】
示例10 清晨,我去公园玩,一进门就闻到一阵清香。我赶紧往荷花池边跑去。
【请注意:这里的趋向动词“去”表达空间方位义。此句不应归入“橙色词(趋向动词)不是表达空间方位义的趋向动词”。标注者应选择“无上述问题”。】
选项5: 高亮词存在分词错误(分词错误指的是把不是词的单位误识为词):需做“标识+归类”操作。请注意:名词不再高亮,即名词的分词错误不再标注。
1.句中红色高亮方位词存在分词错误
示例11

示例12
【句中红色方框内高亮的“前右脚”属于切分错误。标注者应用鼠标选中“前右脚”,然e="font-family:楷体">我平安地上了岸,踽踽地走着,偶然把头回过去,只看见一个微弱的灯光,一高一低地向着东方走去。
【句中红色高亮词“地上”是分词错误。标注者应用鼠标选中“地上”,然后点选“高亮词存在分词错误”。】
示例13

【句子红色方框内高亮词“门锁上”是分词错误。标注者应用鼠标选中“门锁上”,然后点选“高亮词存在分词错误”。】
2.句中绿色高亮处所词存在分词错误
示例14

【句中绿色高亮词“天上”是分词错误。标注者应用鼠标选中“天上”,然后点选“高亮词存在分词错误”。】
示例15 有一天,天气很冷,我和一位同事站在公司大门前谈话。
【句中绿色高亮词“门前”是分词错误。标注者应用鼠标选中“门前”,然后点选“高亮词存在分词错误”。】
示例16 有一天,天气很冷,我和一位同事站在公司门前谈话。
【请注意:此句中“门前”被视作为一个词,不是分词错误。“门前”可以合在一起作为处所词(用绿色高亮),也可以分开成为“名词+方位词”组合,分别用蓝色和红色高亮为“门前”。两种处理方式均可。不需要归入“高亮词存在分词错误”。此句应点选“无上述问题”。】
选项6: 无上述问题
示例17

【该段落是正常的含有空间方位义的文本】
注意事项
1. 一个语段可能存在多个问题,或一个问题出现多次,所有问题均需标注。标注一个问题之后,如发现还有新的问题,可点击“继续增加标注”按钮来标注新的问题。
示例18


【此句中存在多个错误,“门锁上”存在分词错误,“月匙”为“钥匙”之误。标注者应在第一步标注了“门锁上”的错误后,点击按钮“继续增加标注”,然后用鼠标选中“月匙”,修改为“钥匙”。】
2. 如果选择了选项1“无空间方位义、复杂难懂、句段不完整”或者选项5 “无上述问题”,则这个句段标注完成,可以不用考虑其他选项。
3. 本课题收集语料目的仅为研究之用,为避免在计算机自动处理过程中产生不当信息内容,若句子政治性很强,比如涉及国家大政方针、党的理论,国家领导人等信息;或有国家法律法规不允许传播的内容,比如色情内容,涉恐信息等,就归入整句无空间方位义。不再进入后续标注流程。
step1: 用户登录网站 点击网址
step2: 输入 姓名 和 密码 。

step3: 点击「开始标注」按钮,进入标注页面。

step4:根据当前句子情况,点击「该段落不表达空间方位义/复杂难懂/不完整」 、「该段落存在错别字以及符号错误」、「红色词(方位词)不表达空间方位义」、「橙色词(趋向动词)不是表达空间方位义的趋向动词」 、「高亮词存在分词错误」、 「无上述问题」6个按钮中的一个进行标注。标注完成后点击「保存并继续」,直至标完事先分配好的任务,界面就会提示 「没有下一条了」。
Tips
标注工具仅支持电脑端chrome、firefox浏览器。
如有任何问题,请联系小组长。
文档最近更新时间:2022-04-03
北京大学SpaCE2022评测任务课题组
本项目得到国家科技创新2030“新一代人工智能”重大项目——“以自然语言为核心的语义理解理论、模型与方法”(项目号:2020AAA0106701)支持。