基于HNC的现代汉语句子级语义标注语料库的研究和建立
定 价:55 元
- 作者:刘智颖
- 出版时间:2015/2/1
- ISBN:9787516155769
- 出 版 社:中国社会科学出版社
- 中图法分类:H1
- 页码:
- 纸张:胶版纸
- 版次:1
- 开本:16K
《基于HNC的现代汉语句子级语义标注语料库的研究和建立》针对自然语言处理资源建设方面的需求,从语义的角度、句子的层面研究建立句子级语义标注语料库。
《基于HNC的现代汉语句子级语义标注语料库的研究和建立》以HNC(概念层次网络)理论句类体系为基础,探讨了句子级语义标注语料库的标注内容、标注方法和标注难点,确定了XML的标注规范,设计了语料库的查询工具。
《基于HNC的现代汉语句子级语义标注语料库的研究和建立》是HNC理论在资源建设方面的研究与发展。该语料库的建设与研究不仅对于计算机理解语义具有重要意义,而且对语言学工作者也具有一定的参考价值。
刘智颖,2010年毕业于北京师范大学语言学及应用语言学专业,获博士学位。现任北京师范大学中文信息处理研究所讲师,硕士生导师。主要研究方向为中文信息处理。在国内学术期刊及自然语言处理的国际会议发表论文20余篇,参编信息处理用词典一部。曾主持国家“865”项目“中文信息处理应用基础研究”的“句子级语义标注的现代汉语语料库”课题,并作为主要研究人员参与了多项国家865课题和国家科技支撑计划课题的研究。
第一章 绪论
第一节 中文信息处理的研究热点
第二节 基于HNC的现代汉语句子级语义标注语料库
第三节 本书的研究内容
一 标注项
二 标注方式
三 管理工具功能设计
第四节 已有的研究
一 现代汉语词义标注语料库
二 汉语框架语义标注语料库
三 语义结构标注语料库
第五节 本书的结构安排
第二章 HNC理论及其句类思想
第一节 HNC理论简介
第二节 HNC的句类思想
第三节 句类及句类知识
一 基本句类
二 混合句类
三 复合句类
第三章 HNC语义标注语料库的设计
第一节 语料的采集
第二节 语料的加工
一 标注规模
二 标注特点
三 标注形式
第四章 HNC语义标注语料库的标注规范
第一节 XML语言介绍
一 XMlL的历史
二 XML的内容
三 XML的特点和优点
第二节 HNC语义标注语料库的XML标注规范
一 XML文档
二 Schema模式
三 XSL转换
第五章 HNC语义标注语料库的标注
第一节 标注内容
一 篇头信息
二 篇体信息
第二节 标注难点
一 语义块核心要素的部分缺省
二 包装品与分离语
三 “的”字短语
四 “所”字结构
五 基于全句理解的句类
第六章 语料标注工具的设计与使用
第一节 TXTxML文档的转换
第二节 XMLspy标注工具的使用
一 XMLSpy工具介绍
二 语料的标注
三 检查与验证
第七章 HNC语义标注语料库查询工具
第一节 查询工具的特点
一 快捷的查询速度
二 友好的查询界面
三 强大的查询功能
第二节 查询工具的功能设计
一 数据的存储
二 数据库的操作
三 语料查询
第八章 HNC语义标注语料库的应用
第一节 在语言本体研究方面的应用
第二节 在中文信息处理方面的应用
第三节 在语言教学方面的应用
第四节 结语
附录
附录1 HNC句子级语义标注语料库的xML规范
附录2 HNC句子级语义标注语料库标注文档示例
参考文献
后记
《基于HNC的现代汉语句子级语义标注语料库的研究和建立》:
复杂句分为共享句与无共享句以及介于两者之间的半共享旬三种类型。共享句是指分句间存在广义对象语义块整体共享现象的复句。《HNC(概念层次网络)理论》中定义的复合句实际上就是共享句。半共享句是指分句问存在局部共享(即要素共享)现象的复句。无共享句是指分句间不存在共享现象的复句。共享句中有两个特殊子类:一是迭句(居后句子的第一个广义对象语义块共用居前句子的第一个广义对象语义块),二是链句(居后句子的第一个广义对象语义块共用居前句子的最后一个广义对象语义块)。(池毓焕,2005)
我们用来标注复杂句。复杂句的类型信息我们用内所包含的属性type进行标记,type的取值表示复杂句的各个类型。取值为“1”表示无共享句,即分句的各语义块之间不存在共享;取值为“2”表示迭句;取值为“3”表示链句;取值为“4”表示复杂共享句,指分句内的某个整语义块共享分句内或分句外多个语义块或半个语义块,或分句内的某半个语义块共享分句内或分句外多个语义块的情况,因具体语义块共享情况比较复杂,故称为复杂共享句,《基于HNC的现代汉语句子级语义标注语料库的研究和建立》对其内部的各种复杂共享情况暂不进行分类表示;取值为“5”表示无共享句,指分句内的语义块完整,不存在共享其他语义块的情况。复杂句元素本身不提供句类信息,句类信息蕴含在其包含的(sentence)子元素里面。
除了子元素外,复杂句下面还包含、和元素。元素用来标注关联词语信息,元素用来标注独立语信息,元素用来标注辅块信息,复杂句下面的辅块是复杂句所包含的分句的共同辅块,而非某一个特定分句的辅块,特定分句的辅块信息会标注在子元素里面。
元素既可以表示简单句,也可以表示复杂句的分句。主要包含下列元素:广义对象语义块、特征语义块、辅语义块、关联语、独立语、分离语。其中语义块是句子构成的基本单位。分离语是指从语义块中分离出来的部分。HNC认为,语义块存在构成和分离的现象,因此需要对分离部分做出语义标记,分离语是HNC特有的语义标注信息。
……