获取
文摘阅读:
全文阅读:
下载:
第三方链接:
[成果]
0501230074
北京
[TP3, H19]
应用技术
[公共软件服务, 社会人文科学研究与试验发展]
公布年份:2004
成果简介:北京语言大学在国家863计划、国家自然科学基金和教育部项目的支持下,研制成功了面向语言教学研究的汉语语料检索软件系统CCRL。该软件可对汉语文本进行检索,检索目标包括字串、词串、词属性串及词与词属性的混合串。使用该软件无需人工标注就能基于任何词表、任何词属性体系和词属性标注,对任何生语料全自动地生成索引并进行检索,能在较高准确率的基础上保证查全率,声称索引和进行检索的速度很快,从而能在极大程度上提高检索效率,使语言教学和语言研究工作者不仅能摆脱收集语言实例卡片的繁重劳动,而且使过去不可能实现、甚至不可能想象的大规模语言现象调查工作成为可能,从而能大大提高语言研究水平,促进语言教学(特别是对外汉语教学)和语言信息处理的发展。
CCRL还有多项辅助功能。如能自动发现新词语,并有方便的人机界面确认新词语并确定其属性;可以根据汉语拼音、笔画对检索结果的上下文自动排序;能提供检索出的实例的出处信息;能自动提供任意文本的字频、词频的统计和排序信息,包括未登录词的信息;检索结果和统计结果既可以按文本方式提供,也可以按数据库方式提供。CCRL的创新技术有:高速准确的自动分词算法,索引与用户词库自动关联的方法,动态识别的专名与用户词表中词语统一编码的方法,将词形、词属性、词出现位置、词出现上下文的出处以压缩方式进行编码的方法,高效的文本字串(词串)按上下文排序的算法等。CCRL软件系统已经对8亿多字的各种文体的汉语文本语料库建立了字索引和多种词语属性索引,词语属性包括语法、语义、语音、构词等方面,并已取得多项有意义的研究成果。CCRL网络测试版已在北京语言大学语言信息处理研究所网站(http://clip.blcu.edu.cn)发布,全球的用户都可自由使用。
2004年1月13日,教育部在北京语言大学组织和主持了CCRL检索系统的技术鉴定。鉴定委员会一致认为该系统设计思想新颖、检索效率高,已得到成功试用,达到了该领域国际领先水平。
CCRL的推广对象为国内外大学中文系、语言学系,语言研究所,从事汉语词典编纂业务的出版社,从事中文信息处理的研究开发单位。