搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大规模现代汉语分词语料库构建及应用
0.00     定价 ¥ 95.00
图书来源: 浙江图书馆(由JD配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787305271489
  • 作      者:
    黄水清,王东波
  • 出 版 社 :
    南京大学出版社
  • 出版日期:
    2023-11-01
收藏
作者简介

黄水清,南京农业大学信息管理学院二级教授、博导,江苏省“333高层次人才培养工程”第二层次培养对象。主持国家社科基金重大和重点项目。获教育部、江苏省科技进步二等奖、江苏省哲社优秀成果一等奖。研究方向为文本信息计量等。王东波,南京农业大学教授,博导。主持国家自然科学基金、国家社科基金重大项目。江苏省“333高层次人才培养工程”第三层次培养对象。研究方向为知识管理与知识发现。

展开
内容介绍

语料库是人工智能算法的训练集,直接决定了机器学习的运算效果。本书在系统综述语料库构建情况的基础上,选取2015年1-6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月的《人民日报》发表的全部文章为对象,制定分词规范,经过对原始数据的多次清洗、标注和校对,构建了新时代《人民日报》语料库。基于所构建的人民日报分词语料库,对新时代《人民日报》的字、词分布进行了多个维度的统计与分析,深入研究分词不一致问题。同时,开展了以下应用研究:结合深度学习模型,构建了具有实用价值的深度学习分词模型;结合系列机器学习模型,完成了对新时代《人民日报》语料的关键词抽取及分析;围绕所构建的新时代《人民日报》语料,利用深度学习模型,探讨摘要的自动生成问题;针对《人民日报》版面已有的类别知识,充分利用所构建的《人民日报》分词语料,构建了《人民日报》类别自动判定模型。

展开
目录
第1章 绪论
1.1 背景与目标
1.2 价值与意义

第2章 语料库研究及国内语料库的建设与发展
2.1 国内语料库研究的定量分析
2.1.1 发文量和发文时间
2.1.2 语料库研究学者合作分布
2.1.3 语料库研究主题演变
2.2 语料库的研究内容
2.2.1 语料库的构建
2.2.2 语料库的应用研究
2.3 国内代表性的语料库介绍
2.3.1 通用单语语料库
2.3.2 汉英双语平行语料库
2.3.3 其他汉外平行语料库
2.3.4 其他特色语料库
2.4 小结

第3章 NEPD语料库构建及测评
3.1 汉语分词语料及分词模型
3.2 原始语料获取及预处理
3.3 标注规范、过程及结果
3.4 NEPD语料库分词性能测评
3.4.1 分词性能比较的思路
3.4.2 性能测评与对比
3.5 小结

第4章 NEPD语料句长与词汇分布
4.1 句长与词汇分布的研究及NEPD的句子类型
4.2 字维度上的句长分布
4.2.1 2015年1月人民日报语料字维度上的句长分布
4.2.2 2015年2月人民日报语料字维度上的句长分布
4.2.3 2015年3月人民日报语料字维度上的句长分布
4.2.4 2015年4月人民日报语料字维度上的句长分布
4.2.5 2015年5月人民日报语料字维度上的句长分布
4.2.6 2015年6月人民日报语料字维度上的句长分布
4.2.7 2016年1月人民日报语料字维度上的句长分布
4.2.8 2017年1月人民日报语料字维度上的句长分布
4.2.9 2018年1月人民日报语料字维度上的句长分布
4.2.10 2022年1月人民日报语料字维度上的句长分布
4.3 词维度上的句长分布
4.3.1 2015年1月人民日报语料词维度上的句长分布
4.3.2 2015年2月人民日报语料词维度上的句长分布
……

第5章 面向NEPD语料的分词歧义分析
第6章 面向NEPD语料的深度学习分词模型构建
第7章 面向NEPD语料的新闻关键词抽取
第8章 面向NEPD语料的新闻自动摘要
第9章 面向NEPD语料的新闻文本自动分类
第10章 面向NEPD语料的新闻词汇级检索
第11章 结语

参考文献
附录
后记
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证