本书以三农信息资源服务为目的,研究了三农信息资源服务的理论和实现技术;分别研究了三农概念簇的知识表示、基于混合策略的三农FAQ系统、面向三农问句分类,以及面向三农的答案抽取等关键技术;构建出面向三农问答系统。本书将问答系统融合到三农信息资源服务中,为我国三农信息资源服务提供一种新的服务模式,对拓展信息资源服务理论具有积极意义。
序
以数字化、网络化、智能化为特征的信息化浪潮为三农信息化发展营造了强大势能。政府和研究机构针对农业生产、农民生活以及农村建设方面的事务提供了大量的信息资源,对促进农村社会经济发展、提高农民的生产能力和生活水平都产生了十分重要的帮助作用。问答系统(Question
Answering System,
QA)是信息检索系统的一种形式,它能用准确、简洁的自然语言回答用户提出的问题,是目前人工智能和自然语言处理领域中一个具有广泛发展前景的研究方向。针对我国三农领域信息资源服务中尚未全面、深入的引入问答系统的相关理论和方法的现状,本书较为系统地阐述了问答系统的技术原理和中文信息处理的相关知识,将FAQ系统和Web自动问答技术应用到当前的三农信息资源服务中,研究满足问答系统的三农知识表示方式;研究融合HowNet以及三农概念簇等计算FAQ问句匹配算法;研究综合利用自然语言处理、机器学习等方法实现三农问句分类和答案抽取的理论和方法;构建了面向三农FAQ和Web自动问答系统模型。
本书是作者在参与国家社科基金重点项目过程中的研究成果,相关的方法研究和技术研究颇具新意。该书将问答系统的理念和技术应用于三农信息服务中,特别是三农问答系统的构建,三农概念簇知识表示、FAQ检索匹配,以及自动问答系统的三农问句分类和答案抽取等关键技术,拓展了信息服务的理论方法;对三农信息资源充分利用能产生积极的推动作用,从而能进一步促进现代信息技术在农村发展中的应用,有利于缩小我国城乡间的信息鸿沟。
本书的主要贡献是从三农信息需求出发,将问答系统融合到三农信息资源服务中,为我国三农信息资源服务提供一种新的服务模式的理论和实践,对其他领域开展类似研究也具有较好的参考价值和借鉴意义。希望本书的出版,有助于促进问答系统在三农信息服务广泛、深入应用,也希望有更多的领域、机构参与到三农问答系统的理论和实践研究中来。
朱学芳
南京大学信息管理学院教授,博士生导师
张军亮,1983年生,河南省林州市人,南京大学情报学博士,新乡医学院副教授,研究方向为信息资源管理。代表作有《基于任务驱动的个性化<医学信息检索>教学模式》《生物和医药技术领域知识生产分析基于863计划科技报告》等。
第1章 绪论
1.1 研究背景
1.1.1 社会环境
1.1.2 技术环境
1.1.3 三农信息服务需求
1.2 问答系统发展现状
1.2.1 问答系统的历史
1.2.2 问答系统概念及分类
1.2.3 问答系统体系结构
1.2.4 三农问答系统研究
1.3 研究内容
1.3.1 三农知识表示
1.3.2 面向三农FAQ技术研究
1.3.3 三农问题问句分类技术研究
1.3.4 三农问题答案抽取技术研究
1.4 研究方法及意义
1.4.1 研究方法
1.4.2 研究意义
1.5 本书的组织结构
第2章 中文信息处理基础
2.1 引言
2.2 分词
2.2.1 分词概述
2.2.2 分词方法
2.2.3 中科院分词
2.3 句法分析
2.3.1 句法分析概述
2.3.2 句法分析理论及方法
2.4 知网(HowNet)
2.5 本章小结
第3章 三农概念簇表示研究
3.1 引言
3.2 文本分类相关研究
3.3 基于规则的三农词表的构建
3.3.1 三农词表数据结构设计
3.3.2 基于DOM树的网页抽取
3.3.3 基于正则表达式的信息抽取
3.4 基于KNN的三农概念簇表示
3.4.1 特征抽取
3.4.2 基于KNN的三农概念簇形成
3.5 实验及结果分析
3.5.1 实验设计
3.5.2 评价标准
3.5.3 实验结果分析
3.6 本章小结
第4章 基于混合策略的三农FAQ系统研究
4.1 引言
4.2 FAQ系统相关研究
4.3 三农FAQ中问题相似度算法
4.3.1 基于句子词的表层相似度
4.3.2 基于句法分析的语义相似度
4.3.3 基于LSA的问句与答案相似度
4.3.4 三农FAQ的综合相似度
4.4 实验结果及分析
4.4.1 实验设计
4.4.2 实验结果分析
4.5 本章小结
第5章 三农问句分类研究
5.1 引言
5.2 问句分类相关研究
5.3 三农问句的分类体系
5.4 三农问句分类的特征选择
5.5 基于规则模板的三农问句粗分类
5.5.1 基于规则问句分类算法
5.5.2 问句规则模板的抽取算法
5.6 基于SVM三农问句精细分类研究
5.6.1 SVM分类器
5.6.2 三农问句特征向量
5.7 实验结果及分析
5.7.1 实验设计
5.7.2 问句类别统计
5.7.3 实验结果分析
5.8 本章小结
第6章 三农问答系统答案抽取研究
6.1 引言
6.2 相关研究
6.3 基于农业知识库的答案抽取
6.3.1 AGROVOC知识库
6.3.2 基于关系组的答案抽取
6.4 基于线索词的原因性问句答案抽取
6.4.1 原因性问句的候选答案
6.4.2 基于模板的答案抽取
6.5 基于语义摘要的方式性问句答案抽取
6.5.1 自动文摘概述
6.5.2 基于主题词的文摘自动抽取
6.6 实验结果及分析
6.6.1 评价标准
6.6.2 实验结果评价
6.7 本章小结
第7章 面向三农问答系统构建实现
7.1 系统运行环境
7.1.1 服务器环境
7.1.2 客户端环境
7.2 系统技术
7.2.1 Java
7.2.2 Ajax
7.2.3 Google
Ajax Search
API
7.2.4 HtmlParser
7.3 系统的设计构建与实现
7.3.1 系统逻辑结构设计
7.3.2 系统实现
7.4 本章小结
第8章 结束语
8.1 本书工作和创新之处
8.2 研究不足及后续研究展望
8.3 本章小结
参考文献
后 记