本书在系统调研已有文本表示研究的基础上,基于深度神经网络的理论基础和前沿应用,针对各异的隐晦文本的特征因场景,构建了侧重不同隐晦文本特征的深度神经网络模型,实现了更精准和鲁棒的识别效果。互联网对青少年儿童来说并非绝对安全之地,其触手可及和信息爆炸增长的特性使得隐晦信息可以更容易地传播和扩散。为了躲避已有的信息审核系统,隐晦文本倾向使用比喻、借代等修辞手法,避免应用与主题直接相关的常用敏感词,使寻常的文本可以传达隐晦的言外之意。目前,互联网内容提供平台和电子商务平台常出现以隐晦文本为载体,传播辱骂、讽刺、色情和涉政等不良信息的情况。本书理论研究和技术实现相结合,全面系统地描述了隐晦文本识别研究进展。
编写本书的初衷是为了 深人探讨互联网内容的隐晦 文本的审核问题.并提出创 新的解决方案。互联网的快 速发展给青少年带来了许多 潜在的安全隐患,其中隐晦 信息的传播和扩散成为一个 不可忽视的问题。为了规避 传统信息审核系统的过滤, 隐晦文本通常使用比喻、借 代等修辞手法,避免直接使 用常见的敏感词汇。通过言 外之意来传达隐晦信息,这 也给互联网内容提供平台和 电子商务平台针对不良信息 的审核带来了挑战。 本书的取材范围涵盖了 隐晦文本在不同场景中的多 样性特征。通过系统调研已 有的文本表示研究。我们基 于深度神经网络的理论基础 和前沿应用,构建了适用于 不同场景、侧重不同隐晦文 本特征的深度神经网络模型 ,以实现更加精准、鲁棒的 识别效果。本书包括了理论 研究和技术实现两个方面, 系统地描述了隐晦文本识别 研究的进展。本书的主要特 点在于将隐晦文本的语言特 性与关联用户行为特征相结 合。提升了模型的表达能力 和鲁棒性,不仅关注隐晦文 本本身的特点,还探索了用 户在互联网场景中的行为模 式,从而更好地理解和识别 隐晦文本。这种综合考虑使 得审核模型在不同场景下都 能取得良好的效果。 本书的应用范围广泛, 适合互联网内容智能审核从 业人员和文本理解领域专业 人员阅读参考.读者可了解 隐晦文本识别领域的最新进 展和方法,并掌握应对互联 网巾隐晦信息传播的技术。 编写本书的过程充满了 挑战。在研究过程中,面对 隐晦文本的多样复杂特点. 需要通过不断探索,努力寻 找解决方案。同时,我也深 感隐晦文本审核领域的困难 ,包括数据标注和模型训练 等方面的挑战。尽管本书提 供了一些创新的解决思路。 但对于不同场景和新兴形式 的隐晦文本,仍需要进一步 的研究和实践来不断改进模 型的准确性和适应性。 在本书的编写过程中, 我得到了许多人的帮助和支 持,尤其是出版社的编辑。 在此向所有给予我支持和鼓 励的人表示衷心感谢。另外 ,特别感谢我的导师和同事 ,他们提供了宝贵的建议和 指导,使本书得以顺利完成 。同时·我也要感谢那些为 本书提供数据和资源的机构 和个人,没有他们的贡献, 我无法进行深入的研究和实 验。最后,要特别感谢我的 家人.正是他们的包容和提 醒,才使本书得以顺利出版 。 我南衷地希望本书能为 读者提供有关隐晦文本审核 领域的全面知识和启发,并 在实际应用中发挥积极的作 用。相信通过不断的研究和 创新,我们可以共同构建一 个更加安全和健康的互联网 环境。 谢谢大家的支持和关注 !祝阅读愉快,从本书中获 得所需的知识和见解。 2024年4月19日
贺国秀,华东师范大学经管部信息管理系讲师,晨晖学者,武汉大学情报学博士(2016-2021),新加坡南洋理工大学联合培养博士(2019-2020),阿里达摩院研究型实习生(2018-2021)。
0 绪论
0.1 研究背景与研究意义
O.1.1 研究背景
O.1.2 研究意义
0.2 国内外研究现状
0.2.1 隐晦文本表示研究
O.2.2 用户行为分析研究
O.2.3 相关研究总结与评述
O.3 研究方法与研究思路
O.3.1 研究方法
0.3.2 研究思路与研究方案设计
O.4 研究内容与创新点
0.4.1 研究内容
0.4.2 研究创新点
1 相关概念与理论基础
1.1 本研究相关概念
1.1.1 互联网内容提供平台中的隐晦文本
1.1.2 电子商务平台中的隐晦文本
1.1.3 小结
1.2 深度神经网络的相关理论和方法
1.2.1 卷积神经网络
1.2.2 循环神经网络
1. 2.3注意力机制
1.2.4 小结
1.3 基于深度学习的自然语言处理
1.3.1 语言模型和词嵌入
1.3.2 文本分类
1.3.3 文本生成
1.3.4 小结
2 基础文本表示模型
2.1 着眼于上下文信息高度依赖的模型
2.1.1 背景介绍
2.1.2 专注整体信息的门控循环单元
2.1.3 实验
2.1.4 结果和讨论
2.1.5 小结
2.2 局限性
3 基于隐晦文本内容特征的识别模型
3.1 针对比喻词的隐晦文本识别模型
3.1.1 场景简述
3.1.2 通渎精读模型
3.1.3 实验
3.1.4 结果和讨论
3.1.5 小结
3.2 面向汉字形变和音变的隐晦文本识别模型
3.2.1 场景简述
3.2.2 打水漂模型
3.2.3 实验
3.2.4 结果和讨论
3.2.5 小结
3.3 局限性
4 结合隐晦文本内容特征和关联用户行为特征的识别模型
4.1 结合用户阅读行为的隐晦小说识别模型
4.1.1 场景简述
4.1.2 内容和人类注意力的联合学习模型
4.1.3 实验
4.1.4 结果和讨论
4.1.5 小结
4.2 结合用户搜寻行为的隐晦商品识别模型
4.2.1 场景简述
4.2.2 BIRD模型
4.2.3 实验
4.2.4 结果和讨论
4.2.5 小结
4.3 局限性
5 基于临时额外交互特征的识别模型
5.1 基于循环交互的隐晦商品识别模型
5.1.1 场景简述
5.1.2 循环渗透机
5.1.3 实验
5.1.4 结果和讨论
5.1.5 小结
5.2 局限性
6 总结与展望
6.1 研究总结
6.2 研究局限
6.3 未来研究方向
参考文献