Quantcast
Channel: 我爱自然语言处理
Viewing all articles
Browse latest Browse all 205

这就是篇章分析

$
0
0

摘要:篇章分析的最终目标是从整体上理解篇章,最重要的任务是分析篇章结构。篇章结构包括:语义结构,话题结构,指代结构等。 有学者认为篇章有7个基本特征:衔接性,连续性,意图性,信息性,可接受性,情景性和跨篇章性。其中衔接性,连续性,意图性和信息性对自然语言产生了很多影响。(本文原创,转载必须注明出处.)

概述

篇章是形式上互相衔接、语义上前后连贯的句子序列。有以下3种:

  • 1.文章:新闻稿、博客、微博
  • 2.评论:O2O服务的用户评论、豆瓣的影评、微博上的动态
  • 3.对话:话题上是相互衔接的、语义上也是连贯的一个对话序列

篇章的变迁

  1. 内容生态: 新浪 -> 百家号、今日头条(自媒体)
  2. 用户成为信息的生产中心: web 1.0 -> 百度贴吧、新浪微博、团购网站(用户评论,富有个人情感和用户观点的信息)
  3. 移动、无屏: 显示屏 -> 手机、Siri(展示的终端)

篇章分析的应用

篇章分析重要性:让人们最平等便捷获取信息找到所求

  1. 个性化信息获取(搜索引擎的理解和推荐):从搜索的角度来看,通过对内容的深入理解,我们能够精准地对内容进行分析,然后将内容推荐给需要的用户,达到不搜即得。
  2. 便捷咨询阅读(头条的热门推荐):从资讯阅读的角度来看,我们通过对内容进行概括总结、形成摘要,就能搞让用户更快捷地浏览信息、获取知识。
  3. 信息直接满足:更进一步说,对用户的问题,我们可以基于内容理解,直接给出答案,从而满足用户的需求。

总之:通过篇章分析,我们能够进行内容理解,从而更好地服务用户。

篇章分析任务


内容标签

标签: 这种种的单词词组都是一种标签的形式

  1. 新闻稿,打出关于该报道的各种各样的标签,来表示其关键信息
  2. 论文中,我们也会表明一些文章的领域分类以及关键词等标签
  3. 微博用#代表一个话题,这是典型的社会化标签

标签用途

  1. 关键信息展示:用户可以大致了解文章的主要信息,从而决定要不要对信息进行进一步深入地浏览
  2. 类别划分:在很多的媒体网站,经常会有类别划分,使用了就是文章的分类标签
  3. 话题聚合:标签也可以用来做话题聚合(例如:#人民的名义# 集合所有关于这个话题的信息,让用户更深入的了解信息)

应用:个性化推荐

  • 标签可以用来建立用户的画像:比如对对于用户搜索过的问题,还有他浏览过的文章,都可以通过标签的技术。提取出主要的兴趣点,从而也就建立了用户的画像
  • 标签可以对内容进行建模:通过标签技术,我们能够提取文章中的关键信息标签。这样来看标签就作为了用户和内容的一个共同表示。
  • 推荐的时候,我们通过对用户画像的标签和内容模型的标签进行匹配,就能够对用户进行一个精准的个性化推荐

百度内容标签

标签体系:面向推荐的标签图谱

  • 标签图谱刻画了用户的兴趣点,以及兴趣点之间的关联关系。
  • 节点表示了用户的兴趣点,而边表示了兴趣点之间的关联关系(边是带有权重的,表示关联强度)。
  • 包括3种节点:主题标签-绿色,话题标签-紫色,实体标签-蓝色。
  • 有了关联关系,我们可以进行一定程度的探索和泛化。(例如:无人驾驶和人工智能关联很强,如果有人看了无人驾驶,我们就给他推荐人工智能)

标签体系:基于大数据分析的图谱构建

  • 用户信息来源:贴吧、微博
  • 标签的相关性分析:通过关联规则,发现2个标签总同时出现,我们觉得这是高相关的。

标签计算

主题分类

  • 主题标签的计算,是一种很典型的文本分类问题:传统的朴素贝叶斯、最大熵、SVM 等解决方案。
  • 当前我们主要采用的是:基于神经网络的方法(可以看右侧的示意图)
  • 整个网络分成3层次:
    • 第一层 原始特征层:抽取简单的原始特征,例如说文章出现的单词、词组 等等
    • 第二层 表示层:通过一些 embedding的算法、CNN、LSTM的方法
    • 第三层 排序层:计算文章与主题之间的相似度,具体会计算每个主题与文章的相似度,并将相似度作为最终的一个主题分类的结果。这种计算的好处能够天然的支持多标记,也就是一篇文章可以同时计算出多个主题标签。

通用标签

  • 通用标签主要是计算内容中的实体和话题,我们综合了两种策略。
  • 第一种策略: 针对比较热门的高频标签
    • 这种标签我们主要通过一些预测的方法得到,预测的方法:基于相似度计算得到的---这种方法并不要求标签一定在文章中出现
    • 例如:美国大选这种标签,如果一篇文章出现了 希拉里 特朗普 辩论 等一些词,即使没有出现美国大选,我们通过语义相似度的方法也能把这个标签计算出来。
  • 第二种策略: 面向中低频的标签
    • 这种标签相关的信息,不是那么丰富,所以我们计算的时候更多依赖的是标签在文章中的信息
    • 比如:这个标签在文章中出现的频率 或 出现的位置;如果出现在标题,那么它可能就会比较重要。
  • 通过融合这2种策略,形成我们通用标签的结果。

内容标签在Feed流中的应用

  1. 标签可以用来话题聚合:比如表示人工智能的标签全部都会集合到同一个话题下面。这样用户可以对人工智能这个话题进行非常充分的浏览。
  2. 话题频道划分:比如我们在手机百度上面就可以看到,Feed流上面有多个栏目,用户可以点击 体育 时尚等频道


情感分类

用户评论剧增:服务评论 商品评论 社交评论

情感分析应用

常常应用在消费决策 舆情分析等领域。

情感分类 和 观点挖掘

  • 对(文本的)观点、情感、情绪和评论进行分析计算

情感分类

  • 给定一个文本判断其情感的极性,包括积极、中性、消极。
  • LSTM 对文本进行语义表示,进而基于语义表示进行情感分类。

观点挖掘

  • 观点聚类:主要目标是对大量的评论数据进行聚类,将相同的观点抽取出来,并形成一个情感搭配词典(算法是:搭配抽取、词法分析、聚类归一,从而获得一个情感搭配。我们就可以进行观点抽取)
  • 观点抽取:就是对输入的文本进行计算,将其中的情感标签抽取出来,这里的标签,都是来自于情感搭配词典的,也就是观点聚类获得的词典。
    • 观点抽取一种简单的做法是直接通过标签匹配的方式得到,比如:服务不错这个情感搭配,恰好在文本中出现,我们就可以把它抽取出来。
    • 但是这种简单的抽取方法,其实上只能从字面上抽取情感搭配,而无法解决字面不一致的,但是意思一样的情感搭配抽取,因此我们还引入了语义相似度的方法。这种方法主要是通过神经网络进行计算的。它能解决这种字面不一致,语义一样的抽取问题。

观点摘要

综合了情感分类和观点挖掘的一些技术,而获得的一个整体的应用技术

百度应用:评论观点

百度应用:推荐理由


自动摘要

信息爆炸与移动化

自动摘要应用

  • 便捷信息浏览
    • 我们可以为每个新闻抽取摘要,用户可以通过摘要快速了解新闻概况。
    • 进而决定是否要进一步细致地浏览。
    • 而更进一步说:摘要还可以直接进行信息满足。
  • 信息满足
    • 传统搜索得到一大批网页信息
    • 现在通过问答技术我们能够将网页中最核心的片段摘要提取出来。
    • 用户通过阅读片段,就可以直接得到满足,而不需要打开页面。

自动摘要

  • 对海量内容进行提炼与总结
  • 以简洁、直观的摘要来概括用户所关注的主要内容
  • 方便用户快速了解与浏览海量内容

  • 自动摘要分类

  • 典型摘要计算流程

基于篇章信息的通用新闻摘要

篇章主题摘要

问答摘要

百度应用

文本和语言摘要

问答摘要

搜索播报摘要和图像摘要

总结


参考文献

  1. 自动文摘
  2. 中文维基百科
  3. 图书:《机器学习实战》
  4. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:自然语言处理和机器学习技术QQ交流

作者声明

本文版权归作者【白宁超】所有,转载请联系作者:1938036263@qq.com,但未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。


Viewing all articles
Browse latest Browse all 205

Trending Articles