Quantcast
Viewing all articles
Browse latest Browse all 214

这就是篇章分析

摘要:篇章分析的最终目标是从整体上理解篇章,最重要的任务是分析篇章结构。篇章结构包括:语义结构,话题结构,指代结构等。 有学者认为篇章有7个基本特征:衔接性,连续性,意图性,信息性,可接受性,情景性和跨篇章性。其中衔接性,连续性,意图性和信息性对自然语言产生了很多影响。(本文原创,转载必须注明出处.)

概述

篇章是形式上互相衔接、语义上前后连贯的句子序列。有以下3种:

  • 1.文章:新闻稿、博客、微博
  • 2.评论:O2O服务的用户评论、豆瓣的影评、微博上的动态
  • 3.对话:话题上是相互衔接的、语义上也是连贯的一个对话序列

Image may be NSFW.
Clik here to view.

篇章的变迁

  1. 内容生态: 新浪 -> 百家号、今日头条(自媒体)
  2. 用户成为信息的生产中心: web 1.0 -> 百度贴吧、新浪微博、团购网站(用户评论,富有个人情感和用户观点的信息)
  3. 移动、无屏: 显示屏 -> 手机、Siri(展示的终端)

篇章分析的应用

篇章分析重要性:让人们最平等便捷获取信息找到所求

  1. 个性化信息获取(搜索引擎的理解和推荐):从搜索的角度来看,通过对内容的深入理解,我们能够精准地对内容进行分析,然后将内容推荐给需要的用户,达到不搜即得。
  2. 便捷咨询阅读(头条的热门推荐):从资讯阅读的角度来看,我们通过对内容进行概括总结、形成摘要,就能搞让用户更快捷地浏览信息、获取知识。
  3. 信息直接满足:更进一步说,对用户的问题,我们可以基于内容理解,直接给出答案,从而满足用户的需求。

总之:通过篇章分析,我们能够进行内容理解,从而更好地服务用户。

篇章分析任务

Image may be NSFW.
Clik here to view.


内容标签

标签: 这种种的单词词组都是一种标签的形式

  1. 新闻稿,打出关于该报道的各种各样的标签,来表示其关键信息
  2. 论文中,我们也会表明一些文章的领域分类以及关键词等标签
  3. 微博用#代表一个话题,这是典型的社会化标签

标签用途

  1. 关键信息展示:用户可以大致了解文章的主要信息,从而决定要不要对信息进行进一步深入地浏览
  2. 类别划分:在很多的媒体网站,经常会有类别划分,使用了就是文章的分类标签
  3. 话题聚合:标签也可以用来做话题聚合(例如:#人民的名义# 集合所有关于这个话题的信息,让用户更深入的了解信息)

应用:个性化推荐

  • 标签可以用来建立用户的画像:比如对对于用户搜索过的问题,还有他浏览过的文章,都可以通过标签的技术。提取出主要的兴趣点,从而也就建立了用户的画像
  • 标签可以对内容进行建模:通过标签技术,我们能够提取文章中的关键信息标签。这样来看标签就作为了用户和内容的一个共同表示。
  • 推荐的时候,我们通过对用户画像的标签和内容模型的标签进行匹配,就能够对用户进行一个精准的个性化推荐

百度内容标签

Image may be NSFW.
Clik here to view.

标签体系:面向推荐的标签图谱

  • 标签图谱刻画了用户的兴趣点,以及兴趣点之间的关联关系。
  • 节点表示了用户的兴趣点,而边表示了兴趣点之间的关联关系(边是带有权重的,表示关联强度)。
  • 包括3种节点:主题标签-绿色,话题标签-紫色,实体标签-蓝色。
  • 有了关联关系,我们可以进行一定程度的探索和泛化。(例如:无人驾驶和人工智能关联很强,如果有人看了无人驾驶,我们就给他推荐人工智能)

Image may be NSFW.
Clik here to view.

标签体系:基于大数据分析的图谱构建

  • 用户信息来源:贴吧、微博
  • 标签的相关性分析:通过关联规则,发现2个标签总同时出现,我们觉得这是高相关的。

Image may be NSFW.
Clik here to view.

标签计算

主题分类

  • 主题标签的计算,是一种很典型的文本分类问题:传统的朴素贝叶斯、最大熵、SVM 等解决方案。
  • 当前我们主要采用的是:基于神经网络的方法(可以看右侧的示意图)
  • 整个网络分成3层次:
    • 第一层 原始特征层:抽取简单的原始特征,例如说文章出现的单词、词组 等等
    • 第二层 表示层:通过一些 embedding的算法、CNN、LSTM的方法
    • 第三层 排序层:计算文章与主题之间的相似度,具体会计算每个主题与文章的相似度,并将相似度作为最终的一个主题分类的结果。这种计算的好处能够天然的支持多标记,也就是一篇文章可以同时计算出多个主题标签。

Image may be NSFW.
Clik here to view.

通用标签

  • 通用标签主要是计算内容中的实体和话题,我们综合了两种策略。
  • 第一种策略: 针对比较热门的高频标签
    • 这种标签我们主要通过一些预测的方法得到,预测的方法:基于相似度计算得到的---这种方法并不要求标签一定在文章中出现
    • 例如:美国大选这种标签,如果一篇文章出现了 希拉里 特朗普 辩论 等一些词,即使没有出现美国大选,我们通过语义相似度的方法也能把这个标签计算出来。
  • 第二种策略: 面向中低频的标签
    • 这种标签相关的信息,不是那么丰富,所以我们计算的时候更多依赖的是标签在文章中的信息
    • 比如:这个标签在文章中出现的频率 或 出现的位置;如果出现在标题,那么它可能就会比较重要。
  • 通过融合这2种策略,形成我们通用标签的结果。

Image may be NSFW.
Clik here to view.

内容标签在Feed流中的应用

  1. 标签可以用来话题聚合:比如表示人工智能的标签全部都会集合到同一个话题下面。这样用户可以对人工智能这个话题进行非常充分的浏览。
  2. 话题频道划分:比如我们在手机百度上面就可以看到,Feed流上面有多个栏目,用户可以点击 体育 时尚等频道

Image may be NSFW.
Clik here to view.


情感分类

用户评论剧增:服务评论 商品评论 社交评论

情感分析应用

常常应用在消费决策 舆情分析等领域。

情感分类 和 观点挖掘

  • 对(文本的)观点、情感、情绪和评论进行分析计算

Image may be NSFW.
Clik here to view.

情感分类

  • 给定一个文本判断其情感的极性,包括积极、中性、消极。
  • LSTM 对文本进行语义表示,进而基于语义表示进行情感分类。

Image may be NSFW.
Clik here to view.

观点挖掘

  • 观点聚类:主要目标是对大量的评论数据进行聚类,将相同的观点抽取出来,并形成一个情感搭配词典(算法是:搭配抽取、词法分析、聚类归一,从而获得一个情感搭配。我们就可以进行观点抽取)
  • 观点抽取:就是对输入的文本进行计算,将其中的情感标签抽取出来,这里的标签,都是来自于情感搭配词典的,也就是观点聚类获得的词典。
    • 观点抽取一种简单的做法是直接通过标签匹配的方式得到,比如:服务不错这个情感搭配,恰好在文本中出现,我们就可以把它抽取出来。
    • 但是这种简单的抽取方法,其实上只能从字面上抽取情感搭配,而无法解决字面不一致的,但是意思一样的情感搭配抽取,因此我们还引入了语义相似度的方法。这种方法主要是通过神经网络进行计算的。它能解决这种字面不一致,语义一样的抽取问题。

Image may be NSFW.
Clik here to view.

观点摘要

综合了情感分类和观点挖掘的一些技术,而获得的一个整体的应用技术

Image may be NSFW.
Clik here to view.

百度应用:评论观点

Image may be NSFW.
Clik here to view.

百度应用:推荐理由

Image may be NSFW.
Clik here to view.


自动摘要

信息爆炸与移动化

Image may be NSFW.
Clik here to view.

自动摘要应用

  • 便捷信息浏览
    • 我们可以为每个新闻抽取摘要,用户可以通过摘要快速了解新闻概况。
    • 进而决定是否要进一步细致地浏览。
    • 而更进一步说:摘要还可以直接进行信息满足。
  • 信息满足
    • 传统搜索得到一大批网页信息
    • 现在通过问答技术我们能够将网页中最核心的片段摘要提取出来。
    • 用户通过阅读片段,就可以直接得到满足,而不需要打开页面。

自动摘要

  • 对海量内容进行提炼与总结
  • 以简洁、直观的摘要来概括用户所关注的主要内容
  • 方便用户快速了解与浏览海量内容

Image may be NSFW.
Clik here to view.

  • 自动摘要分类

Image may be NSFW.
Clik here to view.

  • 典型摘要计算流程

Image may be NSFW.
Clik here to view.

基于篇章信息的通用新闻摘要

Image may be NSFW.
Clik here to view.

篇章主题摘要

Image may be NSFW.
Clik here to view.

问答摘要

Image may be NSFW.
Clik here to view.

百度应用

文本和语言摘要

Image may be NSFW.
Clik here to view.

问答摘要

Image may be NSFW.
Clik here to view.

搜索播报摘要和图像摘要

Image may be NSFW.
Clik here to view.

总结

Image may be NSFW.
Clik here to view.


参考文献

  1. 自动文摘
  2. 中文维基百科
  3. 图书:《机器学习实战》
  4. 图书:《自然语言处理理论与实战》

完整代码下载

源码请进【机器学习和自然语言QQ群:436303759】文件下载:Image may be NSFW.
Clik here to view.
自然语言处理和机器学习技术QQ交流

Image may be NSFW.
Clik here to view.

作者声明

本文版权归作者【白宁超】所有,转载请联系作者:1938036263@qq.com,但未经作者同意禁止转载,转载后需在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。


Viewing all articles
Browse latest Browse all 214

Trending Articles