NLG12,n g 11

  NLG12,n g 11

  目录1。NN之前的摘要生成技术综述1.1抽取模型1.1.1 Py Teaser 1.1.2潜在语义分类法1.1.3文本排名1.1.4 HMM模型1.2基于分类模型的生成1.1.5系列

  1.NN 1.1抽取模型前的摘要生成技术综述

  从原文中提取单词和单词短语,形成摘要。

  1 . 1 . 1 py teacher http://www.Sina.com/is Scala项目TextTeaser的Python实现,这是一种提取文本摘要的启发式方法。

  对陈述进行排序,并选择与文档最相关的前5项陈述作为摘要。报表的整理包括以下四个方面:

  文档和句子标题共享的字数。关键词:对文本进行预处理后,根据字数统计出前10个关键词,通过比较文本中包含关键词的情况和关键词的分布来打分。在句子中的位置:比如每段第一句作为核心句的比例约为句子长度的70%:定义理想的句子长度,在更接近长度的距离给每一句打分。1 . 1 . 2 latentsmanticanalysis本文致力于博客。请阅读LSA撰写的摘要。

  1.1.3 TextRank TextRank将文本划分为若干个组成单元(句子),以节点间的相似度作为边权重,通过循环迭代计算句子的TextRank值,最后提取上面的句子形成文本摘要。介绍了抽取型文本摘要算法TextRank,用Python实现了TextRank算法,并介绍了从多领域文本数据中抽取句子摘要的应用。

  python3的实现

  算法解释

  计算句子向量之间的相似度矩阵,并将其转换为图结构。其中,节点是句子,边是句子之间的相似度得分。

  1.1.4分类模型将摘要的生成视为一个分类模型。这句话是否包含在摘要中。

  原文

  pyTeaser

  本文首先找出四个特点:

  表层:一个句子的外部特征内容:词语本身所表达的信息事件:文本所包含的事件特征关联性:这个句子与其他句子的关联性特征

  首先,通过监督学习,找出有效特征,训练监控模型。这种方法需要大量的标签数据。为了解决这个问题,引入了半监督学习。也就是说,在每一次研究中,未标记样本都是由分类器获得,并与标记数据一起重新训练。

  训练伪代码如下

  半监督学习示例代码

  自跟踪与合作跟踪的比较

  1.1.5基于序列的HMM模型1.2生成模型该方法的核心是找出文章的关键信息并编码成特征向量组,然后通过NLG系统生成摘要。初始生成方法是通过先验知识预先定义一些抽象模板,通过映射和平滑技术完成抽象生成任务。

  第二,基于神经网络的摘要生成。大多数基于神经网络的生成任务基本上分为三个阶段:

  如果将单词向量编码句子或上述句子编码向量提供给一个模型,则在提取方法中为模型句子排序或选择神经网络作为一种生成方法,可以用于上述三个步骤中的任何一个。第一步,可以使用Word2Vec、CW、GloVe等编码模型;第二步,可以用CNN或RNN提取句子或句子的特征;在步骤3中,神经网络可以作为规则被分类、选择(提取方案)或者作为解码格式被生成。

  2.1提取表达式摘要生成的任务主要基于多种选定的方法,因此有两个问题需要解决。一个是如何表达句子,一个是如何选择最合适的句子作为摘要。覆盖率和冗余度都要考虑。

  这里按时间顺序介绍五种抽取模型,分别介绍句子表示和句子选择的方法。

  2.1.1连续向量空间模型的原文使用连续向量空间模型。

  本文采用统一编码(RAE)对句子进行编码。第一,句子变成二叉树结构。例如,可以通过语法分析获得二叉树。这些节点的尺寸是相同的。

  在编码过程中,将叶子节点与左右子节点连接,然后通过线性变换和非线性变换得到节点的向量。

  这种语句的编码方式效果不是最好的,可能需要大量的标签数据,但是速度很快。

  【递归RAE开源】65http://NLP.Stanford.edu/so cherr/coderaevctorsnips 2011 . zip未下载。

  将句子分析成二叉树。

  在本文中,作者选择的抽象集合是优化问题:同时最大化句子差异

  确保输入文本的覆盖范围。这是一个NP难的问题,但是可以用模函数来解决,也就是只要把分集和覆盖函数分开求解,就可以解决这个问题。

  LinandBilmes在2012年解决了这个问题,

  2.2.2 CNNLM YinhePei在2015年提出使用CNN对句子进行编码,主要是通过上下文与window 5的卷积,然后进行pooling运算,捕捉句子中重要的语义信息作为句子编码。

  在句子选择的问题上,作者还是把它看成一个优化问题。

  q(s)=Is pi 2I,j S p i M i,j p j q(s)=\ alpha \ sum _ { I \ in s } \mathbf{p}_{i}^{2}-\sum_{i,j \ in s } \ mathbf { p } _ { I } \ mathbf { m } _ { I,j } \ mathbf { p } _ { j } q(s)=Ispi 2 I,jS pi Mi,j p j

  M \mathbf{M} M是句子向量相似度计算的结果矩阵。

  (未完待续。)

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: