文本摘要

何为摘要?

对于文本的关键信息抽取, 从而决定是否要深入阅读, 以节约阅读时间. 如新闻标题, 论文的简介, 书本的序言, 章节等. 长一点的文章, 会给一个类似目录结构指引. 对于严谨的技术性文章书本, 结构性写作手法, 段落章节结构清晰, 甚至每段的第一句亦可作为摘要快速浏览.

一般论文除了有摘要, 也会提供关键词, 便于检索, 亦可视作内容分类标签.

遗憾的是, 很多论文摘要”林志玲”, 正文”罗玉凤”, 摘要有宣传夸大嫌疑, 容易被坑到. 新闻也有类似问题, 一切以点击率为KPI导向, 导致制造各种吸睛震惊体标题. 网络内容农场, 以及算法生成内容, 不断注水洗稿, 导致获取有效信息难度增加.

现实业务场景: 爬取短文本分析 (广告语, 用户评论, 弹幕等), 会议总结, 群消息总结, 文章去水, 等

文本摘要实现路线

看场景区分, 是要抽取文中提及关键词, 还是要生成通顺的总结语句. 是否限定使用文章词, 还是可以使用非文章词做总结. 以及对内容的抽象程度.

例:

具体算法

词云场景

词云场景: 相关文本的热词, 如商品描述, 评论分析, 新闻报道

衍生出来, 需对于词性分类, 如正负向情感, 提及地点, 具体表述主体 (如物流评价, 商家沟通, 商品质量维度, 等等), 以及我们场景 (成分词, 营销词, 产品描述词, 优惠词, 等等)

词云相关需求处理方式

何为”关键词”? 有意义的高频词, 无有效信息的词=停用词

但是词在具体上下文里面才有意义, 会导致错误的信息视角, 如, “来玩这款游戏, 和氪金说拜拜”, 如果统计出来高频词”氪金”, 就和实际表意扭曲.

TextRank抽取关键词

PageRank回顾

有向图结构, 每个节点有得票, 并分给相邻节点, 评分越高的节点, 投出的的权重越大

With great power comes great responsibility

TextRank: Bringing Order into Texts

文本如何视作图结构?

TextRank具体计算过程

  1. tokenization, 切词, 为了避免节点爆炸只用unigram
  2. syntactic filter, 词性过滤
  3. 对于词距离在N以内的构建边关系
  4. PageRank计算评分并排序
  5. 后处理, 合并连词

直观理解:

显然不适用于如广告语等基本没有重复词的短文本, 更适合长文本处理.

DEMO TIME

以上是对于关键词提取任务的讨论, 同样适用于关键句提取. 两个句子的度量, 可以用编辑距离或者其他文本相似度度量等来构建边关系, 毕竟重要的句子总是车轱辘话反复换着花样重申.

文本摘要评价指标 / ROUGE

同翻译等文本生成任务 (文本扩写, 翻译, 知识问答, …) 一样, 很难有客观评价

一段文本可以多个不同的标注结果, 并且可以对不同词有权重 (得分点), 因此评价结果对于标注参考答案敏感

评价输出和标注的词重合度

ROUGE / Recall Oriented Understudy for Gisting Evaluation

类似IOU, 但是区分RECALL分母是标注长度, PRECISION分母是输出长度

指标只能作为参考, 实际质量还是得人工主观感受

HOME