当前位置:主页 > 新闻热点 >正文

深度学习文本分类在支付宝投诉文本模型上的应用

作者: 丈哥 分类: 新闻热点 发布时间: 2019-01-12 13:25

随着深度学习的快速发展,以及在图像、语音领域取得的不错成果,基于深度学习的自然语言处理技术也日益受到人们的关注。计算机是怎么理解人类的语言的呢?

传统机器学习的应用,常常是利用上述人工总结的文本特征,但往往会遇到一些问题。比如“猫”和“咪”这两词语的语义很接近(即近义词),但计算机并不能真正的在词语语义层面理解,只是把他们当作了两个不同的词语。再比如“小狗”和“小猫”是很相关的两个词语,也不能被很好的理解和刻画。

本文主要介绍了深度学习中的文本分类任务,以及一些应用于文本分类的深度学习模型。文本分类是自然语言处理领域最经典的场景之一,试图推断出给定的文本(句子、文档等)的标签或标签集合。通过这些技术,计算机能够更好地理解人类的语言。

针对支付宝投诉欺诈场景,蚂蚁金服人工智能团队设计了多个文本深度学习模型。包括双向GRU,Capsule Network和Attention-based Model等等,均在支付宝投诉欺诈场景上取得了不错的效果。大家一起来看看吧!

深度学习文本分类在支付宝投诉文本模型上的应用

背景介绍

对于风控业务,用户的投诉是理解黑产运作方式和监控风控变化的重要形式。风险决策中心每天会得到大量用户投诉文本信息,每个投诉文本通常对应一定的风险形式。目前分类模型只解决了部分对于文本信息利用率的问题。目前支付宝投诉欺诈场景主要应用到的深度学习模型有TextCNN和双向GRU。

相关工作分析

本文的主要目的是想介绍一下深度学习中的文本分类任务,以及一些应用于文本分类的深度学习模型。文本分类是自然语言处理领域最经典的场景之一,试图推断出给定的文本(句子、文档等)的标签或标签集合。

文本分类中包含了大量的技术实现,从是否使用了深度学习技术作为标准来衡量,可以将这些技术实现分为两大类:基于传统机器学习的文本分类和基于深度学习的文本分类。

文本分类的应用非常广泛,其中比较有常见的应用有垃圾邮件分类,情感分析,新闻主题分类,自动问答系统中的问句分类以及一些现有的数据竞赛等。现有的数据竞赛包括知乎的看山杯机器学习挑战赛,BDCI2017的比赛“让AI当法官”和Kaggle的比赛“Toxic Comment Classification Challenge”等。

文本分类中主要有三种分类类型,包括二分类问题,多分类问题以及多标签问题。比如垃圾邮件分类中判断邮件是否为垃圾邮件,属于一个二分类问题。在情感分析中,判断文本情感是积极还是消极,或者判断文本情感属于非常消极,消极,中立,积极,非常积极中的一类,既可以是二分类问题也可以是多分类问题。在BDCI 2017的比赛“让AI当法官”中,基于案件事实描述文本的罚金等级分类和法条分类,分别属于多分类问题和多标签分类问题。

文本分类的评价指标会根据不同的分类类型有各自不同的评价指标。二分类问题中常常用到Accuracy,Precision,Recall和F1-score等指标;多分类问题往往会使用到Micro-Averaged-F1,Macro-Averaged-F1等指标;多标签分类问题中则还会考虑到Jaccard相似系数等。

在基于传统机器学习的文本分类中,一般采用TF-IDF和Word Counts提取不同word n-gram的文本特征,然后将提取到的文本特征输入到Logistics回归、Naive Bayes等分类器中进行训练。但是当统计样本数量比较大的时候,就会出现数据稀疏和维度爆炸等问题。这时候就需要做一些特征降维处理,比如停用词过滤,低频n-gram过滤,LDA降维等。

随着深度学习的快速发展,以及在图像、语音领域取得的不错成果,基于深度学习的自然语言处理技术也日益受到人们的关注。传统机器学习的应用,是利用上述人工总结的文本特征,但往往会遇到一些问题。比如“猫”和“咪”这两词语的语义很接近(即近义词),但计算机并不能真正的在词语语义层面理解,只是把他们当作了两个不同的词语。再比如“小狗”和“小猫”是很相关的两个词语,也不能被很好的理解和刻画。

为了解决上述问题,让计算机一定程度上能够理解词语的语义,词向量技术应用而生。Mikolov et al. 2013 [1] 提出了word2vec模型,可以通过词语上下文的结构信息,将单词的语义映射到一个固定的向量空间中。如果需要判定两个词语的语义相似度(或相关度),只需要计算两个词向量的夹角余弦或欧式距离等即可。比如,“小狗”与“小猫”的相似度值就会很高。凭借词向量算法,计算机有了一定的词语语义上的理解能力。


本文链接地址:https://www.0471seo.com/news/1970.html
  • 上一篇:<<Airbnb数据团队主管:如何将数据科学家的工作一分为三?

  • 下一篇:Google首席决策师告诉你AI和数据科学团队需要哪10种角色?>>
  • 如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!