首页 > 中心动态 > 技术动态

基于社交媒体挖掘的真假信息传播特征及原因分析

2018-06-20

Science 2018.3上的一篇论文看起来很有意思,于是花了点时间稍微阅读了一下。里面涉及到一些典型的互联网大数据处理技术,包括LDA主题模型、情感分析、文本相似性、词向量(段落向量)、逻辑回归、Twitter机器人Bot账号检测算法、以及各种统计方法。当然更重要的是该文的思路和逻辑性,认真看必将有收获。

研究动机

虚假传言信息会导致各种资源分配不当,特别是恐袭、自然灾害、股票投资、选举等一些重要领域下的虚假信息使得社会救援力量分配不当或者投资者决策出现错误。虚假传言的传播效果及其影响因素有哪些? 目前对此研究大都主观性强,缺乏一些大规模数据分析来支撑。本文是典型的社交媒体大数据挖掘分析的例子,也是本人关注的主要领域之一。

一个基本概念

为了更好表述文章的思路,需要解释信息传播中的一个基本概念--信息级联(cascade)。每个传言开始出现后经过不断的转发就形成了信息级联,每个传言的传播效果由若干个信息级联构成。因此,对于一个传言来说,其信息级联的个数、所有信息级联的深度和宽度、以及信息级联中所涉及的总人数和独有(unique)人数是衡量传言传播的主要参数。一个传言的一个信息级联如图所示,每个节点代表一个参与传播的用户,最小的级联只包含一个节点。

数 据

作者使用了Twitter上2006-2017期间的所有真实和虚假传言作为数据集,该数据集中包含了2448个传言的126301个级联信息,其中有 1699 个虚假信息的82605个级联,490个真实信息的24409个级联,259个不确定信息的19287个级联。从传言内容上看,这些传言涉及到政治、恐袭、科学、商业、娱乐、自然灾害、城市新闻等7个典型话题。

这个数据集的构造并不是很容易的一件事,涉及到以下的处理:

(1)关于传言的话题,有的可以直接从推文上的tag得到,对于没有话题tag的推文,作者通过人力(3人模式)的方式进行了标注。

(2)对于传言的真假性,使用网络服务调用方式从一些提供传言证实的网站进行了确认,这些网站包括snopes.com, politifact.com, factcheck.org, truthorfiction.com, hoax-slayer.com,以及 urbanlegends.about.com. 这些网站服务能够为每个传言返回一个值,即“False”, “Mostly False”, “Mixture”, “Mostly True” 或“True”。作者把“False”和“Mostly False”归为虚假传言,“Mostly True” 和“True”归为真实传言,剩下的为不确定传言。

(3)考虑到有一些传言是以图片方式表达,因此他们使用了一个OCR算法从图片中识别文字,形成了传言文本。

(4)考虑到有些传言可能存在标题和内容不太一致的情况(类似于我们经常说的“标题党”),作者对每个原始推文的标题和文本分别采用ParagraphVec和Tweet2Vec 算法将它们转换成为一个向量,进而计算两个向量的相似性(cos),当相似度达到0.9的才最终被选入到数据集中。

数据观察结果

论文的目的是为了寻找影响虚假传言传播的因素,因此先基于数据集对真实传言和虚假传言进行了级联深度、广度和大小的统计,发现不管在哪个角度上,虚假传言的这些特征值都比真实传言大。

图中,红色的线是虚假传言,绿色是真实传言。纵坐标是互补累积分布函数(CCDF),横坐标就是各个级联的特征。

数据观察结果

有了观察结果,接下来就要去解释为什么会有上述的结论,是什么因素影响了虚假传言最终的传播结果,这是文章的重点,因为找到这些因素后才有可能对虚假传言进行干预、识别或降低其影响。

但是要这些影响因素并不是一件容易的事,(深度学习能做到吗?显然不行。)我喜欢这篇文章的原因就是因为论文作者并没有赶时髦去用深度学习这种玄乎无法解释的方法。

而具体的过程充分体现了具体领域和大数据结合的思想。他们首先按照直观或普通大众可能会做的推断,认为社交媒体(Twitter)参与虚假传言转发的用户可能具有很多粉丝、可能具有较高的权威,才使得虚假信息传播效果与真实传言显著不同。为此,文章对参与虚假传言转发的用户从粉丝、关注、是否验证、是否活跃以及账号的使用年限等方法进行了描述性统计(Descriptive statistics)。结果显示相比于真实传言,转发虚假传言的用户的粉丝并不多、不活跃、也没有验证。进一步采用逻辑回归对转发虚假传言的这些因素进行了分析。

描述性统计:

逻辑回归:

在一般性观点失效之后,作者认为是传言的新奇性促使了很多人转发虚假信息的推文。对于社交媒体上的用户,如果某一天他看到的推文与他在这以前所看到的信息内容差别越大,就认为该推文的新奇度越大。因此,文章定义了新奇度的计算方法。把用户在转发某个虚假推文d之前60天内的信息作为历史数据,衡量推文d与这些历史数据在内容上的差异。

为了进行量化计算,对历史数据采用LDA进行主题建模(200个主题数),然后计算d和这些主题的相似度或距离,指标包括IU距离(information uniqueness)、KL散度、BD距离(Bhattacharyya Distance),对每个转发行为进行平均值和标准差的计算。图中红色的是虚假传言、绿色的是真实传言,可以看出虚假传言对用户而言具有更高的新奇度。至于为什么新奇度能够促进用户转发,作者的解释是新奇的信息吸引人们的注意力,能够更新我们对世界的理解。

虽然从量化结果看,虚假传言的新奇度更大,但是尚没有证据表明,社交媒体用户转发虚假传言的推文是因为它的新奇度,因此,文章进一步从用户转发时的观点/情绪来判断。这种情绪是从某个用户在转发虚假推文时留下的评论中提取的。

为此,作者基于National Re-search Council Canada (NRC)的情感词汇列表,在这个列表中每个词汇被标注为8种情感之一,即anger, fear, anticipation, trust, surprise, sadness, joy, and disgust。

将用户的回复推文(reply tweets)进行停用词、用户名等清洗之后,与情感词列表中的词汇进行匹配(尽管这种情感识别方法非常简单,但是Science的主编并没有因此而拒掉它,可能推文本身简短适合吧),从而计算出每个回复推文在这8种情感上的分布值。同样也对每个情感的传言进行了平均和方差的计算,结果显示虚假传言中用户转发时表达了更多的surprise(因此证实了作者提出的假设)和disgust情绪,而真实传言的转发中则表达了更多的sadness、Joy、trust和anticipation情绪。

作者最后又进行了健壮性分析(Robustness Analysis),从选择性偏差、社交媒体中的机器人(Bot)转发等方面分析了结果的可信性。发现是否排除机器人账号对文章的结论并无影响,在Twitter账号是否是机器人账号判断时,使用了一个开放的网站服务https://truthy.indiana.edu/botornot/, 只要提供账号就可以得到bot or not的结果。Botornot算法的具体介绍在WWW 2016上, A. Davis, O. Varol, E. Ferrara, A. Flammini, F. Menczer, Botornot: A system to evaluate social bots, in Proceedings of the 25th International Conference Companion on World Wide Web (ACM, 2016).



END.



注:本文转载于 互联网大数据处理技术与应用