Facebook用户行为被第三方操纵?

摘要

本期推荐的美国学者Pravallika Devineni等2017年发表于Social Network Analysis and Mining的Facebook wall posts: a model of user behaviors一文。作者选取了7000多名facebook用户作为研究对象,跟踪研究其墙上活动,并建立模型。结果发现:Facebook用户行为的12个特征都可以通过PowerWall进行描述,所有R2>0.97,这表明该模型具有很好的适用性;不管时间间隔或用户数量是多少,斜率参数ρ非常接近于1;此外,也存在一些异常行为(特殊用户都会在睡眠时间内的某一时间段被唤醒,或是在某一时间段内有周期性的发帖子),这是由第三方应用程序自动生成导致的。

引言

Facebook wall可以表明用户行为?Facebook是一个强大的社交网络,大约拥有17.9亿的用户。每个Facebook用户都有一个wall,可以描述为他们的“空间”,还有一个向用户提供来自朋友wall聚合信息的新闻源。Facebook wall是用户在线社交互动的主要场地,分析faceboook用户行为的一个挑战是,用户在facebook上发表帖子、点赞、评论朋友的帖子、发布游戏等讯息。在这里,我们专注于在用户墙上出现的活动,并且我们尝试检测常见行为和令人惊讶的行为。另外,我们还讨论了第三方Facebook应用程序对Facebook用户墙壁发布行为的影响。我们在三个不同的年份内,以4个月的间隔对7000多名用户(其中1000名左右重叠)进行了广泛研究。表1为分析中使用的主要符号及其定义。

Table1  Symbols and definitions


用户的帖子根据内容分为3种类型:纯文字型、带有照片或者视频的帖子、带链接型;根据帖子创作者帖子可以分为用户自创型、代朋友转帖型。每个帖子属于一个这样的类别,Facebook本身分配一个类型,作者也在研究中使用。图2描述了用户可以在Facebook墙上发表的几种帖子。


数据介绍

数据集由Facebook用户在墙上分享信息的活动组成,数据通过用户自愿安装的Facebook应用程序收集。这款应用程序收集了用户的所有帖子,不管这些帖子的隐私设置如何。作者分析了2011年、2012年和2013年(每年4个月)的共7310个用户的大约250万个帖子。表2总结了所有的数据集,在三个数据集中有近1000个用户重叠。


这些数据是键值对的无序列表,在JSON2格式中可用。对于每个帖子,作者获取一组描述帖子元数据的字段。如果该帖子是通过一个Facebook应用程序发布,那这些字段包括该帖子的原始作者、帖子创建的时间、点赞和评论的数量、链接、照片以及ID和名称等。

特征选择:对于每个用户,我们最初从墙贴上提取了22个特征。特征类别的区分:(1)帖子总数,自己和朋友的数量;(2)互动情况,即点赞和评论;(3)帖子类型,即链接、照片、状态和视频;(4)帖子的隐私设置——所有的朋友、自定义和自我;(5)朋友的数量;(6)活跃的工作日和周末的数量,即用户在用户墙上创建了至少一个帖子的天数。也有一些我们想要提取的功能,但因为我们的数据集的限制不能提取到。最终,作者选择12个对每个用户特性具有指导意义的特征(以墙为中心衡量单个用户行为),详见表3。

表3  Features and fefinitions


研究结果

1、powerwall可以描述Facebook用户行为一组特性的经验分布

本研究发现,Facebook用户行为的12个特征都可以通过Power Wall进行描述。作者使用R2来评估模型的拟合优度:R2越接近1,模型越适合数据。图4显示了D-12数据集中六个特征的优势比分布及其线性近似。所有R2>0.97,这表明模型具有很好的适用性。所有特征及参数近似的综合列表如表5所示。



2、不管时间间隔或用户数量是多少,斜率参数ρ非常接近于1

在图5中,作者绘制了D-12数据集中捕获的2012年所有12个特征的R2和斜率ρ。近似性相当强,斜率一直接近于1。实际上,对于这三年的所有12个特征,除了仅自己可见的帖子(F9),R2的总和始终在0.95以上。这种普遍性表明,PowerWall是通过Facebook墙观察用户行为的良好模型。此外,PowerWall优势比的斜率始终在0.9-1.3的范围内,且每个特征ρ值保持不变,令人惊讶。图6显示了总体分布(F1)的这种稳定性。在左图上,我们看到三年来三个不同数据集中ρ和R2的稳定性。对这一点感兴趣,我们希望通过查看每周间隔来进一步测试。在右图上,将数据集D-12的4个月持续时间分为每周间隔,并绘制帖子总数(F1)特征的R2和斜率ρ。





3、一些用户行为令人惊讶

初步证据表明,一些facebook用户行为与PowerWall模型存在偏差,而此偏差通常是由奇怪的、往往是类似机器人的行为造成的。一些特征的R2值为0.97或更高,但用户墙的两个功能链接类型帖子(F7)和状态类型帖子(F9)具有较低的拟合度0.94。在进一步检查他们的PowerWall优势比时,作者注意到尾部数据有偏离行为。这是令人惊讶的,因为其余的数据很好地符合PowerWall模式的预期。

作者对具有更加惊人的用户行为进行了一个彻底特定调查,发现异常值来源于5类用户。作者将他们分别称为‘Insomniac’ outlier、‘Flip-flopper-1’ outlier、 ‘Flip-flopper-2’ outlier 、‘Gamer-1’ outlier 、 ‘Gamer-2’ outlier。以正常用户的数据值为参照,一般正常用户都有固定的睡眠时间以及发帖子行为中没有任何周期性。但是5类特殊用户违背了这两种特性。调查研究者发现特殊用户都会在睡眠时间内的某一时间段被唤醒,或是在某一时间段内有周期性的发帖子。经过调查这些帖子都是由第三方应用程序自动生成的。

Facebook的应用程序是由第三方开发的,是提高facebook用户体验的一种方式。用户在使用应用程序之前向应用程序授予权限,而一个此类权限允许应用程序以用户身份在固定时间段内在用户及其朋友的facebook墙上发布帖子。除非用户删除该应用程序,否则帖子将周期性的生成。

正常用户的指标如下图所示:


5类用户的具体情况如下所示:



注:
1a-4a指的是用户每天发的status posts 的帖子量
1b-4b用于检测用户日常发布帖子行为中存在的任何周期性
1c-4c用于观察用户一天中发帖子最活跃的时间段。同样可以推算用户的睡眠时间。
1d-4d用于观察用户每小时(x轴)和每天(y轴)发帖子的数量

结论与讨论

研究结果表明,Power wall分布具有灵活性,模型两端都符合帕累托重尾分布。Power Wall分布的简单性使研究者能够在参数变化时直接了解其变化状况,推测发生变化的原因。Power wall 模型用于检测用户行为可以帮助研究者识别外部影响因素。这一模型具有实用性与普遍性。

作者认为,异常值是重要的。一个普通的Facebook用户表现出8-10小时的行为间隔,可以认为是“睡眠时间”。但是,研究发现异常用户的发布时间并不表现出这样的典型性,并受到第三方应用程序等外部因素的影响。这些异常值的重要性在于它可以描述用户网络是否被黑客入侵。本研究已表明墙互动功能遵循PowerWall。在功能弱模型化的情况下,它可能是用户网络行为变化的一个标志。对所有用户的墙上互动构建模型行为可能是及时识别这些外部影响的好方法。

运用power wall 模型研究用户行为,在未来的工作过程中,可以引申到观察用户的病态心理,如抑郁症。未来研究者将运用这一模型研究用户的喜好和帖子评论数量的情况,以了解用于与其朋友之间时间交流的变化。这项研究将有利于以自我为中心的用户网络的发展。

文献来源:
Pravallika Devineni et al(2017).Facebook wall posts: a model of user behaviors.Social Network Analysis and Mining,pp.1-15.

※ 本文源自微信订阅号【社论前沿】(ID:shelunqianyan),文献整理:吴佳倩、付双乐。原文链接请点击本行文字,转载敬请直接联系原出处。

评论 (0)

评论加载中...

我要评论

Sissi,因为大家老拼错,所以干脆就简称为“CC”了。呆。二货。执且拗。别打我脸。女权主义者。心有恶犬啃蔷薇。※本人言论及立场与供职单位无关※
ta的文章更多

猜你喜欢

9.22-9.30,本周活动推介
九月终于要到尾声啦!国庆长假即将到来,在长假之前,还有许多好玩有趣的活动等着大家,本周依旧精彩!
二维码