首页 理论教育智媒时代的社交平台假新闻算法治理

智媒时代的社交平台假新闻算法治理

【摘要】:利用算法治理假新闻,如果以社交平台为中心,可以分为内外两种算法治理。内部算法治理是指利用社交平台内部算法的优化,减少假新闻的扩散概率和程度,涉及社交平台推荐算法的“元治理”;外部算法治理是利用社交平台之外的算法对社交平台中的假新闻进行预测、识别。10个网站的假新闻占了调查样本比重的六成,50个网站的假新闻占了近九成。

算法是解题方案的准确而完整的描述,是一系列解决问题的清晰指令,能对一定规范的输入,在有限时间内获得所要求的输出。[13]算法和程序密不可分,算法是抽象的,运行算法就需要程序。程序是用计算机语言表述的算法,程序是算法和数据结构的统一,二者的关系可以表述为“程序=算法+数据结构”。[14]

治理是各种公共的、私人的机构管理其共同事务的诸多方式的总和,是使互相冲突的或者各不相同的利益得以调和并采取联合行动的持续的过程。[15]随着大数据、人工智能的兴起,算法治理(algorithmic governance)应运而生,这是以算法为中介参与社会治理的方式。

在这里我们需要区分在中文翻译上可能带来的概念的混淆:算法治理。在西方社会治理研究中,有两种与算法有关的治理,一种是本文说的算法治理,另一种是algorithm governance,也译为“算法治理”,但两者含义完全不同。algorithm governance指向的是面向算法的治理,聚焦算法的责任(accountability)、透明(transparency)和技术保证(technical assurances),旨在减少算法引发的问题,[16]算法扮演被治理的角色。本文的算法治理是用算法治理社会问题,算法在其中扮演的是手段、工具的角色。由于目前还没有更好的翻译方案可以解决以上问题,本文中的算法治理是algorithmic governance。

利用算法治理假新闻,如果以社交平台为中心,可以分为内外两种算法治理。内部算法治理是指利用社交平台内部算法的优化,减少假新闻的扩散概率和程度,涉及社交平台推荐算法的“元治理”;外部算法治理是利用社交平台之外的算法对社交平台中的假新闻进行预测、识别。

1.内部算法治理:对低可信度信源“降权”,降低假新闻推送概率

假新闻进入社交平台后,不会立刻进入病毒式传播状态,也不一定会被平台算法抓取,首先要经历冷启动。冷启动是指在推荐中如何将用户、内容从0转化为1。在推荐系统中,内容的冷启动是指一篇内容借助探索性展示完成从0~1的用户反馈积累过程。在这个过程中,如果没能得到足够的正面用户反馈(点击行为和阅读体验),系统认为该文章不受欢迎,为了控制负面影响就会逐步降低该文章的推荐量。反之,有可能被推荐系统快速放大,具备成为“爆款”的可能。[17]

由于假新闻能够激发恐惧、失望和惊讶等情绪,比真新闻更有吸引力。[18]假新闻会在短时间完成冷启动,迅速进入平台算法推荐系统,而推荐的可能性与用户社交关系、内容偏好等密切相关,同类用户阅读越多,这类内容就会在同类用户中推荐越多,如此反复,形成“病毒式传播”,这一切都是自动完成的。因此,阻止假新闻扩散的最好方法是在其完成冷启动前被监测到,面对社交平台上的海量信息,这显然难以完成。

一个可行的逻辑就是假新闻完成冷启动被监测到后,对假新闻的来源,即低可信度信源进行“降权”处理,减少来自这个信源的推送机会,通过平台的检测和响应操作,抑制假新闻的传播。[10]之所以锁定低可信度信源比较有效,一是因为假新闻虽多,但分布较为集中。10个网站的假新闻占了调查样本比重的六成,50个网站的假新闻占了近九成。[9]二是信源传播过一次假新闻,通常会继续传播。社交机器人账户在假新闻病毒式传播前发挥“放大” 低可信度内容(amplifying low-credibility content)的作用,遏制社交机器人账户是减少假新闻传播的有效方法。[19]针对推特(Twitter)的模拟实验发现,如果将机器人内容排除在外,低可信度文章的转发总量会减少70%。[20](www.chuimin.cn)

遵循这一原理,推特在2018年美国中期选举前清理了1万个自动推送虚假新闻的假账户。[21]脸书会在后台监测新闻下面的质疑性评论,由专业人员对这些新闻做出评定,将评定结果录入自动鉴别算法所用的数据库中,优化算法。[22]此外,脸书将系统鉴定出的低可信度报道自动置于推送栏底部,可将假新闻的阅读量减少约80%。[22]You Tube对视频推荐规则进行调整,优先推荐权威来源的视频,而不是根据流行度。[23]这也就使“分享”在推荐系统中的比重下降。

2.外部算法治理:揭示假新闻文本特征,提高辨识准确度

假新闻与真新闻的文本特征是否可被总结?在“一切皆可量化”的数据时代,研究者认为真、假新闻被“数据化”后有各自的特征,这些特征通过人的经验难以察觉。研究者只需找出真假新闻的“数据化”特征,再设计一套有较高识别准确率的算法即可识别假新闻。

美国密歇根大学研究者用语言分析研究语法结构、词汇选择、标点符号和复杂性来解析假新闻,准确率是76%,高于人工识别准确率6个百分点。[24]脸书研究了内容与标题不符的帖子,研发辨识算法以识别这类文章,并给予降级。[25]

还有一种不借助语义就可以辨别的方法是“数据立方体”(data cube),通过研究词与词的关系识别假新闻。[26]第一层算法通过词和词之间的空间关系[2]来降维分解文章(步骤1),因为在多种情境下频繁且相近出现的词具有相似性,就像互联网中人与人的关系不是单一的一样,词与词之间的关系也是多维的。之后用张量分解算法把张量分解成一个个相关性很高的数据块,每一个数据块代表一类,在第一层算法中抽取出一块块相关性很紧密的文章或者词语集(步骤2)。第二层的工作是在第一层的基础上再聚类,通过张量集合共聚类算法实现(步骤3)。最后运用半监督学习判断是否为假新闻(步骤4)。

针对近年来新出现的“深度伪造”,笔者也发现了其文本上的数据特征。以人物合成视频为例,这种合成图像算法的缺陷在于“眨眼”频率比真人少得多。辨别真假视频的原理就是用机器学习检查视频中的“眨眼”,准确率超过95%。[27]大西洋选举诚信委员会(Transatlantic Commission on Election Integrity)拟向记者推出“工具包”,帮助检测到“深度伪造”,并向公众宣传该技术。[28]

还有一种方式是利用“元数据”的追溯来识别图片等的真实性。《纽约时报》和IBM Garage正在利用区块链技术研发“新闻出处追溯”(The News Provenance Project)项目,用来创建和共享新闻图片的“元数据”。这些“元数据”包含新闻图片的拍摄时间、地点、拍摄者以及所有编辑和发布信息。通过这些信息,媒体和用户可以判断出该图片是否经过图像处理软件(PS)修饰,进而判断相关资讯是否是假新闻。[29]