假新闻检测算法比人工检测算法更有效
一个基于算法的系统,识别虚假新闻故事中的告密语言线索,可以为新闻聚合器和谷歌新闻等社交媒体网站提供一种新的武器,以打击错误信息。
密歇根大学(University of Michigan)的研究人员开发了这一系统,他们证明该系统在正确识别假新闻报道方面与人类相当,有时甚至优于人类。
在最近的一项研究中,它成功地发现了高达76%的假,而人类的成功率为70%。 此外,他们的语言分析方法可以用来识别假新闻文章,这些文章太新了,不能通过交叉引用他们的事实和其他故事来揭穿。
该项目背后的U-M计算机科学和工程教授Rada Mihalcea说,自动化解决方案可能是一个重要的工具,用于那些正在努力处理大量虚假新闻报道的网站,这些报道通常是为了产生点击或操纵公众舆论而创建的。
在假故事发生真正后果之前捕捉假故事可能是很困难的,因为如今的聚合器和社交媒体网站严重依赖人类编辑,他们往往跟不上新闻的涌入。 此外,目前的揭穿技术往往取决于对事实的外部验证,这可能是困难的最新故事。 通常,当一个故事被证明是假的时候,损害已经造成了。
语言分析采取不同的方法,分析可量化的属性,如语法结构、单词选择、标点符号和复杂性。 它比人类工作得更快,可以与各种不同的新闻类型一起使用。
Mihalcea说:“你可以想象在新闻或社交媒体网站的前端或后端有多少应用程序。 “它可以向用户提供对个别故事或整个新闻网站可信度的估计。 或者,它可能是新闻网站后端的第一道防线,标记可疑的故事供进一步审查。 76%的成功率留下了相当大的误差,但当它与人类一起使用时,它仍然可以提供有价值的洞察力。”
分析书面言语的语言算法在今天相当普遍,Mihalcea说。 构建假新闻检测器的挑战不在于构建算法本身,而在于找到正确的数据来训练该算法。
假新闻出现并迅速消失,这使得很难收集。 它也有许多体裁,进一步复杂化了收集过程。 例如讽刺新闻很容易收集,但它使用讽刺和荒谬,使它不太有用的训练算法,以检测假新闻,这意味着误导。
最终,Mihalcea的团队创建了自己的数据,众包一个在线团队,将经过验证的真实新闻故事反向设计成假货。 Mihalcea说,这就是最真实的假新闻是如何被那些迅速写出来以换取金钱回报的人创造出来的。
在亚马逊机械土耳其公司的帮助下招募的研究参与者被支付工资,将简短的、实际的新闻故事变成类似但虚假的新闻项目,模仿文章的新闻风格。 在这个过程的最后,研究团队有一个500个真实和假新闻故事的数据集。
然后,他们将这些标记的故事对输入一个进行语言分析的算法,教学本身区分真实新闻和假新闻。 最后,该团队将算法转换为直接从网络中提取的真实和假新闻的数据集,净率为76%。
新系统的细节和团队用来构建它的数据集是免费的,Mihalcea说,它们可以被新闻网站或其他实体用来构建自己的假新闻检测系统。 她说,未来的系统可以通过结合元数据,如与给定的在线新闻项目相关的链接和评论,进一步完善。