互联网充斥着谣言和虚假消息。春节期间一篇“微波炉有害健康”的谣言文章广为传播,又一次向我们展示了网络信息可以多么不可靠。当真真假假的内容鱼龙混杂,鉴别它们的可信度是一件非常让人头疼的事情。令人沮丧的事实是,往往冲击性的谣言的传播能量远胜过平淡的真相,似乎人类天生就喜欢“来个大新闻”。
谷歌想要改变这个现状,或者说,尝试去改善它。作为搜索引擎市场的垄断者,谷歌的搜索排名基于每个网页的流行程度——一个链接被引用的次数越多,在搜索结果中的排名越高。这样的算法使浏览者很容易找到受欢迎的页面,却也助长了广受关注的谣言与不实信息传播的势头。
谷歌的研究小组开发出了一种新算法,可以根据网页的内容真实性,而非受欢迎程度对链接进行了评级。新技术分析网页的内容,提取其中的观点、论据并加以分析;网页包含的真实、正确信息越多,获得的评级就越高,在搜索结果中就会越靠前。该项技术依赖谷歌的自动化知识库作为“事实”的判断依据,后者自动从全网络抓取并研究信息,挑出那些大多数人一致认可、经久不衰的论点充实到自己的内容库中。如果一名主妇询问这个知识库微波炉与人体健康的关系,它一定不会说这种机器会让人致癌这类蠢话。
谷歌的这项研究肯定会赢的中国网民的欢心——假设大陆可以正常使用Google搜索的话。占据中国搜索引擎市场的百度走的是另一条路,靠人力而非机器获取信息:百度贴吧、百度百科、百度知道等社区如今成了百度搜索的重要结果来源,以至于大量谣言都是从这些社区传播出去的。某档电视节目曾因为不加甄别地引用百度百科内容,闹出了把游戏显卡称为军用反航母武器的大笑话。如果制作组有机会用上谷歌的新技术,绝对不会落得如此尴尬。用户生成内容太容易被篡改,稳定性、可靠性终究难以匹敌冰冷、精确的机器数据库。
那么是不是可以说未来的互联网就可以摆脱谣言和欺骗内容的困扰了呢?虽然理想很美好,但现实恐怕还是难尽人意。
大的问题出在对“真实”的判断上。谷歌使用的知识库可以自动获取并学习知识,但也只能做到一定的精确度。现在知识库收集的十几亿条信息中,拥有9成以上可信度的知识只占20%.这些数据本身就无法保证完全的可靠性,以它们作为“事实”的评价标准自然也会出现问题。何况,十几亿的知识储量听上去很庞大,至少比“十万个为什么”的数量多多了;但与互联网的信息海洋相比,这点内容只能算小小的湖泊。如果知识库不能覆盖大部分的搜索需求,自然也无法给多数搜索请求给出参考基准。
即便谷歌解决了知识库的精度、深度和覆盖率的问题,它依旧要面临严峻的挑战:人类在与机器比拼智慧的历史上极少落败,找到机器的空子并加以利用是许多人的乐趣乃至工作。既然“包含较多真实内容”的链接可以得到更高排名,人们可以很容易通过语言技巧来制造出机器算法偏爱的文章,并在其中掺杂虚假的内容。典型的,记者可以通过对诸多真相的选择性报道来传达偏向性的观点,因为论据均为真实所以很容易骗过电脑。这类技巧早在几千年前就已经出现,我们的先贤就曾使用“春秋笔法”来撰写史书。计算机对此注定无能为力。
更何况许多事情的真相究竟为何,就连我们人类自己都搞不清楚。暗杀肯尼迪总统的是谁?克林顿究竟有没有和实习生上床?乔布斯生前是否参与了iPhone 5的研发?连人都争执不休的议题,机器怎可能给出公允的判断呢?我们希望人类能有阿西莫夫著名的《基地》系列描写的那位全知全能的机器人一样的计算机朋友,但理想毕竟只是理想。到头来,探索真相的钥匙还是只能掌握在我们自己手里。
谷歌的新技术或许能在一定程度上改善互联网的环境,但不是什么一劳永逸的终极解决方案。与谣言和虚假消息斗争的责任还是会落在我们每个人头上。如果多数人还是喜欢不假思索地接受看似合理真实的内容并加以传播,那么网络世界的风气就不会获得显著改善。独立思考和判断比较费力气,但它的确是分辨真假的最有力武器。所以,与其指望新的程序或算法,还是多练习我们自己的大脑吧。