Google的公共形象脱节 聪明的工程师和笨拙的算法
Google看起来很聪明,员工举止也很聪明,但这并不意味着它的算法很聪明。对于图像而非语言,机器学习效果很好。Google的肮脏小秘密在于,它的算法非常笨拙,难以理解他们所看到和阅读的内容。
以Google最近的这个例子为例,该公司的搜索算法将经过训练,以突出显示独家新闻,例如独家新闻和调查性新闻……
《纽约时报》的 马克·特雷西报道:
“经过数周的报道,一位记者打破了一个故事。在线之后,另一家媒体组织发布了一篇模仿文章,回收了通常会吸引原始访问量的独家新闻。发行商多年来一直在抱怨这种动态……”
自2002年9月发布Google新闻以来,这一直是一个问题。最后,Google新闻的负责人 Richard Gingras回答:
“我们要提供的报道的重要内容是原始报道,这需要出版商花费大量时间,精力和资源。某些故事对于它们对我们的世界可能产生的影响也非常重要,而且很难要求记者进行深入的调查,以找出事实和来源。”
FOREMSKI的看法:
为什么Google要花超过17年的时间来解决这个问题?为什么Google的算法需要成千上万的“评级者”来帮助训练它识别原始新闻?
Gingras说,谷歌已经更新了其手册,该手册定义了超过10,000个充当“评估者”的外部承包商应如何识别原始故事以及如何对它们进行分类。该信息将被软件工程师用来更改搜索算法。
这些评估者中有许多不在美国。Google希望他们了解新闻故事的产生方式,以及使一个故事比另一个故事更具原创性的原因,并填写大型在线表格-168页文档中描述了数百种内容特征。每个任务只有几分钟的时间。
Gingras声称很难识别原始新闻报道,如果您要教机器,这是正确的。但是任何看过多个新闻故事的人都可以很快分辨出谁破坏了新闻,哪些新闻没有新信息。
这是令人不安的事实的一个例子,尽管数十年来的机器学习,谷歌的算法都不是那么聪明,而且仍然不足。