谷歌:用人工智能和集体智慧消灭“毒”评论

by admin on 2020年4月19日

Google 向新闻机构提供了一款 AI
工具,帮助它们识别网站上的恶意评论。名为
Perspective
的免费软件正在一系列新闻机构测试,包括《纽约时报》、《卫报》、《经济学人》,作为帮助简化人工审核其文章下面的评论的一种方式。 

在《重新定义公司:谷歌是如何运营的》一书中分享了这样一条经验:在谷歌,最优秀的产品是靠技术因素而非商业因素赢得成功的。

昨天,Google与Jigsaw一起宣布了一个名为Perspective的使用机器学习来监控互联网以防止仇恨言论的工具,并且将相关API开放提供使用,各网站可以在自己的评论系统使用该服务。

研发这款工具的 Google 科技孵化器 Jigsaw 总裁 Jared
Cohen 表示,因为筛选恶意评论需要大量的财力、人力以及时间,“其结果是,很多网站彻底关闭了评论功能。但他们告诉我们这不是他们想要的解决办法。”Perspective
帮助更快地甄别辱骂评论,以便人工审核。该算法经过了数十万条在维基百科和《纽约时报》等网站上被人工审核者贴上
“有毒” 标签的用户评论的训练。它的工作原理是基于在线评论与被贴上 “有毒”
标签的评论的相似度,或这些评论使别人离开对话的可能性,对其进行打分。

“谷歌几乎所有的成功产品都是由坚实的技术洞见作为基础的……所谓技术洞见,是指用创新方式应用科技或设计,以达到生产成本的显著降低或产品功能和可用性的大幅提升的效果。”施密特和罗森伯格写道。

▲IT之家配图,图片源自网络

稿源:solidot

而在当前被谷歌视为成功基石的技术则是人工智能。除了在Google
I/O大会上亮相的Google Lens、Google Assistant、Google
Home等产品,人工智能技术也被谷歌应用于解决内容型产品的成本和可用性问题,其最新成果是借助机器学习模型评估网络会话影响的工具Perspective,Perspective的第一个功能识别线上“有毒(Toxic)”评论已经上线。

然而,计算机科学家和网友发现该系统无法识别大量负面评论,同时将非负面的词组合,如“仇恨是坏的”和“垃圾车”等,均被判断为负面评论。研发团队对此强调该软件仍处于“alpha阶段”,指的是尚未准备好进行大规模部署的实验软件。但随着研发团队对其的人工干预,Perspective接下来能够提供更加精准的判断。

阻击“有毒”内容

Perspective系统目前在《经济学人》、《卫报》、《纽约时报》等媒体进行测试,也提供给谷歌「数字新闻行动」涵盖的一系列出版机构使用,包括BBC、《金融时报》和《回声报》等。未来将会免费提供给媒体机构,同时也包括YouTube、Twitter和Facebook等第三方社交媒体平台。

随着技术不断演进,商业竞争也日益激烈,内容运营成为各种商业模式都在思考的课题,而评论内容也逐渐成为许多互联网产品的核心竞争力之一。

澳门新葡亰网址下载,当然,评论的活跃度和内容质量都是需要运营团队精心照料的,互联网评论中的违法、侮辱、骚扰、色情、暴力等垃圾信息屡禁不绝,这些信息对内容运营毒害很大。而如何清除这些“有毒”内容,是一个亟待解决的行业问题。

以谷歌为例,其90%收入来自广告,但没有广告主愿意自己投放广告的页面包含那些让人感觉不舒服的内容。沃尔玛、百事可乐和Verizon等广告客户都因不良内容影响而暂停YouTube平台广告投放计划,这导致谷歌损失上亿美元。因此,商业利益直接驱动谷歌清楚“有毒”内容。

其次,用户体验是谷歌阻击“有毒”内容的另一原因,谷歌的文化追求是让用户可以直接查询到他渴望的内容,其搜索算法一直为此优化,然而垃圾评论(通常是批量发布的)会把用户喜闻乐见的内容淹没;同时,垃圾评论还会影响到优质内容创作者的创作热情,更多的用户也会因此拒绝发表意见,社区将会沦陷。

人工智能的新希望

在引入人工智能技术之前,业界惯用清理不良内容的方法,是人工举报、人工审核以及策略和传统算法的结合。

《连线》杂志曾对八名现职和前谷歌广告质量评分员(ads quality
raters)的进行采访并总结出,他们的工作任务包括:审查视频内容;审阅评论区并标记用户的不当言辞;检查谷歌广告网络服务的各类网站以保证它们达到谷歌标准;为广告质量本身评分。庞大的工作量迫使他们把数量和速度的优先级放在准确度之上。有时甚至需要用不到2分钟的时间检查几小时的视频。同时,谷歌需要给这些审核人员(外包)支付每小时15美元的工资,这比大多数城市的最低工资高。

人工智能的进步带来了新的希望,国外的Facebook、Twitter,国内的网易云安全(易盾)、万象优图等团队都在尝试使用人工智能来消减大部分的人工工作量,以实现更好的成本、效率和性能。作为一家执行“AI
First”的公司,谷歌也已经开发人工智能系统识别和过滤垃圾信息。在谷歌高层看来,这个问题无法也不应该由人力解决。

Perspective:AI+集体智慧维护评论秩序

2017年2月,谷歌反滥用技术团队(Counter Abuse Technology
Team)联合谷歌母公司Alphabet旗下的Jigsaw(其前身为谷歌智库部门Google
Ideas)宣布推出名为Perspective的新工具,自动检测网络上的侮辱、骚扰和虐待言论。Jigsaw表示,对于输入的任何词句,Perspective都能立即给出其“毒性”评分,比任何关键词黑名单都要准确,比任何人类审核人员都要快。

作为Conversation
AI开源项目的一部分,Perspective以API形式开放给更多开发者,使得社交媒体和新闻网站能够更方便地使用机器学习技术检测评论语言的“毒性”,进而更好地管理评论内容。为了识别“有毒”评论,Conversation
AI已经进行了大量的训练。谷歌和Jigsaw从维基百科、《纽约时报》等合作伙伴手上拿到了数百万条评论数据,让10名Jigsaw员工确定每一条评论是否“有毒”,再将这些判断结果作为训练样本输入给机器学习模型。模型会给出输入词句“有毒”或者会“把天聊死”的概率。例如,“你不是好人(you
are not a nice
person)”被理解为“有毒”的可能性是9%,而“你是个恶心的男人(you are a
nasty man)”的反馈结果是91%。

Perspective
API允许开发者使用自动化代码访问那些测试,集成到页面中让评论者在输入的同时就能看到毒性指数。用户可以在官网(
API的效果。

诚然,Perspective并不完美,因为算法还无法理解文字背后的语境和感情,对语言的真实意思可能会有误判。财富网站报道称,Perspective对高频词句判断准确率确实很高,但一些不知名的侮辱性词汇(如libtard)的毒性评分很低;相反地,“生活是一种煎熬(life’s
a
bitch)”的毒性指数却很高。不过,谷歌官网已明确表示:Perspective还处在早期阶段,难免还有很多错误。所以,页面提供了反馈选项,模型会根据反馈数据更新,提高精准度。

事实上,这是Perspective的产品逻辑:利用集体的智慧不断驱除“有毒”评论,维护社区秩序。Conversation
AI产品经理亚当斯(CJ
Adams)表示,团队希望每个人都能参与到这个项目,利用这些模型改进网络讨论。在此之前,社交/新闻网站的评论管理,只有“赞成”、“反对”、“关闭评论”或者人工调节等选项,而Perspective提供了另一种选择(即集体智慧),并且效果是与时俱进的。确实,挖苦短语“nice
work, libtard”的评分已经是34%,而不是财富网站之前评论的4%。

那么,目前不那么成熟的模型在生产环境中有多大意义呢?当前互联网产品那么多,人工智能误判带来的过度限制,会不会导致另一种“把天聊死”,然后用户转向竞品呢?如前所述,网站管理者的选项很少,Jigsaw认为,很多媒体网站只有很傻的黑名单,或者干脆关闭评论,而Perspective会让网络对话更便利。Jigsaw首席研究科学家卢卡斯·迪克森(Lucas
Dixon)表示,系统的目标不是100%的精确度,而是足够好,即让期待文明评论的人不再忌讳参与互联网讨论。

Jigsaw首席研究科学家卢卡斯·迪克森(Lucas Dixon)

作为一款志在借用集体智慧改进算法的产品,Perspective也充分考虑了个体口味的差异,它

允许用户自行选择显示评论的毒性指数阈值。例如,以下气候变化讨论的截图,其中包括了高层次的负面评论:

而下面这个截图显示的对同一个话题的更多评论,将“毒性”拉到光谱的左侧。可能有人会认为,这些评论仍然武断,但没那么苛刻:

注意,Perspective的毒性尺度选择除了开放给评论管理者,也向读者提供。这意味着网站可以根据清晰的毒性指数定制合适的过滤规则,也意味着读者可以自主决定怎么愉快地聊天。这个策略能更好地保证产品的使用率,保护系统收集到足够丰富的数据来改进模型精确度。

Perspective的另一个好处,就是系统不必与帐号关联,这让匿名评论的监管变得简单。谷歌曾强制将YouTube评论系统与Google+帐号关联,让视频创作者根据用户所处的圈子自动批准特定用户的评论。但这一做法引发了一些非议。

根据Jigsaw的介绍,检测语言毒性只是Perspective的第一个模型。接下来的一年,他们将利用机器学习来增加其他能力。特别是,他们将开始筛选脱离主题的评论或缺乏实质意见的内容。模型训练好之后,网站和读者将可以配置评论设置,只显示相关性最强的内容。

《纽约时报》、维基百科、经济学人、卫报等已经在使用Perspective。据报道,《纽约时报》这样的网站之前只能处理10%的文章评论,但在采用Perspective后可以实现100%覆盖。当然,小型网站同样可以受益。不过,社交和媒体公司目前还需要依靠IT人员将Perspective整合到自己的网站上。预计第三方开发人员将会构建新特性,允许缺乏编码知识的用户能够直接安装评论管理工具。

谷歌的挑战

从产品设计的角度,Perspective无可指摘,但这并不表示摆在谷歌面前的是一片坦途。首先,即便通过开放API获得大量的数据,同时神经网络的潜力正在不断释放,自然语言理解和自然语言处理仍是当前人工智能领域的难点。有评论说,Perspective对《纽约时报》的内容审核有用,但在Twitter、Reddit能发挥的作用不大。

其次,多语言障碍。Perspective目前的主要使用场景是英语,Jigsaw表示Perspective只是改善在线交流的第一步,他们希望工具能够复制到别的语种,从而实现更多的用途。那么,数据的缺失和语言习惯的不同都是模型调整必须深入思考的问题。

更重要的,就是对抗总是在升级。攻击者总会不停地试探审核的规则和工具的规律,设法通过新花样绕开屏蔽。网易云安全技术团队在于黑/灰产的斗争中对此深有体会。迪克森也承认这一点,但他认为攻击总是有迹可循的。

最后,文本信息只是评论的一部分,Perspective目前也只是侧重于语言暴力,并未覆盖比如恶意链接这样的垃圾信息,谷歌还需要面对图片、视频形式不良信息的挑战。但是,谷歌使用人工智能技术全面解放人工审核的决心是无可置疑的。

在视频方面,人工智能同样还不完美。谷歌仍然倚重广告质量评分员识别和标记敏感内容,为算法提升提供更多、质量更高的数据:谷歌要求他们对视频标题和内容做更细致的评级并进行分类,例如“不当言论”包含“亵渎”、“仇恨言论”或“其他”等,“暴力”内容包含“恐怖主义”、“战争与冲突”、“死亡悲剧”等,此外还有“毒品”和“性/裸露”(具体分类为“虐待”、“裸体”和“其他”)等。

中国公司行动启示

基于人工智能的内容安全解决方案是不完美的,但中国企业也必须承认人工智能的高效率、远超关键词过滤的精准度,以及未来的潜力。那么,采用人工智能技术来维护在线交流氛围是必须考虑的选项。同时,人工智能的精准度依赖于足够多的高质量输入数据,由于国内外的网络环境、政策具有差异性,网民对相同言论的感觉和容忍度也有所不同,国内用户应当采用积累足够多国内特征库的服务商提供的技术方案,并积极提供包含新特征的数据,让人工智能算法与时俱进,以应对不断升级的攻击。

信息来源:

The Hidden Laborers Training AI to Keep Ads Off Hateful YouTube Videos

Now Anyone Can Deploy Google’s Troll-Fighting AI

Check Out Alphabet’s New Tool to Weed Out the ‘Toxic’ Abuse of Online
Comments

YouTube Starts Rolling Out Its New Commenting System Based On Google+

以上由网易企业服务-企业信息化服务提供商:湖南领先网络科技有限公司
整理发布。

网易企业服务(qiye163.co)是网易凭借其20年品牌优势与经验打造的企业级产品矩阵,致力于提供一站式企业信息化解决方案。网易企业服务的推出是网易在企业邮箱的基础上对企业市场的进一步重要布局。湖南领先网络科技是网易企业产品一级经销商,专业为企业提供网易企业邮箱、网易办公套件、网站建设、域名注册等一站式信息化解决方案。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图