数据已经成为了媒体机构骨血一般的存在,包容了一切能够相联、互动的新技术,开始进入智能化阶段。聚焦于传媒产业,这种影响尤显深刻——这是一个以“看见”、“听见”的体验为起点的产业,是一个以人类信息交流与沟通为起点的产业,恰好契合我们对于人工智能“能听懂”、“能看懂”、“能行动”乃至“能思考”的期待。

因此,数据智能化是传媒产业大数据技术十年发展的新阶段与新方向,是媒体大数据的原力觉醒。

本文是关于YouTube通过数据智能提升“理解”能力的案例剖析。总共包括三个部分:

1.数据智能支持用户及内容理解能力升级

2.基于理解能力升级的平台服务优化

3.理解用户及内容还需要解决的问题

作为视频内容平台,YouTube基于海量内容和用户数据,一直致力于解决一个核心问题:用户喜欢什么样的内容?2006年被谷歌收购之后,YouTube逐渐对接谷歌大数据,对该问题的理解更为深入。尤其在谷歌AI战略支持下,YouTube的数据体系融入AI基因,从机器学习阶段向深度学习阶段迈进。

数据智能提升了YouTube对用户以及内容的理解能力,并持续支持YouTube平台服务优化。谷歌母公司Alphabet财报显示,YouTube2019年全年营收为151.49亿美元,占谷歌业务总收入的13.4%,已经成为谷歌重要的收入来源。

那么, YouTube在数据智能的支持下“理解”能力得到了怎样的升级?又是如何赋能业务运作的呢?

01

数据智能支持用户

及内容理解能力升级

在谷歌大数据和AI体系的双重支持下,YouTube对用户及内容的理解能力得到了大幅度的提升。

YouTube的数据赋能逻辑

1.机器理解+用户参与精准描绘用户画像

2012年,YouTube与谷歌搜索实现了数据对接,并在随后被纳入谷歌账号体系,成为谷歌大数据体系的关键组成部分。凭借这一步,YouTube对用户的理解能力与谷歌实现了一致性。具体来说,YouTube对用户画像的描绘主要分为两个方式:

一是常规意义上运用机器学习技术对用户数据进行分析处理,自动形成用户画像。

从源头来看,YouTube基于谷歌的强账号体系,通过cookie、像素代码、服务器日志等常规意义上的数据采集技术对用户数据进行采集(非账号体系下通过唯一标识符采集设备应用数据但无法聚焦至个人),主要分为个人数据、设备数据、活动数据以及位置数据四个维度。

数据上传至谷歌服务器并通过后台机器学习技术进行分析处理,刻画用户画像。该用户画像包括基础信息、兴趣爱好、行为习惯等在内超过60个标签,每个标签都详细标注了形成原因,实现了对用户的基本洞察。

二是开放一定的权限给用户进行自身标签与画像的修改。

由于机器的认知缺陷以及用户行为偏好的不稳定性,通过机器学习技术自动描绘的用户画像在某些情况下可能失去精准性。为此,在谷歌政策支持下,YouTube将用户画像构建及修改的部分权限给予了用户,将机器理解与用户人为修正相结合。

一来,用户可以通过修改数据影响机器学习技术对用户画像的刻画,包括数据采集前对个人数据、设备数据、位置数据等进行修改,以及数据采集后对活动数据(历史行为数据)等进行修改。

二来,用户可以依据个人意愿直接修改机器学习技术所自动形成的用户画像标签。谷歌在刻画用户画像时不仅每个标签都标注了形成原因,还增添了“停用”或“启动”功能,较好地尊重了用户自身的意愿。由此,通过机器学习技术对数据的自动化处理以及用户对数据或用户画像标签的人为干预,YouTube能够更加准确地理解用户。

02

文本分析+视频理解

深入理解内容

除了对用户的理解,YouTube显然还需要对平台上海量的内容进行解读。与其它视频平台类似,YouTube可以通过机器学习技术对视频基本数据进行理解,主要包括视频内容数据以及视频表现数据两种类型。

其中,视频内容数据主要包括了创作者上传视频时所提供给的视频标题、类型、说明等基本信息,以及经过人工审核或机器学习技术给视频自动标注的类型标签;视频表现数据主要包括视频观看量、评论量、转发量等数据。

通过机器学习对这两类数据的分析和理解,YouTube可以回答两个问题:视频的内容是什么?视频的播放表现怎么样?相对来说,回答第二个问题是更加容易的。

随着谷歌AI战略的持续推进,YouTube成为谷歌AI部门DeepMind以及Google AI(原Google Research)进行AI研发训练的视频数据源,也成为了谷歌和YouTube回答第一个问题的重要基础。

谷歌AI研究人员基于YouTube视频内容建立了多个数据集,支持了YouTube从文本数据分析向视频画面以及音频理解升级。笔者根据相关公开资料统计发现,谷歌以YouTube的视频数据为基础建立了大概6个数据集(部分数据集下有子数据集),分别实现了对视频中的场景、物体、人的行为动向、景深、声音的识别(详细见表格)。

谷歌AI团队利用YouTube视频数据生成数据集以训练AI进行视频理解

主要包括:识别视频所属垂直场景类别的YouTube 8M及其子数据集YouTube 8M segments、识别视频中包含的物体类型的YouTube-Bouding Boxes、识别视频中人类行为倾向的Kinetics以及AVA Action Datasets(AVA数据集的子数据集,后与Kinetics交叉形成新数据集AVA Kinetic)、识别视频景深程度的木头人视频数据集、以及识别语音类型及行为声音的AudioSet及AVA Spoken Activity Datasets(AVA数据集的子数据集)。

在这些数据集的支持下,谷歌AI的视频理解能力得到大幅度提升,也给了YouTube更强的视频内容理解力,赋能其整体运营。

03

基于理解能力升级

的平台服务优化

YouTube在谷歌大数据体系及AI技术支持下,用户理解及内容理解能力不断增强。在此基础上,YouTube实现了对自身平台服务的优化,主要可以分为三个方面。

1.人工配合AI平台内容审核机制加强

早期,人工审核一直是YouTube进行内容审核的核心方式。

2016年以前,YouTube主要依靠“超级标记者”项目鼓励用户举报不当内容,工作人员再依规定对被举报内容进行审核、移除等处理。2016年,YouTube部署了内容审核系统,该系统可以初步筛选出歪曲视频内容、含有不当语言等违规问题的视频标题、视频缩略图,进而减少人工审核的工作量。

但是,由于YouTube视频数据海量,这种机器辅助的效果仍然有限。这个问题在2017年时达到顶峰——YouTube陷入了恐怖主义、极端主义的“视频质量危机”,并引发了谷歌陷入“广告危机”。显然,增强机器的视频内容理解力,可以在很大程度上解决这个问题。

所以,当AI可以准确回答“视频的内容是什么”之后,YouTube进入了内容审核的2.0阶段,形成了“人工审核+AI审核”的双重机制。

目前,YouTube AI审核能力的提升有赖于两个方面:一是人工数据训练,人工审核小组对超过100万条视频进行审核标注并提供给机器进行学习应用;二是导入AVA数据集,通过对数据集中57万组视频片段、21万个动作标签进行分析处理,训练识别能力。监督式学习与无监督式学习双剑合璧,提升AI的视频内容理解力。

2019年,YouTube又上线了名为“垃圾视频分类器”的审核系统,该系统可以实现在无人协助下分析大量视频片段,解读令人不适的视频剪辑,然后从网站主页以及应用主页上屏蔽这些内容。

根据YouTube官方数据显示,2019年第一季度,YouTube约有830万个视频被删除,其中76%是人工智能自动识别和标记的。这些被删除的视频中,有70%以上从未被用户观看过。另外,2020年疫情蔓延的情况下,YouTube更是宣布加大对AI审核机制的依赖程度,以减轻人工压力。可见,AI审核机制已经在YouTube平台运营中发挥关键作用。

2.内容推荐与创作服务用户使用体验提升

理解用户和内容成为了YouTube实现智能推荐、提升用户体验与用户粘度的重要基础。首先, YouTube将用户分为了“观众”及“创作者”,其理解与服务也有相应的区别。

针对观众型用户,个性化推荐成为YouTube的重要发力方向。

实际上,YouTube一直以其强大的内容推荐系统所著名,该系统所解决的核心问题有两个:一是相似视频关联问题;二是视频推荐排序问题。其中必然涉及到的是对用户行为数据以及视频内容数据的解读分析。

YouTube推荐系统演变过程(摘取部分关键信息)

随着2015年内容推荐系统对接Google Brain,推荐能力融入深度学习技术,促进了YouTube推荐算法的升级。YouTube 的推荐系统算法由两个神经网络组成:候选集生成(candidate generation)和排序过滤(ranking)。利用内容过滤和协同过滤,YouTube解决了从百万级别的视频库中初步筛选百级别的数据。

之后,再使用设计好的目标函数为每个视频进行打分,视频按得分的多少依次按照优先级呈现给用户。在 YouTube 推荐系统中,在推荐视频的优先级排序考量上对于“视频观看时间”的因素看重远大于“视频点击率”。同时,随着谷歌将部分数据权限归还给用户,观众可以修改后台历史数据,影响推荐系统对历史行为数据的分析,进而影响推荐内容的精准性。

对用户数据及内容数据处理能力的升级,使得YouTube有了更强大、精准的个性化推荐服务。

针对创作者型用户,YouTube则着力提供更有效的数据工具产品。

——内容创作工具

例如,YouTube在海量图像数据标注基础上训练视频分割技术,为创作者推出了自动更换背景的视频拍摄应用。

——内容表现分析工具

得益于YouTube对用户行为表现及内容表现的追踪及数据采集,整合了YouTube Data、YouTube Analystics以及YouTube Reporting三大模块的YouTube Studio在2017年上线,提供给创作者频道内容表现及流量收入可视化分析服务。

——内容版权保护工具

YouTube在以热图对比为核心内容数据处理技术的Content ID版权保护系统基础上又推出了Copyright Match Tool以及内容验证程序(CVP),该两项服务可以在用户操作基础上自动匹配标题、说明等视频数据,识别创作侵权。

3.广告精准定位及数据开放赋能合作者

值得一提的是,YouTube还基于数据理解能力不断赋能合作者。

首先,作为最为重要的合作方之一,广告主是YouTube数据赋能的核心对象。

谷歌在2017年打通广告数据之后一直致力于推动旗下广告产品的程序化,也使得YouTube广告资源全面对接至Google Ads平台。因此,广告主可以通过Google Ads平台自动进行YouTube广告投放。

在这个过程中,YouTube用户数据与内容数据汇聚至谷歌服务器,并在机器学习技术对数据处理分析之后对YouTube用户及内容做了基本分类,以支持广告主进行精准定位。

——用户精准定位方面

YouTube主要以人口属性定位、兴趣定位、生活事件定位(比如想要“搬家”的用户群体)以及潜在目标群体等对用户进行大致分类,以便广告主进行筛选。另外,广告主还可以根据前序营销活动的实际效果决定是否对同一批用户进行新的营销投放。

如果广告主认可这批营销受众,那么YouTube还可以利用look alike等技术帮助广告主拓展相似目标用户群体,生成更多的用户列表。同时,为了进一步保证定位精准,YouTube也支持广告主上传用户群体信息并自定义用户群体,协助Google Ads进行用户群体圈定。

——内容精准定位方面

YouTube在YouTube频道、YouTube视频以及YouTube频道组三种内容类型中,向广告主提供内容主题以及内容关键词两种定位选择。其中内容主题主要是指视频内容所属垂直行业类型,内容关键词则是与广告主产品和服务相关的关键词与YouTube内容的匹配。基于此,广告主可以将广告内容投放至与之相匹配的YouTube视频内容上,实现精准的内容定位。

除了优化广告主服务外,YouTube也在谷歌数据开放战略的推动下建设了YouTube Data API 以及YouTube Analytics and Reporting API等为开发者提供数据开放服务,赋能开发者推进数据研究或AI训练等方面的进度。

04

理解用户及内容

还需要解决一些问题

由此可见,YouTube基于对用户和内容理解的升级,赋能自身的业务与服务。但是在这个过程中,YouTube也陷入了一些问题的“泥沼”,主要是数据隐私安全以及AI审核弊端问题。

1.理解用户VS保护隐私数据安全

海外对数据安全问题尤为重视,而掌握的谷歌经常为此登上舆论的“风口浪尖”。

2019年,谷歌就因数据隐私问题被法国处以5000万欧元罚款,成为2018年欧盟《通用数据保护条例》生效后开出的首个罚单。而作为谷歌旗下产品的YouTube也难逃被“质疑”的命运。调整与改变势在必行。

首先谷歌内部对用户数据处理措施逐渐趋于严格。

上文也谈到,谷歌给用户开放了部分数据修改权限,但是实际上,用户删除数据后谷歌会将部分有价值的数据进行阶段性或永久性保存。为了维护这部分数据的隐私安全,谷歌通过一些技术手段进行数据脱敏。例如,数据泛化技术,即将某些可以与特定人关联起来的数据元素移除或使用常见值取而代之;或者向数据中添加噪音,影响对用户隐私行为的判断等。

其次,由于谷歌部分数据会交予人工进行审核,为了防止内部员工对用户敏感数据过多接触,谷歌开始降低人工审核数据权限。

2019年,谷歌降低了人工审核的音频数据审核权限,内部员工所接触到的语音记录均是与用户账户无关的数据资料。并且,谷歌对外承诺将“极大地减少被存储的音频数据量”。由此,谷歌对用户敏感数据的管理愈加严格,而作为谷歌旗下产品的YouTube,将同样受到相关内部规定的制约。

最后,为保护数据安全,谷歌开始对外限制第三方数据采集权限,YouTube也对此推出了相关举措,将用户数据管理权限集中在自己手中。

2017年,谷歌推出Ads Data Hub以支持不使用像素的跨系统广告系列衡量后,谷歌对第三方数据采集权限开始进行限制。例如,2017年1月,YouTube宣布会限制像素追踪和cookies采集;2018年YouTube停止支持第三方广告投放,切断了第三方的数据访问权限。

目前,YouTube与Nielsen、ComScore、DoubleVerify等第三方的数据合作均已向Ads Data Hub迁移。预计2020年迁移完成后,YouTube将不再支持第三方进行数据采集。

由此可见,无论是内部数据管理趋紧还是削弱外部数据权限,谷歌对用户数据隐私安全是十分重视的,尤其是谷歌限制第三方数据权限,直接增强了谷歌的数据管理权限,对维护用户数据隐私安全更为有利。

2.增强人工审核机制以解决AI审核弊端

如前文所述,谷歌在AI研发方面投入颇多,并基于YouTube数据建立了多个数据集以支持视频理解能力的升级,协助增强AI审核机制。

但是AI审核也给YouTube带来了两个新的问题:一是内容推荐系统下用户看到的内容是否合适?二是程序化广告投放下广告主的广告是否出现在合适的视频内容位置?也就是说,内容理解的准确性仍然是困扰YouTube的问题之一。

例如,2018年,由于AI对儿童观看内容审核精准性不足,导致YouTube “艾尔莎门”(儿童色情)事件爆发;2019年,YouTube平台自动删除了大量格斗比赛视频,原因是算法检测到该内容对动物施以折磨或强迫动物对抗等……AI审核机制成为YouTube被频繁质疑的核心问题点。

为了解决这一系列问题,YouTube一方面持续提升AI内容识别的准确性,另一方面则宣布增强人工审核团队进行弥补。2018年,YouTube CEO Susan Wojcicki承诺会雇佣至少一万名人工审核员,以补足算法的局限。2019年YouTube宣布平台中的儿童内容审核将全面交予人工进行处理。

在这个过程中,谷歌对旗下人工审核团队的内容审核要求进一步提高,强化了对视频标题和内容的评估、分类的精细化程度。

通过部署人工视频标注系统和评级系统,谷歌对视频内容规划了多个分类标签,每个分类标签下又有多个子标签。比如,“暴力”分类下包含“恐怖主义”、“战争和冲突”、“死亡和悲剧”以及“其他”等分类。严格的人工视频标注体系也在一定程度上弥补了AI审核机制的缺陷。或许随着谷歌AI对内容数据处理能力的升级,YouTube在AI审核机制方面将有更进一步的升级。

结语

在谷歌大数据与人工智能的支撑之下,YouTube不断提升对用户及内容的深层理解,以优化自身的运营能力。虽然效果与问题同在,但也我们也有理由相信,随着谷歌数据战略的调整以及AI技术能力的升级,这些问题终有解决的那一天。

END