中新经纬7月5日电 题:马斯克“限流”推特难以彻底解决数据爬取问题

  作者 盘和林 浙江大学国际联合商学院数字经济与金融创新研究中心联席主任、研究员

  美国时间7月1日,马斯克在其推特上发布了一条“新规”:推特采取临时限制,目的是“解决极端水平的数据抓取与系统操纵问题”,将矛头直指需要大量训练数据的AI公司。这一限制举措被许多人调侃,目的是鼓励用户加入其Twitter Blue付费订阅认证。

  马斯克这一新规基于两大现状:其一是生成式AI爆发的大背景下,各国对生成式AI训练数据的监管制度尚未完善,美国有相关隐私法案,也有数据保护,但很多的条款规则并不符合当前数据市场的现实状况,比如当前生成式AI的训练数据来自于网络公共数据的爬取和加工。对于数据经纪商,他们从推特数据中获取用户的公开内容数据,而这些内容由于本身就是公开的,所以并没有为推特用户和推特本身带来任何经济效益。简单说,推特用户和推特都被“白嫖”了。其二是推特当前经营不善,徒有用户流量却缺乏赚钱手段,马斯克通过各种手段,包括卖蓝标的方式,想要改变推特亏损的局面,所以新规也是从推特自身利益出发,既要让用户去参与付费订阅,也是让推特庞大的内容数据库能够有变现能力。

  很显然,马斯克如果防住了,那么推特也就完了,因为这会对用户的正常浏览带来巨大的不便,用户会离开推特,所以最终大概率结果是,马斯克放宽限制,最终防不住数据抓取。

  总之,马斯克真实目的有三,防止数据爬取,保护用户数据权益和隐私;驱动用户付费;想办法以官方渠道实现数据变现。我认为,推特的会员收入会显著增加,但数据爬取的问题很难得到彻底解决。

  2023年6月微博针对私信功能,开启了付费服务。微博和推特一样,存在着营收瓶颈,但微博很少有“数据抓取和系统操纵问题”,因为这些功能一般由微博自己发起,微博的会员更多聚焦在用户引流方面,这和推特的会员在本质上有很大的差异,当然,双方在商业化方面是有共识的。互联网尤其是传媒互联网的经营思路,就是先用免费来吸引用户,获得流量之后,通过多元化方式来实现流量变现。而当前,随着美联储紧缩,很多互联网企业已经很难从海外资本市场获得融资,养流量需要烧钱,所以互联网企业在商业化上越来越急切,因为能融到的钱越来越少。这就是海内外互联网平台加速商业化的原因。

  AI大模型发展如火如荼,会与数据提供方展开“大战”?AI大模型的基础是算力、算法、数据。其中数据以高质量语料数据作为基础,当前在欧美,提供数据的是数据经纪公司,数据经纪公司通过数据爬取,或者数据购买的方式,从公共数据中获得相关数据内容,进行处理加工之后,提供给大模型企业,而推特这样的数据提供方,如果要向数据经纪商收费,那么,势必要增加数据要素的成本,我认为这客观上抬高了AI大模型产业的进入门槛。未来,AI大模型企业的数据成本将显著提高。但我们也要注意,实际上推特的数据也不是推特自己的,按理是推特用户的,当前各方并没有搞清楚如何分配利益的情况下,推特可能很难阻止数据经纪公司“白嫖”其数据,因为数据收费师出无名,当前推特也只能限制数据经纪商对数据的爬取,但不能从根本上解决问题。(中新经纬APP)

  本文由中新经纬研究院选编,因选编产生的作品中新经纬版权所有,未经书面授权,任何单位及个人不得转载、摘编或以其它方式使用。选编内容涉及的观点仅代表原作者,不代表中新经纬观点。