【专访】清华大学沈阳：具身智能将成为数据生产非常重要的一个来源

2023年10月18日来源：中国（北京）国际视听大会组委会

导语：他在采访中谈到，随着AI的快速发展，真实世界的数据价值变得更高了，特别是高规格的、高质量的语料文本在大模型训练的时候变得更有价值了。

　　2023年8月3-6日，“中国（北京）国际视听大会（CIAC2023）”在北京亦创国际会展中心举行。大会以“智慧广电未来视听”为主题，彰显视听行业文化科技特性，全景展现视听行业科技创新和视听发展趋势，助力北京打造具有全球影响力的视听产业中心。

　　活动期间，我们邀请到清华大学新闻学院教授沈阳，就一系列热点话题进行深入分享。他在采访中谈到，随着AI的快速发展，真实世界的数据价值变得更高了，特别是高规格的、高质量的语料文本在大模型训练的时候变得更有价值了。

图为：清华大学新闻学院教授沈阳

　　中国（北京）国际视听大会：您好，沈老师。今天您作了题为《AIGC时代的大数据应用之变》的发言。可否跟我们分享在大数据资产方面的一些典型的创新应用趋势。

　　沈阳：您好。最近。AI发展快速，大数据相关资产的应用也有一些变化。

　　第一个重大的变化是，我们发现人类产生的数据被稀释了，因为AI产生的数据越来越多。同时，AI产生的数据也可以快速地进入到流通当中来进行销售了。比如做营销的大量图片现在都是用AI生成，这是以前所没有过的现象。

　　第二个趋势是，生物医药数据包括人的医疗数据价值非常高。最近，国外已经出现了用虹膜设备，将人眼中的虹膜作为唯一的标识码。未来的AI时代，数据隐私问题将会得到更大的重视。

　　第三个趋势是，真实世界的数据价值变得更高了，特别是高规格的、高质量的语料文本在大模型训练的时候变得很有价值了。所以，最近会看到有一些团队或者公司持有人工原创的高质量语料，大量在大模型训练中被销售了。大模型训练公司需要这些数据，因为现在的大模型做训练时有一个很大的问题，即数据往往来自于网络当中，不知道真假，有很多虚假信息。

　　举个最典型的例子，你问AI，007的男主角是谁？ta会说是“小帅”。你再问，007的女主角是谁？ta会说是“小美”。为什么是小帅、小美，是因为网络文章中大量的电影解说都把美国电影中的男主角叫小帅，女主角叫做小美。大模型训练时把这些就学会了。所以，我们会看到真实世界中花费了无数精力去标注的数据，在未来会变得非常稀缺，在这方面的应用将会有大有空间。

　　中国（北京）国际视听大会：在您看来，数据交易能够从哪些方面赋能文化产业？

　　沈阳：从我们的角度看，首先，数据交易对文化工作而言，实现了经济增值。作为文化工作，要有社会价值，同时也需要有经济价值。因为经济价值一方面是对其贡献的肯定；另一方面，有经济价值之后可以提升产出的能力，可以组建团队。

　　尽管很多文化产品是个人完成的事，但实际上，今天的多媒体作品、新时代互联网作品往往也是团队协作的结果，所以，数据交易将给文化生产者带来明显的经济增值。

　　第二，这些数据交易和共享可以激发文化生产者的创作灵感。数据锁在库房里不会被大家所使用，大家没有办法进行脑力激荡。对整个行业来说，数据的流通意味着灵感的流通，意味着在艺术创作中共识的形成，这也是很重要的。

　　第三，数据交易将进一步激活在人机共创过程中的种种发展。所以，你会看到现在不止一个AI，每个AI间的观点还不太一样。有的AI的风格可能创作某种类型的艺术品比较好，另外一种AI可能又擅长另外一种风格，这都需要大量的语料级别数据的交易，只有这样才能把人机共创推上一个新的高峰。机器特点是效率高，达到了基准线以上，比正常人创作更加轻松，只需要消耗算力，可以很快地创作出有一定质量的艺术作品和文化作品。

　　所以，从我们的角度看，数据交易对整个行业发展非常有价值，只有这样才能从仅仅获得关注、获得流量走向商业变现，从而能够产业化和资本化，进而使整个文化产业发展壮大，获得更高更大的话语权。

　　中国（北京）国际视听大会：在未来的发展中，您认为哪些方面还有较大的创新空间？

　　沈阳：第一个创新的空间，是身份确认。这块大家提到了不少技术方案，有基于区块链的，也有基于生物特征的，还有基于硬件的，特别是基于虹膜的识别，我认为将会成为一个技术热点。

　　苹果的Vision Pro不需要验证码，现在手机承担了验证码的功能，但你戴上Vision Pro就自动识别虹膜，就知道是你本人。所以，在这个领域中身份识别是大家都会关注的点。ChatGPT的创始人Sam Altman的另外一家公司WorldCoin也是用虹膜来进行身份识别的。因此，虹膜识别将会成为数据凭证当中可能的一个热点。

　　第二个创新空间，我们特别强调“具身智能”。今天的数据往往从数据中来，这会产生一种数据的“反噬效应”和“自噬效应”。所有的语料训练都来自于网络当中的数据，当大家用大模型多了以后，又有大量AI产生的数据，这样AI在用自己的数据训练，这个问题就比较严重了。

　　现在需要把更多真实世界的数据引入进来。真实世界的数据怎么获得？“具身智能”就是一个非常重要的来源。

　　从我们的角度看，具身智能将成为数据生产非常重要的一个来源，这是第二个点可以明确的创新方向。

　　第三，数据从文本数据扩展到多模态的数据，包含了空间计算所产生的数据。下一代的VR头盔就特别强调概念空间计算，也就是原来谈到的VR中的三维化的计算。

　　所以，我们会看到三维的数据、空间的数据、实时的数据的量会越来越大，对于这些数据进一步的提炼、深加工和抽象都是很有意义的研发工作。这些趋势意味着，我们在数据交易和数据资产共享方面的巨大成长空间。

　　中国（北京）国际视听大会：您认为这个领域是否有一些风险存在？

　　沈阳：第一个重大风险是数据仿冒，比如声音数据，现在用AI可以非常便利地模仿出来。所以，数据仿冒最终走向AI诈骗，我个人觉得将成为一个全球性的问题，并且这个问题的严重性将比原来至少高一个数量级，这是我们的第一个判断。

　　因为，很多人并不了解AI。如果AI工具足够好的话，完全可以模拟出任意人的任意声音和图像。随着技术进一步成熟，这一天并不会太遥远。这是一个重大的问题。

　　第二个问题是隐私权的保护，刚才谈到对于虹膜数据进一步的采集，包括在智能装备中的交互数据的进一步采集都可能导致比较严重的隐私问题，并且AI对我们的理解越来越深入，说白了就是对我们隐私的侵犯会越来越直接和严峻。

　　第三，在数据交易过程中会看到数据版权的保护也越来越难，因为现在的知识已经被像素化了，被大模型解构了，通过大模型产生的一张画、一张图片很难知道它使用了哪些图片风格，基本上看不出来它直接引用了哪些图片的内容。

　　这当中有两种态度。第一种态度是，有些国家非常鼓励大模型发展，凡是大模型的训练，所有数据的版权可以不要，就是为了鼓励大模型的发展；另外一种态度是，在研发大模型的时候，仍然需要考虑数据的确权问题。总体而言，侵权的风险加大了很多。

　　中国（北京）国际视听大会：那么，您对这个领域的发展依然还会大体保持乐观吗？

　　沈阳：整体上我是比较乐观的。

　　人类的技术研发有一个特点，只要人知道一个事情，就不可能永远关在牢笼里。所以，技术的发展，软件的发展，只要开源了，就会在世界上快速的传播，世界就是平的了。

　　对我们来说，要加强各方面的监管，要加强研究机构伦理的治理，再就是在社会上寻找共识，在发展中解决问题。

　　中国（北京）国际视听大会：谢谢您接受采访。

　　沈阳：谢谢。

【责任编辑：徐亚新】

有线	广电总局	中国广电	全国一网	5G
超高清	资本	人事	工信部	融媒体
700M	IPTV	OTT	智能电视	电视台

【专访】清华大学沈阳：具身智能将成为数据生产非常重要的一个来源

【深度】2024年中国数字经济发展的十个趋势

【媒体融合大会】陈昌凤：广电媒体融合趋势与人才培养

【媒体融合大会】深度媒体融合的攻坚克难——第十二届全国人...

王熙雁

徐亚新

刘兰兰