信息、数据与数字时代的创新
江小涓
编者按:7月4日,中国数字经济发展和治理学术年会(2023)在清华大学顺利举办。本次大会以“数据要素治理,数据价值释放,数字经济创新”为主题,邀请了国内外40余位数字经济领域著名专家以及在数字产业实践中取得优异成果的机构代表进行主旨演讲和交流。来自清华大学、北京大学、中国人民大学、中国科学院大学、中国社会科学院大学、南开大学、上海交通大学、复旦大学、中山大学、南京大学等高校和数字经济相关科研机构及企业的代表共400余人出席线下会议,会议通过多个平台进行同步直播,当天信息浏览量超过11万人次。
中国社会科学院大学教授、中国工业经济学会会长、年会主席团主席江小涓发表题为《信息、数据与数字时代的创新》的主旨演讲。本文根据江小涓教授现场发言内容整理。
我今天要讲的话题是信息、数据与数字时代的创新。主题源于我们课题组的一个研究,在研究过程中,我们观察到海量数据加入了以后,创新方式在某些领域在发生比较重要的、根本性的改变,而且数据的加入,为我们提供了一个去观察科学技术、经济和社会关系的新的视角,这个视角的变化是非常重要的。由于数据在创新中间的极端重要性,平台、数字企业是数据的生产者、使用者和主要交易方,所以它们在创新链条中间的地位在大大地提升;由于数据越来越多,能链接汇聚的数据就越多,项目的研发数据就越多,所以开源开放的模式将来应该成为创新最重要的一种组织方式。这个结论还是非常重要的,关系到将来怎么组织创新。
先看一个例子,在新冠大流行时期,WHO和很多药品机构共同设立了涵盖基因序列数据、临床试验结果、药物治疗公平分配、开放式创新的数据开放平台,这个平台非常有效,平台上各方都承诺只要有了新的专利、新的数据测序就立马放上去,这对全球疫情的毒株变异预测和采取应对措施发挥了非常重要的作用。2021年11月,来自博茨瓦纳和南非的科学家在同一天内将存在变异情况的基因测序数据上传至开放科学平台GISAID上,引起科学界的迅速关注。不到三天的时间世卫组织将这一变异宣告为第五个关注变体即“奥密克戎”(Omicron),这是在以往疫情流行病学中出现不了的速度。
今天我讲的主要观点是,科技创新在不同的时代有不同的特点,这是创新理论研究的重要内容。长期以来,观察创新范式的重要的维度就是科学、技术和经济社会之间的关系,这也是创新实践中受到关注的重要问题。数字时代的科技创新有重要变化,这种变化不是原来维度的调整,而是“海量数据”这个新维度的加入:数据成为创新的重要资源,同时也重新定义了创新各主体间的关系。分析这种变化,我们要构建一种新的创新方式的分析框架,这是创新理论研究的需要,有非常重要的现实意义。
首先,我们看一下科技创新范式的传统视角,它是以科技供给与需求的关系为主线。这里来看一个用得最多而且解释得比较好的创新范式分析,第一代是技术推动的线性范式,第二代是产业需求拉动的线性范式,第三代是技术和市场交互作用的耦合范式,第四代是技术创新的整合范式,由于数据更多之后,企业层面的创新是一个平行推动的过程,第五代是系统集成和信息化范式,类似数字网络时代的数据汇聚。
长期以来在“基础研究—应用基础研究—技术开发—产业应用”的模式下,科技成果向产业应用的转化是一个突出的问题。2022年,国家知识产权局发布的《中国专利调查报告》显示,我国有效发明专利产业化率为36.7%,其中,高校发明专利产业化率为3.9%,科研单位发明专利产业化率为13.3%,企业发明专利产业化率为48.1%。
数字时代,当发现数据在创新中重要地位的时候,我们回望一下,发现用数据的一系列特征来定义不同时代的创新的话是一个很好的视角,能有效地解释不同阶段的创新。简单来说,工业革命之前,由于信息传递不畅,科学发现、技术发明和产业发展不能相互知晓,产业中的技术行家也无从知晓和无法吸收科学成果,科学、技术与生产各行其道。信息传递技术的发展(例如通讯)和载体的丰富(例如学术期刊),使科学技术化和技术科学化趋势日益明显,科学、技术与产业的关联度开始形成并不断加强。当大规模标准化生产能力形成后,用户端反馈才有意义,用户端反馈具有了“可传递、可汇聚、可归类”的性质,形成了“产、学、研、用”双向多点信息传递的创新链条。
在数字时代影响创新的元素非常多,我们抽取了四个非常重要的信息维度,基本可以解释在哪些领域创新做得好、迭代快。一是信息生成、传递和获取能力,例如研究成果相关信息的生成、传递和获取速度(在线阅读快于纸版书刊),社会对科技需求相关信息的生成(网上搜索信息快于市场调研信息)。二是信息数量、深度和广度,大数据时代信息数量和信息广度呈现海量和异构特征,海量数据提升创新成功可能性,广泛的异构数据消除认知偏误,降低创新风险。三是信息交互能力,多维信息交互能力,能够提升交流效率和获得多元外界知识和经验的能力。四是信息共享能力,信息越共享越多,共享面扩大激发出更多的信息,赋能更多社会主体进入创新者群体。
我们以信息特征和信息关系为主线构建了新的范式分类,大体分为三个阶段,一是工业化时代,信息稀缺和科学、技术与产业三者分离状态;二是信息化时代,信息增加与科学、技术与产业关联状态;三是数智时代,海量数据和科学、技术与产业三者融合状态。
我们的初步结论是,数智时代的创新,一个重要特征就是数据主导地位的出现和企业创新主体地位的加强。数字时代,数据成为重要的创新要素,大型数字企业是海量数据的生成者、使用者和交易者,在创新链条中的地位是显著上升。一是数据支撑大型数字企业产学研一体化创新。大型数字企业生产和汇聚海量数据,能准确感知市场需求和应用场景。同时大型平台有能力大规模投入,2021年中国研发投入规模前3强都是数字企业,它们能组建研发簇群,研发内容可以覆盖产业生态所需的全链全域技术体系,并直接应用于自身庞大生态圈。某自动驾驶平台作为枢纽,组建包含芯片、车联网、数据处理、人工智能、传感器等自动驾驶创新网络。这种模式下,创新、产业和用户一体化,不存在所谓的“科技成果转换”问题。二是数据支撑大型数字企业从事前沿技术创新。大型数字企业具有巨量链接和海量数据获取、处理与迭代能力,是数字前沿技术的重要创新力量。在自动驾驶、云计算、渲染引擎、虚拟现实等前沿数字技术领域,国内发明专利企业占比超80%,国际发明专利排名前20位的均为企业,明显高出一些典型的传统领域。三是数据支撑大型数字企业从事基础研究。某企业在人工智能基础研究方面,发力机器学习、视觉技术、语音、自然语言处理等四大方向前沿技术,已于AAAI、CVPR、ICLR、IJCAI等国际人工智能顶会发表超600篇文章。四是数据支撑大型数字企业投资新创企业。平台拥有海量多元和异构数据,对数字相关领域创新方向高度敏感,同时具有较强投资能力。2021年中国独角兽排名前100的企业中,62.39% 独角兽企业获得来自大型数字科技企业的投资,在A轮和B轮获得数字科技企业投资比例为47.86%。
数据这么重要,什么科研组织方式才能汇聚数据、链接数据呢?我认为开放数据体系和开源技术体系日益成为重要的创新组织形态,成为这个时代最好配置创新资源的方式。
我们以往把开放数据作为开放科学5个要素(开放数据、开放获取、开放科学基础设施、开放参与、与其他知识体系的开放式对话)中间的一个,现在开放数据本身很重要,数据的开放在开放科学中间的地位在大大提升。真正大科学项目都是跨国的,要有非常好的全球开放平台,这里面最主要的是海量数据汇聚传递。在天文学、高能物理、生命科学、空间科学等领域,国际大科学项目成为推动重大科学发现的主流模式。例如平方公里阵列射电望远镜项目,接受面积达一平方公里,比当前同类设备灵敏度提高100倍,搜寻速度提高1万倍,将有机会揭示宇宙最基本的科学问题。2021年全国人大批准了《成立平方公里阵列天文台公约》,我们正式成为了多国政府间国际组织“平方公里阵列天文台”的签署国。这个大科学项目需要全球开放科学平台,需要数据的传递、分享和使用。
开源技术现在也变得很重要,开源技术源于软件,指源代码向公众开放的软件技术。数字时代开源成为一种创新理念与文化形式,指共创共享的技术创新。开源能够汇聚众智、多方协同,几十万的开发者在一个平台上是很常见的,能够进行世界范围内智慧资源的分布式协作和接力式开发,推动技术持续迭代演进和大范围连结产品、企业和产业,构建大规模生产和应用场景。开源发展到今天,已经成为软件、网络和数字领域的开发和创新模式。全球97%的软件开发者和99%的企业使用开源软件,72%以上移动操作系统基于开源Linux内核,全球70%以上的新立项软件项目采用开源模式。最近二十年,云计算、大数据和AI的发展均受益于开源。以AI为例,其快速发展,离不开开源数据、开源算法和开源框架。我再加一句,对于硬件开发,开源也非常重要,比如设计一个软件操作系统,要允许中间接的所有硬件最大限度开源,这样做可以让产业互联网中的企业不用动硬件,就可以不断进行系统升级和迭代。
我们把前面提到的信息时代创新范式的模型再稍微丰富一点,在信息维度下面,对产业组织也做了一个分类,以前的创新组织形态是边界封闭、闭环合作的,到数字时代,边界开放、开源模式应该成为创新的一种主流的产业组织的形态。这不仅仅是理念,经常有人讲开源需要开源的精神,我觉得开源已经是一个利益和理想并存的方式了,越来越多的创新会跟进到这个方式中间去。
总结而言,数字时代,数据成为重要的创新要素,数据重新定义创新链各主体间关系,科技与产业一体化程度增强,大型数字企业在创新中地位上升,开放开源成为创新资源配置的重要组织形态。推动科技创新的思路和组织科技项目的逻辑都要应时而变。
谢谢各位!