科学数据在数据与智能驱动的科研范式变革加速演进中愈发凸显出基础性和战略性,对我国实现高水平科技自立自强、增强国际竞争话语权和发展新质生产力具有重要意义。当前,我国科学数据体系建设仍存在管理碎片化等诸多问题,亟待统筹谋划,建立完善的科学数据管理体系,对政策、标准、技术、平台、服务、应用进行全链条统筹整合。
科学数据体系建设意义重大
科学数据又称为研究数据或者科研数据,是由研究人员在科技创新活动中创建和收集的证据,并在应用和传播过程中实现增值。从科学数据属性上来看,科学数据与个人数据、公共数据、产业(行业)数据、企业数据、政务数据等其他类型的数据相比,既有独特性,也存在交叉性。特别是随着科研范式变革以及科技创新和产业创新的深度融合,科学数据与产业(行业)数据的边界日益模糊,科学数据与个人行为数据的关系日益紧密,科学数据本身亦有公共数据属性,但又是具有科研特性的公共数据。当前加快科学数据体系建设、构建科学数据的全生命周期治理框架具有极为重要的意义。
第一,助力人工智能赋能科学研究,重塑科学发现范式。当前人工智能与跨学科研究需要高质量、高价值密度数据,要求打破数据边界,促进流动互通。科学数据体系为人工智能大模型提供了系统化、标准化、可访问的训练“燃料”,是驱动人工智能在材料设计、药物筛选等科学研究中发挥作用的基础,从而加速新规律发现和重大科学问题突破。
第二,捍卫大国博弈中数据主权,保障国家安全。科学数据成为战略资源,建设自主可控的科学数据体系,确保关键领域科学数据获取、存储、处理的自主可控,可以提供重要的替代支撑,对国家安全至关重要。
第三,支撑我国科技强国建设,实现高水平科技自立自强。通过科学数据公共平台建设,可以使有限的科研经费更集中于原创性研究和关键技术攻关,整体提升国家科技投入产出效率。高质量的科学数据体系还能吸引全球顶尖科技人才,加速科技成果转化,为培育新质生产力提供强大的数据驱动力。
我国科学数据体系建设存在的问题
虽然我国科学数据治理能力显著提升,但在科学数据体系建设方面还存在缺乏系统规划、管理碎片化、缺乏高质量数据库、资源投入不足等问题。
第一,缺乏国家层面系统规划,跨部门统筹协调困难。已出台政策缺乏统一管理框架,出现多头管理、跨部门统筹协调困难的情况。由于缺乏跨部门协调机构,数据持有部门出于数据控制权、数据安全、知识产权等风险规避考虑,出现“不愿共享”“不敢共享”“不能共享”的局面。
第二,科学数据管理碎片化,生命周期关键环节存在问题。在数据汇交环节,科研主责单位汇交数据的主动性不足,部分汇交数据质量不高,缺乏可持续汇交机制。在数据共享环节,大量科学数据依然分布于个体科研人员手中,数据持有者由于权属不清、收益无保障、安全顾虑等原因,不愿意共享。在数据应用环节,对人工智能赋能科学研究等最新应用场景响应不及时,尚未构建新兴学科数据库。在标准体系方面,跨学科跨领域数据标准不统一,强制性标准缺乏,难以整合利用。
第三,缺乏高质量数据库,基础软件过度依赖国外。2024年全球科学数据存储库注册平台统计显示,现有注册数据库3300个,中国牵头建设的仅有63个,且普遍存在数据不完整、更新不及时以及质量参差不齐的问题。与此同时,严重依赖国外开源或商业软件,如GEE、Pytorch、Neo4j、DOI科技资源标识等系统,其中科技资源标识服务已发生数起断供事件,严重影响我国资源全球访问。
第四,资源投入不足,激励与保障机制缺位。我国科学数据建设未能与科研仪器享有同等重要地位,缺乏科技专项支持。缺乏激励与保障机制,科学数据未被纳入科技成果评价体系,经济收益激励不足,从事数据工作的科研人员职称评价难,导致相关人员流失严重。
统筹部署加快科学数据体系建设
科学数据体系化工作的当务之急是跳出部门利益局限和“打补丁”思维,以科技强国建设为目标,通过顶层设计、制度创新、平台建设、场景驱动,实现科学数据的自立自强。
第一,加强顶层设计,重新定义“科学数据”,统筹调度各部门资源。推进《科学数据管理办法》修订工作,重新定义“科学数据”及其边界,细化与丰富科学数据属性,使其适应新时代要求。锚定科技强国建设目标,明确科学数据作为“科技基础设施”的战略定位。加强部门统筹协同,通过设立国家级重大科技项目,在项目框架内赋予首席科学家对科学数据的调度权,推动科学数据共享。
第二,探索制度创新,推动权属界定,完善科研人员激励评价政策。改变科研人员“重论文、轻数据”的传统观念,将科学数据纳入科技成果范畴,接受数据作为独立成果的价值。推动数据成果化,借鉴知识产权模式,鼓励数据加工产品进入市场。改革考核评价机制,在机构评估中,将数据资源建设、管理能力、开放共享成效纳入科研机构、高校等的评估体系。在科研人员的职称评定、人才计划评选、绩效考核中,将高质量科学数据集的创建、维护、共享及其产生的广泛影响力作为重要依据。建立数据工程师职称通道,鼓励科研人员参与数据治理。
第三,构建平台体系,加大资源投入与整合,完善标准标识建设。优化科学数据平台体系,构建“国家科学数据总中心—省级节点—领域中心”的“1+M+N”科学数据分层治理体系。国家级科学数据中心聚焦基础学科和“卡脖子”领域,覆盖中西部地区的省域科学数据中心聚焦应用学科领域,高校、企业等机构建设的科学数据平台也逐渐接入元数据框架。逐渐打通科学数据中心、国家实验室、重大科技项目、学术期刊、企业机构“五类主体”的科学数据链,形成分层次的科学数据体系。国家和地方设立专项课题,资助科学数据的加工与应用,保障科学数据的全生命周期管理。由国家科学数据中心统一提供标识服务、安全扫描、引用追踪等公共服务。
第四,强化场景驱动,拓展数据应用,支撑科技创新与产业创新融合。设立“数据—算法”联合专项,支持基于高质量科学数据与先进算法融合的基础理论研究和范式创新。鼓励企业结合自身特点,使用国家科学数据开发垂直模型,探索定制化的数据应用解决方案。鼓励基于开放数据的二次研究、产品开发和服务创新。推动科学数据在各行业深度应用,建立产业融合示范区。
(作者:杨晶 系中国科学技术发展战略研究院副研究员)







