2018年,中国人工智能产业进入了从技术探索到规模化应用的关键阶段。在这一进程中,作为核心生产要素的“公共数据”,其重要性日益凸显。本报告旨在聚焦“人工智能公共数据”这一关键议题,梳理其发展现状、核心价值、面临的挑战,并展望未来的发展路径。
一、 人工智能公共数据的核心价值:驱动智能化的“新石油”
人工智能的发展遵循“数据驱动”的基本逻辑。公共数据,特指由政府机构、公共事业单位在履行公共管理和服务职能过程中产生、收集和管理的,具有公共属性的数据资源。相较于商业数据,公共数据具有以下独特价值:
- 基础性与普惠性:公共数据覆盖了经济、社会、民生等各个基础领域(如地理信息、气象、交通、医疗健康、教育、政务等),是构建国家级AI基础设施的基石。其开放与利用,能够降低全社会尤其是中小企业和研究机构的创新门槛,促进技术普惠。
- 高质量与权威性:由政府权威部门产生和核验的数据,往往具有较高的准确性、规范性和连续性,是训练可靠、可信AI模型的优质“燃料”。
- 巨大的潜在价值:海量、多维的公共数据经过融合分析与AI挖掘,能够催生跨领域的创新应用,例如在智慧城市治理、公共卫生预警、宏观经济分析、环境监测保护等方面发挥不可替代的作用。
二、 2018年发展现状:政策先行,开放起步,应用初探
2018年,中国在人工智能公共数据领域呈现出“政策热、实践探索”的特征。
- 政策框架初步建立:国家层面,《促进大数据发展行动纲要》的精神持续深化。多地政府(如上海、北京、贵州、广东等)相继出台公共数据开放管理办法,明确开放范围、标准、平台和安全要求,为数据有序开放提供了初步的制度依据。
- 开放平台陆续上线:各级地方政府数据开放平台数量显著增加。截至2018年底,全国已有数十个省级、市级政府上线了数据开放门户,集中发布涵盖道路交通、公共服务、市场监管等多领域的数据集。
- 行业应用开始涌现:在交通领域,开放的道路流量、信号灯数据助力了智能导航和拥堵预测;在金融风控领域,部分合规开放的政务数据与商业数据结合,提升了信贷评估的准确性;在科研领域,天文、气象等科学数据的开放,推动了相关AI研究。
三、 面临的主要挑战与瓶颈
尽管开局良好,但2018年人工智能公共数据的开发利用仍处于初级阶段,面临多重挑战:
- 数据开放“量质不足”:开放的数据集总量仍偏少,且“浅层数据”多(如静态报表),高质量、高颗粒度、实时更新的“深层数据”开放不足。数据格式不统一、标准不一致问题突出,导致“数据孤岛”现象依然存在。
- 数据安全与隐私保护平衡难:公共数据中常包含大量个人隐私和敏感信息(如医疗健康数据)。如何在保障国家秘密、商业秘密和个人隐私绝对安全的前提下,实现数据的“可用不可见”或“合规流通”,是技术和法律层面的双重难题。2018年,清晰的数据确权、授权使用和收益分配机制尚未形成。
- 技术支撑与融合应用能力待提升:从原始数据到AI可用数据,需要大量的清洗、标注、融合工作。当时,自动化、智能化的数据治理工具链尚不完善。具备跨领域知识,能将公共数据与AI场景深度结合的复合型人才稀缺。
- 可持续运营生态未健全:公共数据开放的长期运营机制、成本分担模式以及基于数据价值创造的反哺机制尚未明确,影响了数据供给方(政府)的持续动力和数据利用方(企业/机构)的稳定预期。
四、 未来发展路径展望
基于2018年的基础与挑战,未来推动人工智能公共数据发展需多管齐下:
- 深化制度与标准建设:加快出台国家层面的公共数据开放与开发利用条例,明确数据产权、流通交易、收益分配和安全保护的根本规则。大力推动各领域数据质量的国家标准和行业标准制定,为数据互联互通奠定基础。
- 创新技术保障与平台能力:大力发展隐私计算(如联邦学习、安全多方计算)、区块链等数据可信流通技术,在保护隐私和安全的前提下释放数据价值。升级政府数据开放平台,提供更强大的数据检索、分析工具和沙箱环境,降低使用门槛。
- 推动场景驱动的示范应用:围绕城市治理、民生服务、产业升级等重大需求,设立专项,鼓励“政产学研用”协同,打造一批具有显著社会效益和经济效益的公共数据AI应用标杆案例,以用促建,以用促治。
- 构建多方协同的良性生态:明确政府“数据供给者”和“规则制定者”的角色,鼓励国有企业、领先科技企业参与数据基础设施建设和运营,激发广大中小企业和研究机构的创新活力,最终形成共建、共治、共享的数据要素市场生态。
###
2018年是中国系统性布局人工智能公共数据资源的关键一年。公共数据作为战略性的数字资产,其有序开放与高效利用,将成为衡量一个国家AI产业竞争力和社会治理现代化水平的重要标尺。克服当前瓶颈,走出一条兼顾安全与发展、创新与规范的中国特色道路,对于抢占全球人工智能制高点至关重要。前路虽非坦途,但方向已然明晰。