中國國家數據局推進行業高質量數據集建設 2028年底建成重點領域標杆

2026-06-10

中國國家數據局近日印發《關於推進行業高質量數據集建設行動的實施方案》,提出到2028年底建成一批覆蓋重點領域且經應用驗證的高質量數據集,打造數據驅動人工智能創新發展的典型場景,培育具備領先優勢的創新型數據企業與專業人才,並形成一批建設工具及標準。專家指出,當前人工智能正從「可用」邁向「好用」,高質量數據集作為大模型訓練與應用的基石,其供給規模與品質直接決定人工智能的創新高度與產業落地深度,將利好數據標註、數據服務及模型應用等多個環節。

截至2026年第一季,全國已建成高質量數據集超過11.6萬個,總量逾960PB,日均詞元調用量突破140萬億。然而行業數據仍存在分散沉澱、品質不高、標準不一、模型適配不強及應用驗證不足等問題,制約人工智能在重點行業與複雜場景的深入應用。《實施方案》聚焦國民經濟重點行業及戰略性新興產業,圍繞供給、流通、應用等關鍵環節,部署強基擴容、標註攻堅、提質增效、應用賦能、管理服務及價值釋放六項行動,旨在形成「場景牽引數據、數據驅動模型、模型賦能應用、應用創造價值」的數據飛輪,構建數據要素與人工智能協同演進的生態。

在強基擴容方面,方案提出拓寬數據供給渠道,豐富供給類型,聚焦科學研究、工業製造、農業農村、智慧能源、交通運輸、金融服務等重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物製造等創新領域,加快推進行業高質量數據集建設。標註攻堅行動則持續推動數據標註先行先試,培育數據標註龍頭企業、獨角獸及瞪羚企業,壯大產業規模。價值釋放行動提出創新商業模式,包括探索詞元交易等新型模式,構建可量化、可定價的數據價值體系。

分析人士認為,相關措施將為數據標註、數據服務及模型應用等環節帶來發展機遇。北京前沿未來科技產業發展研究院院長陸峰表示,方案明確培育數據標註龍頭企業,推動標註向專業化、智能化躍升,並強調加強數據清洗、增強及質檢等關鍵技術攻關,鼓勵運用仿真合成技術解決稀缺場景數據難題,直接利好技術驅動型數據服務商。賽智產業研究院專家指出,低空經濟、具身智能等創新領域對多模態、仿真及高精度標註數據需求強烈,將帶動數據採集、仿真建模及場景測試等環節發展,相關企業應加快梳理數據資源,圍繞行業需求建設高質量數據集,提升產品化與服務化能力。