国家数据局:推动数据清洗、质量检测、数据加工、数据标注、数据集成等技术和业态发展
发布时间:2025年01月21日 浏览次数: 字体:【

近日,国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会联合印发了《关于促进数据产业高质量发展的指导意见》(以下简称《意见》)。在附件数据技术和产业重点发展方向中明确指出:推动数据清洗、质量检测、数据加工、数据标注、数据集成等技术和业态发展,创新数据开发治理一体化模式,支持人工智能技术在自动化数据处理、数据标注、模型构建、预测分析等领域的应用。以下内容对相关概念等做出解析,以便深层次理解:



一、概念解析

数据清洗是指发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。数据清洗的目的是删除重复信息、纠正存在的错误,并提供数据一致性。

数据质量检测是指通过一系列技术和方法,对数据的准确性、完整性、一致性、及时性和可靠性等进行评估和验证,确保数据符合特定的质量标准。常用的方法包括统计分析、数据比对、数据完整性检查等。

数据加工是指对原始数据进行转换、整理和优化,使其更适合特定的分析和应用需求。数据加工包括数据转换、数据归一化、数据聚合等操作。数据标注是指对数据进行标记和分类,以便机器学习模型能够理解和处理这些数据。

数据标注在人工智能和机器学习领域尤为重要,常见的标注类型包括文本标注、图像标注和视频标注。

数据集成是指将来自不同来源的数据进行整合和融合,以实现数据的一致性和统一性。数据集成包括数据整合、数据转换、数据映射和数据清洗等步骤。


二、目的和意义

提高数据质量:数据清洗和质量检测可以显著提高数据的准确性和一致性,从而为数据分析和决策提供可靠的基础。高质量的数据能够减少错误决策的风险,提高业务效率和竞争力。

促进数据流通和共享:数据加工和集成技术的发展有助于打破数据孤岛,实现数据的高效流通和共享。这不仅能够提高数据的利用效率,还能促进不同部门和企业之间的协同合作。

推动人工智能和机器学习的发展:数据标注是人工智能和机器学习的基础,高质量的标注数据能够提升模型的性能和准确性。通过推动数据标注技术和业态的发展,可以为人工智能和机器学习提供更丰富的训练资源。

支持数字经济的发展:数据清洗、质量检测、数据加工、数据标注和数据集成等技术和业态的发展,是数字经济健康发展的关键支撑。这些技术能够提升数据的可用性和价值,推动各行业的数字化转型。

保障数据安全和隐私:在数据处理和流通过程中,数据安全和隐私保护至关重要。通过规范的数据清洗、质量检测和集成技术,可以有效防止数据泄露和滥用,保障企业和用户的合法权益。


三、实施路径

1、政策支持和引导

制定相关政策:国家数据局通过制定《关于促进数据产业高质量发展的指导意见》等政策文件,明确数据清洗、质量检测、数据加工、数据标注和数据集成等技术和业态的发展方向和目标。

建立标准和规范:制定统一的数据质量标准和数据处理规范,确保数据处理的标准化和规范化。例如,数据清洗的标准可以包括数据完整性的要求、数据一致性的标准等。

推动产学研合作:鼓励高校、科研机构和企业之间的合作,共同开展数据处理技术的研究和应用。通过产学研合作,加速技术的转化和应用,提升数据处理的整体水平。


2、技术创新和应用

发展自动化工具:开发和推广自动化数据清洗、质量检测和标注工具,提高数据处理的效率和准确性。例如,利用机器学习算法自动识别和处理数据中的异常值和缺失值。

融合前沿技术:将大数据、人工智能、区块链等前沿技术与数据处理技术相结合,提升数据处理的智能化水平。例如,利用区块链技术确保数据的可信性和安全性。

创新数据集成模式:探索新的数据集成模式,如湖仓池一体、数据编织等,实现数据的高效整合和共享。这些模式可以提高数据的灵活性和可扩展性,满足不同场景下的数据需求。


3、产业生态建设

培育数据企业:支持数据资源企业、数据技术企业、数据服务企业和数据应用企业的发展,形成完整的数据产业链。通过培育一批具有国际竞争力的数据企业,提升数据产业的整体实力。

建设数据标注基地:国家数据局推动建设国家级数据标注基地,集聚龙头企业,打造区域人工智能产业生态。例如,成都、沈阳、合肥等7个城市已经承担了数据标注基地的建设任务。

促进产业链协同发展:鼓励行业龙头企业和中小企业之间的合作,形成大中小企业融通发展的产业生态。通过龙头企业提供技术和资源支持,帮助中小企业提升数据处理能力。


4、人才培养和引进

加强教育和培训:高校和职业院校应开设数据处理相关专业和课程,培养数据清洗、质量检测、数据加工、数据标注和数据集成等领域的专业人才。同时,开展在职培训和继续教育,提升现有从业人员的技能水平。

引进高端人才:通过优惠政策和良好的科研环境,吸引国内外高端数据处理人才。例如,提供科研经费、住房补贴和职业发展机会等,吸引数据科学家和工程师。


5、数据安全和隐私保护

加强技术防护:发展数据加密、防勒索、容灾备份等技术,确保数据在处理和流通过程中的安全。同时,加强量子加密、多因子身份认证等前沿技术的研究和应用。

完善法律法规:制定和完善数据安全和隐私保护的法律法规,明确数据处理的法律责任和义务。例如,规定数据处理企业的数据保护责任,保护用户的个人信息和商业秘密。

建立监测和预警机制:建立数据安全监测和预警机制,及时发现和处理数据安全事件。通过技术手段和管理措施,确保数据处理过程的透明度和可追溯性。


总之:国家数据局等部门推动数据清洗、质量检测、数据加工、数据标注和数据集成等技术和业态的发展,是数字经济健康发展的关键举措。通过政策支持、技术创新、产业生态建设和人才培养等多方面的努力,可以显著提升数据的质量和价值,促进数据的高效流通和共享,推动各行业的数字化转型,为经济社会的高质量发展提供有力支撑。

责任编辑:徐艺轩 信息来源:数据资产讲堂

扫一扫在手机打开当前页