摆脱“脏苦累”,数据堂智能化数据处理技术为数据标注行业助燃
人工智能技术日新月异,优质训练数据不可或缺。IDC报告称,2023年,中国人工智能基础架构市场将超过80亿美金,未来五年年复合增⻓率将达33.8%。随着人工智能的大规模落地,数据标注的市场也将迎来爆发式增长。
2015-2018年数据标注与审核行业市场规模与增速情况
传统的人工智能数据生产完全倚赖人工,人工一次性标注,一次性算法训练,导致处理数据成本高效率低,无法规模化。同时,随着应用端数据需求不断增大、复杂度逐步提升,传统的人工智能数据生产方式已无法快速响应企业研发需求。
图片来自锌刻度
业内首家人工智能实验室
数据堂立足于人工智能行业,为持续提升人工智能数据处理技术,打造智能化数据处理工厂,2018年成立了人工智能实验室。该实验室聚集国内外数十位人工智能科学家,专注于人工智能数据智能化处理技术、多模态数据、大数据处理等方面的研究,并获得多项发明专利。
各项专利证书
在王大亮博士、丰强泽博士等多位专家的带领下,人工智能实验室研发出“基于Human-in-the-loop智能辅助标注技术”,并荣获该项技术专利。简单来说,Human-in-the-loop的核心是将人工处理的数据教给机器学习,机器将学习结果反馈给人工进行再校对,不断重复以上过程来提升准确率。
智能化数据处理技术
智能数据处理技术在AI数据标注作业时,在数据准备、预处理、质检、交付等环节都可以发挥作用。基于Human-in-the-loop智能辅助标注技术,数据堂提出了“智能数据柔性制造”的观点,循环迭代、逐渐增强,显著提高数据生产效率,减少人工出错率,引领国内人工智能数据处理方式变革。
数据智能化处理技术主要包括预识别技术、数据预处理、数据脱敏、数据质量评估以及应用在客户端工具上,提升数据处理效率。
l预识别:语音识别、目标检测、关键点检测、多目标跟踪、人脸检测、发音词典,可为标注工作量减少10%~30%。
l数据预处理:数据筛选、数据去重、关键帧抽取、语音端点检测、文语对齐,为采集和筛选降低工作量50~60%。
l数据脱敏:人脸脱敏、文本脱敏、语音特征生成、GAN数据生成。为数据交付工作量降低80~90%。
l数据质量评估:语音数据产品训练评估、模型训练。
l客户端工具:交互式抠图客户端、视频标注工具,为复杂&连续数据标注工作效率提升30%。
设立博士后工作站
2019年,北京博士后工作交流暨新设博士后站授牌仪式时,数据堂正式获批设立博士后科研工作站。这标志着数据堂在搭建高端人才培养平台、促进企业科技创新方面迈上了一个新台阶。
数据堂获批设立博士后科研工作站
获批建立博士后科研工作站,数据堂将充分利用博士后站人才产业链条的资源作用,招收和培养博士后科研人员,搭建人工智能技术人才与企业间的合作桥梁,与国内外高校以及其他博士后科研工作站建立战略合作关系。推动数据堂与高校、科研院所开展深度课题合作,夯实复合型高层次人才的培养,进一步增强自主创新能力,为行业繁荣和企业发展增添无穷能量。
数据服务行业蓬勃发展,数据堂在人工智能数据服务领域将持续发挥标志性、导向性和创新性作用,不断优化自身业务与技术实力,为人工智能技术研发与应用提供数据能源支持。