----数据是数字时代的石油
近年来,语音、人脸识别等“感知智能”技术已相对成熟,如何赋予机器常识和因果逻辑推理能力,实现“认知智能”,成为当下人工智能研究的核心,新一代人工智能技术也正在从“感知智能”向“认知智能”迈进。在这个转变过程中,人工智能算法的设计范式,也已经从关注算法转到关注数据。
吴恩达教授在21年的一次讲座中提到:优化模型效果,数据质量要比算法和调参更为重要。在这个大背景下,决定数据生产效率和质量的数据标注平台,值得引起我们关注。而标注平台的竞争优势取决于是否能构建出更高效的标注工具。
外部趋势:根据国际数据公司( IDC )的数据,业过去的三年间从事数据标注的人员数量正在以超过 100% 的速度增加。同类标注公司Scale.Ai,估值已超过70亿美元。【【【【【【如果说是数据是模型训练的燃料,那么标注工具就是石油开采平台】】】】】】,它的重要性不言而喻。
内部业务场景:在 iTAG 业务里,常见的标注业务场景有四大类:图像标注、文本标注、视频标注、音频标注。对应内部有大量的业务场景,比如:IOT人脸识别,智能客服对话,遥感标注,Tab3视频理解等。
现有问题:标注平台去年标注量已经超过2亿规模,现有标注工具方案( AntLabel )在满足业务需求上已经难以再负重前行:基于第三方渲染引擎导致交互定制难度高;没有稳定的插件机制,导致与达摩院,阿里云三方共建困难;在标注量较大的场景下交互卡顿性能不足;未考虑智能化,比如说集成端智能OCR能力。因此我们计划面向未来打造一款新的标注工具