原标题:AI 数据服务公司「爱数智慧」完成 B 轮融资 即将上线开源社区 MagicHub
获悉,AI 数据服务公司爱数智慧已于 2021 年初完成 B 轮融资,融资金额达到数千万人民币。本轮融资由凡创资本投资. 爱数智慧的创始人兼 CEO 张晴晴博士告诉 36 氪,本次融资的资金将主要被用于打造覆盖全球的 AI 开源社区 MagicHub,人工智能对话式 AI 的训练数据集产品设计和数据采集标注 SaaS 平台的研发等方面。
随着人工智能在各种场景的落地应用,上游的 AI 数据服务行业的市场规模不断扩大。数据、算法、算力是驱动人工智能发展的三大核心要素。数据作为人工智能技术架构的基础层,其数量和质量会直接影响算法的训练效果。AI 数据服务是指将语音、视频、文字等原数据经过加工处理后形成 AI 算法模型能够直接使用的训练数据。
爱数智慧成立于 2016 年,为超 100 家国内外客户提供专业的人工智能数据解决方案,包括数据处理方案设计、训练 \ 测试数据集产品、数据标签化,以及数据处理系统的私有化部署等。爱数智慧告诉 36 氪,爱数智慧不但拥有十几万小时的覆盖多语种多种方言的训练数据集,还为大型客户提供数据采集标注私有化部署。
张晴晴认为数据识别率的提升包括三个阶段:分别是 0-90%,90%-95%、95%-100%,第一阶段的绝大部分场景并不需要定制数据,标准化训练数据集即可满足;第二阶段可以使用标准化 + 部分定制的垂类数据集,第三个部分才真正需要 100% 精准定制。语音数据的标签化涉及语音、情感、信号等多维度,规则和规范十分复杂,一旦某些步骤出现问题,数据训练出来的效果可能会不尽如人意,非常浪费客户的成本和生产周期。
爱数智慧告诉 36 氪,目前公司已处于 AI 语音数据服务行业的第一梯队;2020 年,爱数智慧的营业收入接近亿元。客户包括国内外头部互联网公司、移动通信、知名算法公司等,这些客户将成为爱数智慧新的营收增长来源。此外,在业务板块上,爱数智慧还于 2020 年开拓了文本数据业务线,提供文本数据的产品和服务,以完善对话式 AI 业务板块。
为响应国家十四五规划提出的支持数字技术开源社区,同时在行业深耕多年的经历,爱数智慧发现 AI 工程师最崩溃的就是如何在汪洋大海里找到好数据 / 能用的数据。俗话说,巧妇难为无米之炊,数据作为基础层,为算法提供了坚实的基础,没有好数据,什么也做不了。于是,MagicHub 开源社区应运而生。MagicHub 开源社区的发布将满足更多行业和 AI 从业者对于训练数据的需求、降低数据使用门槛,解决找数据难的问题,爱数智慧将会在 4 月 15 号开源 30 种语音训练数据集,首批数据集包括 NLP 数据集、ASR 数据集、TTS 数据集和 LEX 发音词典,涵盖了多个语种、场景和领域,未来每个月都会更新训练数据集。
爱数智慧建立开源社区为 AI 从业者提供丰富的训练数据集和数据处理工具,探索训练数据集即可满足企业业务需求的可能性,从而帮助企业降本增效,促进 AI 行业的快速发展。
最后,张晴晴博士总结说,训练数据集、数据采集标注 SaaS 平台以及 MagicHub 开源社区是爱数智慧业务三大基石。
数据作为虚拟世界的原油,针对数据处理的核心竞争点在于对数据业务的专业性理解和提供解决方案的能力。除了爱数智慧外,AI 语音数据服务行业已有的玩家还包括海天瑞声、澳大利亚企业 APPEN、标贝科技等企业。