数据有多重要?高质量的数据直接决定了一家人工智能公司的竞争力。数据量越多,质量越高,其算法模型的效果自然就越好,产品体验、商业落地也水到渠成。那么这些数据从何而来?可以通过微博知乎抓取,也可以通过大学或者研究机构获取公开数据,然而这样的数据量并不能够满足AI公司的需求,并且,这些数据也不能直接应用到AI技术中。由此,催生了AI数据服务行业,本文采访的对象——龙猫数据CEO昝智,正是从事这一领域。
昝智曾先后担任豌豆荚商业产品负责人、百度联盟产品经理,离职后联合原豌豆荚游戏频道技术负责人姚毅创办龙猫数据,并于今年11月7日完成金沙江创投领投的3370万元A轮融资。龙猫数据的核心业务是为AI及大数据公司提供数据采集、标记等定制化的数据服务,涉及文本、语音、图像、视频四个领域。其数据服务业务主要依托众包平台——龙猫众包来完成。据昝智介绍,龙猫众包包括移动端和PC端两种形式,其用户量级已经达到百万,在经过线上培训和考试后,便有资格接受任务。
“客户要什么就生产什么,相当于有很多人的数据工厂”,昝智表示,龙猫数据偏向于众包模式,是一个集中在数据服务领域的数据生产商。其客户主要分为两类,一类是百度、腾讯等大客户;另一类是AI创业公司。对于百度等公司来说,虽然在某些方面拥有庞大的数据量,但是这些非机构化的数据并不能够应用到AI技术中,例如人脸识别和语音识别需要的都是结构化的数据。而对于初创公司来说,在A轮融资之前,不会有很强的数据购买需求,他们可以直接使用ImageNet或者国外大学的公开数据来训练自己的模型,因此龙猫数据主要针对的是B轮到D轮之间的创业公司。
谈及行业竞争,昝智坦言在数据服务领域的竞争并没有同是AI上游的芯片领域那样激烈。其原因有三,首先,大部分AI领域的创业者,更希望在算法与技术上取得突破,愿意从互联网产品上出发去提供服务的人很少。并且,对于这样劳动密集型的产业,投资人也更为谨慎,因此入局人较少。
第二,做数据服务,要同时保证质量和效率,其内部多种机制的建立并非一朝一夕就可以完成。昝智介绍,龙猫众包平台上的用户,都是需要经过线上培训和考试才有资格接受任务的,并且,用户标记后的数据会经过百分之百的审核,审核后还会进行抽审。例如对于图片标点,会有不同用户对同一张图片进行标注,并对有差异的位置进行交叉验证。
在提效方面,龙猫数据选择与客户联手解决。例如,人脸识别领域的用户本身就会有一定的算法基础,这时龙猫数据会引用部分客户的能力对数据进行判断和检查,同时客户还可以帮助龙猫进行初步检测以及标记的预处理,这样做既可以提高龙猫数据的效率,还可以降低客户成本,是一种双方都乐于接受的方式。
第三,数据获取较难。通常的数据服务公司会通过渠道或者地推的方式购买数据,然而当数据样本增加(超过10万),时间成本就会变得相当大。另一种获取数据的方法,就是龙猫数据所使用的“众包”,然而这种方法会引出另外一个难点,既互联网产品思维。
第四,互联网产品思维。众包平台通常是以APP的方式连接用户,然而单纯的APP并不能构成转化壁垒,这时就需要足够的运营技巧,吸引用户接受任务,以及邀请好友成为新用户。昝智表示,创始人的工作背景会影响该公司的做事风格,龙猫数据的CEO和CTO都曾就职于流量入口公司,有良好的互联网产品思维和粉丝运营技巧。
基于以上四点,数据服务领域里竞争并不是十分严峻,昝智表示,“各公司需要一起将产业链做起来,现在还不是要抢市场的时候。”