月订单千万元,这家人工智能产业供应商的新玩法

人工智能,这个词放在今天来说已经变成了一个热门词汇。自2015年人工智能商业化的大浪潮以来,越多越多的企业需要人工智能技术来赋能于传统业务,其中最典型的就是自动驾驶、人脸识别等等。
但是人工智能并没有想象中那么好开发,其算法是一方面,更重要的是所有人工智能都需要一个特定的训练平台,来对其进行训练以及评价。通过不断重复这个循环,人工智能才能得以实现各种各样的功能。而驱动训练平台的,则是数据。
世界经济论坛2012年的报告中,数据被称作是世界的新财富,价值堪比石油。麦肯锡咨询报告认为,数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。这些大数据的生产者,也就因此冠上了“人工智能原料供应商”的名号。
今天的主角正是这么一家供应商,龙猫数据。
龙猫数据是一家怎样的公司?
和往常的采访不同,dt君是在周六的上午来到龙猫数据。根据该企业创始人昝智的说法,龙猫数据采用双周休的工作制度,即单周周六正常上班,双周周末休息。
龙猫数据的业务可以被分为两层,对企业的业务为数据提供服务。顾名思义,该企业是为拥有人工智能训练平台的企业提供训练用的数据。这项业务一共分为四大类:图片类、视频类、文本类、语音类。也就意味着,现在大多数人工智能相关的企业都能成为其客户。
虽然说向企业出售数据是龙猫数据的主要营业手段,但是昝智告诉dt君,对于龙猫数据,还有一项业务更为重要,那就是采集数据的过程。
采集数据可以被理解为挖掘石油,石油公司的主营业务是将石油销售给其他企业,可是石油公司的中心并不是怎么销售石油,而是怎么才能以更低廉的价位挖掘更好的石油。龙猫数据也是一样的,该企业在数据挖掘方面采用了一种众包平台的方式。
众包平台又分为两个层面:采集和标注。在采集方面,龙猫数据在接到客户递交的任务以后,会向该企业的app分发这些任务,比如照片、录音等等。用户完成任务以后都会得到奖励,并且根据任务难度的不同会奖励数量不等的现金(存于网络账户)。
“我们将用户传上来的这些称为原始素材,”昝智向dt君说到,“但是这些素材并不能用来训练,还需要标注以及审核。”所谓标注是指,通过人工的手段对原始素材上的特征点进行施加机器可以理解的信息素,以此来让人工智能通过这些特征训练。
以龙猫数据的人脸照片素材为例,图上有密密麻麻的点,而每一个点都有其特征含义,如内眼角、外眼角等。众包平台的人员需要把这些特征点在图中标记出来,才算是一份龙猫数据所需要的素材。
然而通常人脸识别需要的训练素材,少则160个点,多则数百个点,通过人工的手段估计连想要正确且完整地标记一整张图是非常困难的。根据昝智的描述,龙猫数据在众包平台的数据采集阶段采用了一种自研的人工智能预处理技术,即当用户上传原始素材至龙猫众包平台后,人工智能会直接在后端开始预处理,提前标记好任务所需要的特征点。当素材进入人工标记阶段时,操作人员只需要轻微地挪动一些不合理的点即可完成任务。
这种预处理又分为很多种类。仍以人脸识别为例,龙猫数据准备了多种特征标注方法,如186个点,216个点等等,这些标注方式比较常见,可以直接套用给大多数人脸识别训练平台。而另外一些不常见的标注方式,龙猫数据选择和客户企业共同开发预处理方式。昝智认为,客户既然从事这方面的训练,那么他们对这些数据的需求一定有独到之处,所以共同开发才是最合理而且最节省成本的事情。从龙猫数据现有的预处理技术来看,该企业专长是计算机视觉相关以及音频相关的预处理技术,服务于自动驾驶、图像识别、声音识别等行业。
当然,凡是众包平台都会遇见这样的问题,操作人员并不是真正意义上的隶属于企业,这其中难免鱼龙混杂。尤其是数据采集,这样的环境会给数据清洗环节造成极大的困扰。龙猫数据则对其众包平台人员采用了一种多层次的审查机制。
首先是考核,操作人员需要通过练习题才能“就业上岗”。不过就算是上岗了,操作人员也不能混日子。龙猫数据会在数据标注阶段不定期地发放陷阱题,即龙猫数据已经知道答案,如果操作人员没有正确地像答案一样标注数据,那么他们就会被系统警告,最后会被剥夺操作资格。
同时,在标注过程中,系统也会检查操作人员的标注速度、操作记录等等。这是为了防止出现机器人刷任务和其他的违规操作。目前为止,龙猫众包平台的用户超过了400万,月订单金额达到了千万元的级别。
不过这还没完,当原始素材被标注以及审核完后,它会被上传至云端。目前龙猫数据将原始素材以及递交给客户的素材存在了两个不同企业的云端存储上,昝智解释这是为了保护数据的安全以及客户的隐私。
谁组成了龙猫数据?
龙猫数据的盈利思路非常清晰,昝智则表示,这是一家科技企业应该做到的。事实上龙猫数据最早并不是做大数据采集的。在种子轮阶段,龙猫数据的业务是交通卡与手机的移动支付,通过nfc功能,用户可以直接通过手机往交通卡里充钱,也可以将交通卡里的钱转给手机。这项业务在2014年叫做“闪电刷”,随后微信支付和支付宝迅速崛起后,昝智意识到了闪电刷很难在这两座大山前面崛起,于是果断转型,至此才有了龙猫数据。
昝智担任百度广告系统产品经理,但是他并不喜欢这份工作,于是他跳槽去了豌豆荚。来到新公司后,昝智第一件负责的事情就是豌豆荚的广告系统,鉴于在百度任职时间过短,广告系统对于他来说仍然是从零开始。
在广告系统做了一年多的业务以后,昝智被调去了豌豆荚的游戏联运,他告诉dt君,他很喜欢这种从零到一的过程。也正是在豌豆荚的就职过程中,昝智结识了姚毅,也就是现在龙猫数据的cto。
姚毅曾经是谷歌的工程师,后来跟着李开复去了创新工场。姚毅很信任昝智的战略眼光,即使龙猫数据发生了天翻地覆的业务调整,姚毅也选择推翻原有的技术重新开发。
龙猫数据目前的总人数为68人,技术团队占比最高,将近30个人。剩下的人员分别是20多个平台运营人员以及仅有的几个销售人员。昝智告诉dt君,“我们也期望有很多销售人员,但是我们的销售要求比较高。龙猫数据主要对接的是客户的研发团队,因为他们有直接的数据需求,也就是说销售人员必须很懂这个行业才行。”
截止至2018年,龙猫数据已经将业务销售给了百度、腾讯、华为、快手、京东、三星这些巨头型企业。昝智表示,龙猫数据给这些客户都做过几十项业务,有一些则做过上百个。
数据
上文提到,龙猫数据是一家提供人工智能训练数据的公司,并不是一家直接提供大数据的公司。虽然都有数据二字,不过这两者却是天壤之别。大数据讲究“5个大v”,分别是数据规模大(volume)、数据多样性(variety)、数据处理时效性(velocity)、结果准确性(veracity)、深度价值(value)。
人工智能的训练数据要求是符合训练平台的需求。仍然以人脸识别为例,在该领域的人工智能训练中,其训练数据采集往往会要求50%的室内、50%的室外、明亮环境80%、普通环境20%。但事实上,消费者真正用人脸识别唤醒机器的场景却远比训练场景更为纵深复杂。
因此,要想了解龙猫数据的业务,应该了解这些人工智能训练平台到底需要怎样的数据集才行。2014年,facebook提出了deepface,这是一种利用卷积神经网络和大规模人脸图像进行人脸识别的技术,其在lfw上获得了97.35%的精度,性能与人工识别不相上下;vgg网络采取深层拓扑结构和较大的输入图像获得了98.95%的精度;香港中文大学提出的deepid网络对卷积神经网络做出了进一步改进,采用局部和全局特征联合,利用联合贝叶斯处理卷积特征以及利用识别和认证两种监督信息进行训练,将精度提升到了99%;google的facenet采用三元组损失函数(tripletloss)作为监督信息,在2015年获得了99.63%的精度。
以上这些精度超过人工识别的人脸识别技术都需要大量的训练数据集支持才得以实现,具体数据量如下表。
图丨各种人脸识别技术所需要的数据量对比
尽管lightenedcnn采用了一种新的激活函数,即mfm函数,并且其网络结构也很小,但是仍需要45万的数据量才能够完成训练。使用中心损失函数(centerloss)的caffe-face也是同理。这些“小巧”是对于其他训练平台而言的,对于人类,这仍然是天文数字。
这张图其实并不能完全体现出人脸识别训练数据集的需求量,如果结合下一张看,你就会了解到这个行业是多么需要训练数据的支持了。
图丨各种人脸识别技术需要的训练图片数量以及图片人数
事实上在人工智能训练领域,人脸识别所需要的数据量远远不如其他种训练方式。同样处于计算机视觉的无人驾驶就是最好的例子,后者需要的训练数据量可能是前者的数千倍,乃至数万倍。
eccv2016的一篇文章提出了利用人工合成来完成大量训练数据,google最近推出的began,则是利用生成对抗网络来生成不同的任务。这是目前解决训练数据量不足的方法之一,不过也正是由于这种方法的出现,才变相体现出了“人工智能供应商”们严重的供不应求。
然而事实就是,人脸识别等技术是有生成对抗网络来支持了,无人驾驶、声音识别等领域却并不存在成熟的生成对抗网络技术,它们仍然需要巨大的训练数据。其实目前的gan也都停留在实验阶段,没有真正拿出来投入商业化的。
根据郑州市科学技术情报所的报告,截止至2018年,北京一共有242家人工智能企业,上海有112家,深圳有93家,杭州有36家。此外,每家人工智能都需要训练数据,一些企业还需要复数种类的训练数据。龙猫数据在这方面确实抓住了行业的痛点。从长远来看,人工智能应该会是一个能持续发展的领域,这也意味着龙猫数据存在与之相对应的长期持续盈利能力。
但是,龙猫数据的众包形式和传统的数据供应商,究竟孰强孰弱呢?传统数据供应商的数据采集形式就是雇佣一大批人拿着数据采集设备进行人工采集,当原始素材上传至企业云端时,再调遣企业员工对数据进行标注。根据昝智的介绍,这种方法的成本比众包平台要贵,而且采集周期比较长,毕竟要调动很多人,而龙猫数据的众包形式可以允许企业在接到数据采集任务后,第二天就开始执行采集工作。
其实一些苦于训练数据不足,又囊中羞涩的人工智能公司,他们会选择直接发动全公司的人去采集数据,而且这种行为在初创人工智能公司中并不少见。对于龙猫数据来说,这些公司也是很好的目标客户。
2017年12月14日,工业和信息化部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,其中提到“构建行业训练资源库、标准测试及知识产权服务平台、智能化网络基础设施、网络安全保障等产业公共支撑体系,完善人工智能发展环境“。目前,我国人工智能发展的痛点问题之一就是缺少有效的行业资源训练库,业界普遍反映已经影响了人工智能技术发展及在行业中的应用。上述提到的行业资源训练裤即是龙猫数据所长期专注开发、服务的人工智能数据采集与标注领域。昝智认为,人工智能的发展离不开数据数量和质量的不断提高,一方面是政策支持,另一方面是数据服务公司技术和资源的不断投入,双管齐下将形成有效引导,不断完善产业发展环境。
不过有一说一,龙猫数据的众包数据采集归根结底还是模式创新,即需要技术团队做支撑。这也就意味着龙猫数据需要更强技术的占比,以此抬高行业门槛才能保持竞争力。而昝智表示,龙猫数据接下来要做的就是进一步扩张技术人员。
“用非脱敏数据,他的肯定不是用来训练”
一般而言,人工智能的训练数据都是脱敏的,即不包含任何的个人隐私信息,就算是医疗领域人工智能的训练数据也不例外。这也是训练数据和大数据的区别点之一。在大数据领域,尤其是大数据的应用层,有一种技术特点叫做“应用需求驱动特性”,这是指大数据处理应该结合行业应用的实际场景和需求。
那么在大数据处理的过程中,就会碰到大量的个人隐私数据,比如出生年月日、身份证号等等。“用非脱敏的数据,那么他的目的肯定不是想训练人工智能。”昝智告诉dt君,“我们不会和这种人合作的。”
昝智有自己的原则,龙猫数据也是一样的。这也非脱敏数据的业务利润实际上要比通常的训练数据要高。为了平台的长远考虑,昝智并没有选择这样做。不过龙猫数据并不会挑客户。“但是那些之前不结项目款的我们还是会慎重考虑!”昝智补充道。同时该企业也会和客户去探讨,这些数据对于客户的训练平台是否真的有意义。
上文提到,龙猫数据最初的业务叫做闪电刷,这项业务为其获得了300万元人民币的天使轮融资以及500万元的pre-a轮融资。到了2016年,昝智把业务大规模调整后才有了现在的龙猫数据。根据该企业的融资消息来看,其在2017年年末完成了3370万元的融资。
这笔融资被用来扩张团队,从早期的33人团队扩张至了今天的68人团队。并且�...