近日,由前海征信主办、科赛网承办的“好信杯”大数据算法大赛落下帷幕,该赛事将赛题锁定在迁移学习方向。仅由第四范式机器学习工程师罗远飞一人组成的dandange团队利用第四范式自主研发的分布式并行计算框架gdbt,在显著减少特征工程工作量的情况下,取得了出色的模型效果。并在决赛答辩中展现了丰富的知识储备,以精湛的算法和稳定的现场表现获得大赛冠军。
据悉,该赛事历时两个月,共吸引242支队伍共600多位选手参赛,选手们共提交145份模型作品、17份算法方案,最终10支团队入围决赛。
继深度学习、强化学习之后,迁移学习成为了国际人工智能领域公认的下一个方向。deepmind创始人demishassabis曾在《经济学人》上公开表示google正在探索迁移学习技术;第四范式联合创始人、首席科学家杨强教授也视迁移学习为人工智能的明天。迁移学习相较于深度学习在同样数据量的前提下,模型效果更加准确,相当于使机器拥有“举一反三”、“触类旁通”的能力,如同我们掌握了一个知识,可以把它再推广到其他的领域中去应用。因此迁移学习能够应用于基因、医疗、石油开采、教育等样本量相对小的领域。
正是看准了迁移学习的巨大潜能,本次算法大赛将迁移学习为主题,参赛选手依据给定的4万条业务信用贷款数据及4千条现金贷数据,建立现金贷业务的信用评分模型,将信用贷款数据所获得的知识迁移到现金贷业务中。
迁移学习的核心难点在于如何发现共同点,即如果发现源数据领域a和目标领域b之间的共同特征。此次在建模中,dandange通过多任务学习、tradaboost(第四范式创始人兼首席执行官戴文渊于2007年发表的《boostingfortransferlearning》论文中提及)等不同的方法建模,最后通过加权平均的方式对多个模型进行融合,从而提升算法的精度和稳定性。
由于特征工程和业务紧密相关,所以单纯依赖特征工程来提升建模效果的迁移学习方案并不具备可扩展性。此次dandange在减少特征工程工作量的前提下,基于gdbt平台,实现了完整的迁移学习解决方案。因该方案并未针对具体业务实施特征工程,而是更侧重于迁移学习算法的优化,使该方案有较强的可扩展性,从而让迁移学习的能力应用到不同的领域中。
与其他参赛选手使用开源工具如xgboost不同,dandange使用的算法均基于gdbt平台。gdbt平台是第四范式针对机器学习计算任务自主设计开发的分布式并行计算框架,在计算、通讯、存储、灾备等方面针对机器学习任务进行了深入优化,兼顾了开发效率和运行效率。且随着计算能力的提升,该架构使模型的复杂度与投入的计算资源呈线性增长,与以往的架构相比,节省了大量的计算资源。
据悉,第四范式在迁移学习领域保持着全球绝对领先的优势,作为迁移学习技术的开创者与奠基人——杨强教授在迁移学习领域的单篇论文引用数世界第一,戴文渊的论文引用数世界第三,也正因如此被新华社等权威媒体称为是“中国技术追赶发达国家的重要契机”。此前,第四范式曾凭借成功将迁移学习应用于工业界并发挥巨大价值,成为国内第一家获得中国人工智能最高奖——“吴文俊人工智能科学技术奖”创新奖一等奖的企业,打破了该奖历年只授予顶尖高校或科研机构的惯例。