什么才是大数据风控的制胜之道?

文/机器脑壳(前logical glue数据科学家,曾任职于experian和点融网)
人工智能已成为目前最炙手可热的方向。回想起若干年前,在本科人工智能的选修课上,老师介绍了机器学习模型能用于预测,这一点深深吸引了我。我当时的想法很简单,要是学好人工智能,用于炒股,我就能帮母亲在股市里赚钱。在导师的指导下,我在大四花了大半年时间专研神经网络及优化算法,也发表了论文若干。可是,我满怀期待地把研发成果用在a股数据上模拟炒股,却失败了。
所以,如何恰当地定义用模型去解决的问题,然后如何应用模型去解决问题,并没那么简单。
继续怀着为母亲在股市里赚钱的梦想,我踏上人工智能的出国求学路。学成之后,我如愿以偿地运用机器学习实现了能获得不错收益的自动交易算法。后来,由于一次机缘巧合我投入到了我认为更有意义的,大数据信贷风控的事业中。
google在无人驾驶汽车的阶段性成功,设计出alphago和master在围棋界战胜人类,让人们见识到人工智能的威力。那么,人工智能、机器学习在信贷风控中能起到多大的作用?
用机器学习看问题的角度,无人驾驶汽车和围棋两个问题有很大共性。即1)所掌握的数据能够完全描述和评估情况,理论上不存在无法预料的不确定性;2)可以创造或模拟出无数种汽车行驶环境或棋局供机器去学习。行驶中的环境和状态和对弈中的棋局形式能够抽象成数据描述,并且可以有效评估。例如,在棋局上是否占优,可以通过计算得到客观的结果。在样本量充足的情况下,深度学习技术赋予了机器识别和评估千变万化的行驶状况和棋局情况的能力,再通过搜索算法遍历各种可能性,演练将要发生的情况,最后做出最佳应对行动。
但在信贷领域,我们通常不具备这两大问题所具有的条件–我们无法获取反映各类人群资质的完整数据,人在未来是否还款具有不确定性,也没有足够多的样本供最强大的机器学习模型去学习。
然而,随着大数据风控、大数据征信的发展,这些不具备的条件也在快速改善。
首先,政府、具有大量数据积累的公司、以及大数据风控的同业都在为如何更好地利用数据努力。各类数据,如信贷行为、消费行为、社交、衣食住行、政府类数据的积累、获取、打通、整合、加工,为信用评估,特别是无央行征信情况下的信用评估提供了重要参考依据。
其次,如何从各类数据中挖掘出有效信息并整合成因子作为信用风险模型输入,机器学习、模式识别技术可以发挥很大作用。在信贷领域,增加有效的数据,并通过适当的处理方法把数据表现成模型因子带来的提高通常比在模型上的优化更显著。
如今,传统的基于逻辑回归的评分模型开发方法已非常普及,也有大量分析建模从业人员能够运用常用的机器学习模型。但简单的把传统模型替换成常用机器学习模型并不会带来很大改变。在信贷风控领域,真正能通过设计模型组合应用方案,设计模型优化算法带来预测精度有效提升的案例还很少见。实践证明,在相同数据集上,当数据维度的包含的信息复杂度和数据量达到一定程度时,通过优化的神经网络、组合模型等方法可以提升预测性能。
此外,其它人工智能技术的应用,如人脸识别、虹膜识别、语音识别等技术的成熟和应用在反欺诈、身份核实、减少人工干预和提升用户体验等方面可以发挥重要作用。
随着社会各类数据的整合和打通,图像识别、文本挖掘技术的不断成熟和产品化,以及大量专业人士对人工智能的关注,人工智能等新技术一定能在信贷风控领域发挥越来越大的价值。
然而,模型、大数据、机器学习是否将代表风控的所有?对于大数据风控从业者来说,我想最根本的,要有在风控问题上严谨的态度和缜密的分析,对业务的了解,以及对市场、对风险的敬畏之心,在此基础上,做技术的应用者,把新技术以最恰当的方式融合到风控体系的某环节。
我经历了欧美非银行信贷机构不断涌现时期。那时候,比较典型的是年化利率超过2000%的发薪日贷款迅猛发展,从仅有几位员工的公司在数月内扩张到几层办公楼规模,而这样的事在那段时间屡见不鲜。收益最大化驱动的风控策略是,做基本身份核实后裸放,到市场过饱和、过渡授信致使量化模型已无法量化风险,最佳策略变成一笔也不放。后来监管趋于规范严格,只有实力强、深耕风控技术的公司才活得比较好。
把时间坐标轴向后移几年,中国在经历银行引进评分模型,实施巴塞尔协议,到小贷公司兴起,再到互联网金融,大数据征信,以及现在银行面临困境和金融科技的发展。中国市场上,正经历着和欧美同样的故事。
而如今,大数据征信、大数据风控、金融科技,我们更像在创造具有自己特色的故事。新公司雨后春笋般成立、迅猛发展、到瓶颈期、监管整顿、转型和消亡,在中国市场,一切都来得更加快速和猛烈。正如p2p公司正一家接一家消亡,也许一两年后,许多所谓的金融科技公司也会有同样的遭遇。公司能在浪潮中持续发展的关键因素,也是风控能力。
有一个有趣的发现是,国外不少优秀的金融公司或因种种原因并没有使用评分模型,而是结合业务经验和数据分析,以精准覆盖所有风险点为目标制定了上百条规则。在此基础上,采用评分模型和机器学习方法或多或少能把准确度进一步提高。然而,现实中常常需要达到业务稳定、数据积累充足、并到某个发展阶段等各种条件后才开发量化模型,并可能只是起到锦上添花的效果。相比之下,在这个案例中,最初把控住风险的上百条规则显得更有价值。设计规则的人,或许对业务有足够深入的理解和把握、有多年风控实践经验、并做了大量严谨的分析和推敲。如果把最终的智能风控体系比做alphago,其一半的智能来自于深谙风控之道的人。
在实现普惠金融的道路上,我们会给各种场景以及没有被传统信贷服务到的人群提供信贷服务,但这类产品在一段时间内常常不完全具备建立统计模型的条件。此时,诸如对业务的理解、对风险点的列举分析、风控体系设计、风控尺度的把握等能力显得尤为重要。
前途是光明的,伴随数据的加速整合,人工智能等新技术应用和风控经验指导三方面产生化学反应,我相信未来的大数据风控会不断给我们带来惊喜。