“大数据”征信之思

未央网

近几年,伴随着互联网金融大数据技术等相关概念的兴起,大量资本争相竞逐我国相对薄弱的征信行业。笔者近期有幸参加相关的研讨会,会中:“征信本身一定是大数据,但不是大数据就能做征信”的观点引发了笔者的思考,现将一些想法记录如下。

笔者先以信用体系最健全的美国为例,来谈一谈传统征信模式。

在美国,对借款对象进行贷前分析和审查时,建立了品德(Character)、能力 (Capability)、资本 (Capital)、条件 (Condition)、担保品 (Collateral)、稳定性 (Stability) “5C1S“评价体系来考量借款对象获得交易信用所应具备的条件,以确定借款对象是偿付本息的能力。

由此可见“5C“评价体系的数据主要以借款者的基本信息,财务状况和过往借贷行为等与借贷对象经济行为直接相关的数据为基础,而这些数据也正是美国各大征信机构主要搜集的数据。借贷机构借助各征信局或者类征信机构的这些信息结合借款用途对借款人还款意愿的影响以评估借贷的风险大小以确定是否发放贷款

与美国类似,我国的央行征信中心也主要以个人基本数据,金融数据(主要是信贷信用卡相关数据),公共数据(包括税务、工商、法院、电信、水电煤气等部门的数据)以及个人信用报告查询记录,共四个类别为主。

互联网技术的普及,使得互联网中以数据通信为载体的个人信息及行为信息更易被采集;大数据技术的兴起和挖掘算法的不断完善,使得人们能够利用和处理更加复杂的数据。顷刻之间,大数据征信被国内争相报道,可谓一时无两。

确实,我们不得不承认互联网和大数据技术使得可以用来评估的数据纬度越来越丰富,如电商的交易数据、社交类数据、网络行为数据等。但是纯粹的社交数据就可以直接用于信用评估呢?我想,答案未必这般乐观。

这里笔者不得不先纠正一个被狭隘化的观点:“大数据”,传统征信其本身就记录了个人大量的行为信息,过往资产状况,随着常年累积,单一借款主体所对应借款数据从数据量来说必然是十分可观的,所以征信本身一定是大数据。

当然,这里大家一定会吐槽笔者,相信大家认为的大数据应该是多种多样的纬度,甚至是非结构化的数据。笔者在这里并不否认这些数据的价值,但是对于征信机构而言,真正重要的是如何使用这些数据以及这些数据是否能够产生合理的预测模型。

这里就不得不提及FICOZestFinance,这两家近期内备受媒体吹捧的国外征信机构, FICO作为传统征信机构的代表使用的是回归模型和大数据技术为基础的ZestFinance形成了显著的区别。

ZestFinance宣称“将Google算法带入征信领域”,运用人工智能和大数据技术应用于商业。由机器承接上万指标的分析工作,寻找逻辑关系,自我改善,人类只需要根据结果进行一些逻辑分析和判断。这确实是极具价值的商业思路,无监督的机器学习也为模型的自我完善提供了可能。但是从市场的占有率来看,虽然FICO占领着美国99%的信用评分市场,而ZestFinance目前服务人群不足市场的千分之一。从ZestFinance的现实操作来看,其服务的无信用记录人群也在向其贡献经济行为数据,而限制其扩张的痛点,可能也是受制于其对无信用记录人群经济行为信息的获取。

由此可见,笔者认为泛互联网社交数据对是有益出的,但是以目前的技术水平来说是值得探索的市场,但是还不能单纯依靠这一数据形成有效的评价模型。而对于大量的非结构化数据,套用雷军的关于大数据的观点“现在我扛得住,明年我也扛得住,后年我也扛得住,大后年要没价值的话,那我就破产。”

征信模型评分的根本是方法论和优质的数据源,而互联网大量的数据是杂乱无章的,甚至残缺的;虽然缺失值是有价值的,但是目前难以有高效利用这些数据的方法论利用这些数据产生可靠的评判,目前为止,单纯使用非经济行为数据的建立评分模型并且KS值(见KS值说明)超过40的屈指可数,所以笔者和大家期待相关技术和方法论得以完善。

其实,从显示结果而言,无论是传统的回归模型还是兴起的机器学习模型,其根本目的是反映借款对象违约风险的大小,而信用风险是信贷市场经营的基础,所以无论评分的高低,如果借贷企业能够控制风险,则其依然可以将资金出借给借款对象,这一现象,相信大家在银行办理借贷业务时,已经屡见不鲜了。而且,在经济环境好的时候,金融逐利性会体现的更加明显,次贷危机的根源(本文就不展开了)。

本文表达了笔者一些粗浅的见识,希望在大数据征信热潮中,能够保持相对冷静和客观的看法,不随波逐流,淹没在资本的浪潮中。

KS值说明
KS:全称Kolmogorov–Smirnov,是检验单一样本是不是服从某一预先假设的特定分布的方法;常用来衡量模型辨别能力,数值在0到100之间,数值越大,模型越可靠。