小微企业贷款困局待破解 金融大数据成风控杀手锏

未央网 作者: 李晓东

前言:互联网金融之小微企业贷

我国目前正处于一个产业结构调整的阶段,经济的下行已经是不争的事实。如何在下行的经济环境下,控制好金融风险,对于金融机构是一个首先要解决的问题。

传统的以银行为代表的金融机构,企业信用贷款过于依赖政府授信和国有企业,这种粗犷型的信用风险管理在经济结构调整过程中的缺陷凸显。一方面粗颗粒度的风控体系无法防范住新形势下的风险;另一方面,现有的风控模型无法从众多的贷款申请企业中筛选出优质客户,实现普惠金融。

究其根本,贷款的主体变了,需要金融机构的风控体系也随之改变。产业结构的调整,传统行业的转型,势必会造成一批旧的行业衰败,而一批新的行业兴起;而传统行业的转型,意味着原有轨迹的停滞;一个新行业的兴起,一批企业的成长,是需要时间的。在相当长的一段时间里,中小微企业,可能是整个经济的主体,这也是这一阶段的特质。不解决好这一问题,以银行为代表的金融机构,可能就无法完成在新的经济形势下自身的转型。

有鉴于此,我联合了在信用贷款链条上各个环节的一线专家,共同推出本专题,希望能为小微、微小企业的普惠金融做出一点贡献。

本专题是按照数据篇,反欺诈和征信篇,信贷模型篇三个环节来展开的。这也是我们实际业务流程里最主要的三个步骤,最后再以一个实际的例子作为结尾。

这篇专题虽然不长,但每一篇都经过了我跟各位专家的认真思考和讨论,耗时一月有余。还得到了很多业界专家的鼎力支持,在此特别感谢中智诚CEO李萱先生,数联铭品BBD CEO曾途先生,在整个专题的编写过程中给予了大力的支持,在此表示衷心的感谢。

小微企业

关于何为小微企业,全球范围内并没有统一的定义。已有的划分标准通常是从雇员人数、资产总额、年营业额等几个指标进行限定。工信部、国家统计局、发改委、财政部等四部委2011年曾出台具体的划分标准,是目前我国的国家标准。但一般的看法是该标准界定的微型企业的范围偏大。比较合理的划分标准为:雇员人数20人以下、资产总额500万以下、年营业额1000万以下为微型企业;雇员人数200人以下、资产总额5000万以下、年营业额1亿以下的可以定义为小企业。这并非一个严格的界定标准,但实际工作中对目标客户还是要掌握一个大概的范围。

破解小微企业贷困局:数据篇

一笔成功的贷款发放需要有多个环节的努力才能实施。数据,正是整个风控链条中最前端的一个环节。我们首先来看一下,如何在数据层面上解决好小微企业的问题。(这里需要说明的是,在数据交换市场远未成熟的今天,数据的获取确实需要一些独特的资源;目前的现状是八仙过海,各有各的高招。所以,如何获取数据,不属于本篇讨论的问题。)

小微企业的金融风控都需要哪些数据?是传统的结构化数据,还是时髦的大数据?如何正确对待二者之间的关系,又如何来应用这些数据,为小微企业画像?这是本篇要阐述的问题。

传统金融数据v.s互联网数据

一般来说,传统金融风控领域使用的数据多为结构化数据;而由于业务的重心不同,面向的对象不同,互联网金融所采用的数据除了结构化数据以外,还采纳了很多互联网的非结构化数据,这就是我们经常所称的“大数据”。

大数据较传统的结构化数据,具有体量大,种类杂,时效性好等特点。

从数据组织的角度来说,传统金融数据跟要预测的事件有着很强的因果关系,比如,信贷历史违约记录,它对预测企业是否再次违约具有比较强的关联性;相反,大数据更多地集中在刻画行为能力上,是描述行为的信息;至于这种情况,是否会直接导致企业违约,有多大影响力,还缺乏有力的实践依据。换句话说,企业的某种行为,还没有建立起跟企业违约的直接逻辑关系。

所以说,单纯的大数据在整个金融风控链条里所能发挥的作用还是有限的。这并不是否定大数据的手段,而是不要过分夸大其在这一环节中的作用。

客观地讲,在传统金融风控数据中引入互联网大数据,至少可以解决两方面的问题,一是数据维度不足的问题;二是数据的时效性问题。

一、数据维度不全

量化风险评估需要将涉及到此风险的所有相关数据都包含进来,通过模型进行信用风险评估,计算出还款意愿和还款能力。评估采用的基本数据因素有年龄、收入、学历、客户资历、行业、区域等,其占主要部分。信用因素包含如负债状况、缴款记录、理财方式;以及行为因素例如交易时间和频率等。

除了这些变量和因素,其实还有一些因素并没有被考虑到现有的风险评估模型中。例如贷款者的身体健康情况、生活规律、是否参与赌博、是否参与民间借贷等,同信贷违约高度相关的信息没有被考虑到信用风险评估当中。

特别是用户行为特征,几乎很少的信贷评估模型会考虑用户的行为。如果客户在借款前,频繁去澳门赌博、或参与民间高利贷、或有吸毒历史、或者飙车、或者经常半夜出入夜店等危险区域、或经常半夜使用App等。这些危险行为因素都会对其信用风险产生影响,但这些因素原来并没有被考虑到信用风险评估之中。

风险评估过程中,如果数据维度不全,高相关数据没有被考虑进来,对风控模型是一个大的风险。信用风险评估模型缺少了重要风险因素的输入,其评估结果的偏离度就会较大,评估结果失效的可能性就很大。

二、时效性

实时有效的数据对于风险评估结果影响也很大,数据是有时间价值的,滞后的数据会影响评估结果,不能反映实时风险变化情况。实时的数据录入和动态信用风险评估现在对银行是一个巨大的挑战,一个月进行一次的风险评估并不能实时反映信用风险变化情况,银行需要找到一个好的方法来建立动态风险视图,不仅仅是信用风险管理,其他的风险管理方法也要向实时数据录入和风险实时评价方向转变。

客户信贷信息分散和孤立,造成了外部风险来源的多样化,银行需要寻找一种方式来打破这种信息不对称,购买外部信贷数据可以解决这个问题,但信贷数据的覆盖率也是一个较大的挑战。

数据选择的原则

在数据的选择上面,一个是需要考虑数据的维度,另一个就是数据的数量。到底采用哪些维度的数据作为风控变量?到底选择多少数量的数据才能满足一个风控模型的准确性?

原有风控体系考察贷款对象主要有两个方面,还款能力和还款意愿。传统金融数据就不在这里详述了,主要说一下大数据的数据维度与数量。大数据所能补充的数据主要是行为数据和社交数据(对于小微企业而言,行为数据就是它的经营财务数据;而社交数据就是它的企业关联数据)。实践证明,这两部分数据对还款能力和还款意愿都有明显的效果。一般来说,行为数据对还款能力有一定的作用,在贷后的预警方面,已经被证明是行之有效的;而社交数据,对还款意愿有一定的帮助。

应该说,传统金融数据与互联网大数据打通,可以更好,更及时地反映企业或个人的情况,以达到更好金融风控的目的。

很多人有一个误区,既然是大数据,那么一定是多多益善。这个认识是错误的,多数数据并没有任何价值。互联网女皇Mary Meeker在2012年报告中曾经做了一个形象的比喻,大数据就是从一堆杂乱无章的稻草里去寻找一根针。多数数据都是产生不了任何价值的稻草;而大数据的魅力也在于此,它就是要从浩瀚的杂乱无章的数据里,寻找出有序的,有价值的东西来。

在同等数据价值的基础上,当然更全的维度,更大的数据量,才可能更好地刻画和还原出事物的真相。

除此之外,数据的代表性和稳定性也是很关键的问题。在实际模型设计过程中,一般都是先用一个种子数据库来完成模型的设计和实现。这个时候,种子数据的选择就至关重要。没有足够的代表性,就会使模型与实际目标偏离,很难修正,甚至直接导致模型的失败。

稳定性其实跟代表性是相通的。所谓稳定性就是某种情况或者某类数据在过程中会不断重现。如果只是偶尔产生的数据,不可重复,那么是不稳定的,也是不具代表性的。

代表性和稳定性是刻画数据质量的两个重要指标。

数据的组织与应用实例

谈到对企业的画像,数联铭品(BBD)无疑是这一领域的佼佼者,他们有着自己的一套基于大数据的最佳实践方案。

这套最佳实践方案归纳起来就是三要素,企业行为数据库、模块化的风险画像以及多种大数据算法。

一、企业行为数据库

企业行为数据库,顾名思义,就是企业的各种基本信息,包括:工商注册信息、市场行业信息、法人治理(公司结构,股权信息)、公司关联方、风险管理、媒体数据(其在传统及社交媒体上的信息)以及产权信息(专利,版权,商誉等)七个维度的信息。在此基础上,在授权情况下还可以拿到包括税务等在内的多维度数据。

二、模块化的企业风险画像

在企业行为数据库的基础上,就可以提供企业风险全息画像方案,全面刻画企业风险DNA。企业的风险描述并不依赖单一模型,而是可以多维度完成企业风险特征刻画,并解决上述传统风险分析体系的缺点,而且可自由选择定制风险画像模块。

模块化的风险画像降低了对财务报告的依赖性,尤其是对于中小企业群体,更多强调企业行为数据的捕捉与分析,利用大数据平台多源异构数据分析优势,充分利用非结构化数据,降低对结构化数据的依赖。

BBD的模块风险画像,有一个非常实用的功能,就是通过对企业基因图谱分析,使得企业错综复杂的关联关系一目了然。

通过BBD专有的关联方图谱深度识别目标企业与发生投资及管理行为关系的自然人(公司)的风险状况,完善企业风险DNA刻画。比如轻资产企业,很少有资产信息和抵押信息,通过BBD关联方图谱找到背后的投资方,投资方背书能力以及资产信息来作为企业资产信息的补充。该模块还包括关联企业紧密程度评价、关联企业资信状况及影响、管理层关联企业任职情况、关联方诉讼及失信情况等关联方信息对企业风险进行画像

这一功能,使同一企业主拥有多家企业或者多家企业之间的显隐性关联关系一目了然,从而避免相互之间的风险转移和传递。

在模块化风险画像中还有一个非常有用的功能,是BBD专有预警模块。

该预警模块体现模型的前瞻性和预见性,能够识别企业早期的风险迹象,避免由于风险暴露的滞后性带来更大损失。特别是业务快速增长的企业,一旦风险爆发,其想扭转局面,则需要较大的业务调整动作和较长的风险消化时间。因此,对该类型企业风险预警以捕捉前置信号为主要目标,以在显著风险暴露以前及时采用相应风险管理措施。BBD的企业全息画像根据大数据抓取的信息,既有通过财务关键指标的变化趋势,提前预判企业的风险趋势,比如主营业务收入变动情况、现金流变动情况等;也包括针对客户非财务信息的异常变动,比如工商信息异常(在特定时间段内提高公司注册资本额等)、股东变动(短期内频繁变动公司股东等)、重大人事变动、订单变动情况等来预警企业的风险动态

三、多种大数据算法

近几年来,企业信用风险度量的研究出现了结合模糊数学、粗糙集、支持向量机(SVM)、人工神经网络等学科新技术方法的度量信用风险潮流,出现了越来越多的新的方法。

目前,应用于信用风险度量的新技术方法的学科主要有数学、统计和人工智能等。数学方法有粗糙集、模糊综合评价法,统计方法有Logit模型、支持向量机,人工智能方法有人工神经网络、决策树等方法应用于信用风险度量的方法。

与传统的统计方法相比,人工神经网络具有以下特点:

1. 具有自我组织与学习的能力;

2. 可以描述输人资料中变量间的非线性关系;

3. 可以依据样本和环境的变化进行动态的调整;

由于企业各项财务指标与信用风险之间往往存在着非线性关系,因此人工神经网络比较适用于企业的风险评价。

传统的数学或统计方法都是建立在精确的观点假设基础之上,但是在自然科学、社会科学和工程技术等领域,存在着很多模糊或不确定性;人类的认知模式、思考方式、甚至推理逻辑也涉及许多非确定性。

因此利用传统的方法无法解决这样的不确定问题,而模糊数学是将数学的应用范围,从精确扩大到模糊现象的领域,提出了隶属函数理论,确定了某一事物在多大程度上属于所讲的概念,或者不属于所讲的概念,这样描述模糊性问题比精确数学更为合理。同样,企业风险刻画也属于模糊性问题,其风险状态如何,用精确数学“是”或“非”的概念很难做出判断,因此,应用模糊分析法对企业风险状况做出综合评价比较科学。

以上就是数联铭品的在企业大数据征信方面的最佳实践。

数据,之于小微企业贷是至关重要的,是整个信贷模型的第一个环节。选择什么样的数据,如何处理好传统金融数据和互联网大数据的关系,直接影响到最后信贷模型的结果。一个正确的起点,加上一个正确的方向,是取得成功的坚实基础。