福州创投分享组

信而富CEO王征宇:大数据在P2P中的应用

只看楼主 收藏 回复
  • - -
楼主

点击上面“陆家嘴杂志”关注金融人交流分享平台

精品推荐关注:陆家嘴读书会(微信号:lujiazuidushuhui)



《陆家嘴》杂志10月刊


信而富CEO王征宇


文/王征宇

本文刊登于《陆家嘴》10月刊


作为互联网金融当中最热门最活跃的领域,P2P现在发展速度非常快。P2P模式最早诞生于英美,它的发展主要依据两个重大条件,一是互联网技术使得交易效率提高,这个中国有;二是征信数据的广泛适用及覆盖,这个中国没有。正是由于这两条,中国P2P行业内对于征信问题及大数据挖掘的探讨热闹非凡。


在中国,由于征信体系不健全且不向P2P机构开放,这使得征信成本高昂。业界现在热议大数据,电子商务也好、互联网金融也好,无疑都视之为一座商机无限的金矿。


那么什么是大数据?对于P2P机构来说,大数据能够帮助解决哪些问题?


我的观点是,对于开展信贷业务的机构来讲,央行征信系统收录的个人信贷相关的数据,在判断一个人信用状况时有非常大的价值,能够获知借款客户的“还款意愿、还款能力、还款的稳定性”。而社交网络数据、电商交易等数据只能作为补充,辅助P2P机构的风控人员判定“客户是谁,即他是不是他所声称的那个人、他的工作生活是不是他声称的环境”,以此用来防止身份欺诈。


但是采用这些数据(社交网络数据、电商交易等数据)还不能直接预测和推断出他将来及时还款的可能性。要利用其进行信贷风险评估工作,还有很长的路要走。


数据多不一定是大数据


讨论大数据的第一个逻辑是,什么是大数据?简单来说,大数据指的应该是数据很多,但为什么不叫“多数据”而叫做“大数据”?因为这个名称来自英文翻译“Big Data”。


很多的数据是不是就是大数据的基础?全世界最大的银行是工商银行,全世界最大的移动运营商是中国移动,工商银行和中国移动积累的客户数和数据量在全世界无可比拟,它们自然有很多数据,但他们是不是大数据呢?


现在手机是联网的,但通过中国移动查询异地手机用户的费率是查不到的,他们互相之间是隔开的,无从知道这个客户的生活方式,如果它有这种技术手段的话,做出微信的就应该是中国移动而不是腾讯。


从根本上来说,简单地使很多数据堆积在一起不叫大数据。大数据主要表示一种技术手段,来使得数据的存取、分析可以非常高效进行。首先需要技术框架,其次是分析手段。


技术框架是指,这样的技术方式只能在现代环境下产生,比如说云计算、云存储等算法在以前是不可能实现的。分析手段是指,以前要么就是不具备分析工具,有数据却算不出来,要么就是分析占的时间太长,没有实施的可能性,要么就是算法没有实质解决问题的空间,这些随着现代计算机技术的发展,网络技术的发展都解决了。


除了技术框架和分析手段,更重要的是一种大数据理念。举个例子,如果我想获得一个房间内每个人的身份证号码,不同想法的人解决这个问题的思路是什么样的?


想象一下在传统银行工作的人过来会怎么解决这个问题?他们会堵在门口说,把身份证给我看一下,确认看了你的身份证号码以后记下来核对你的照片,这么做费时费力还没有准确性。


大数据的做法是怎样呢?我们会给每个人发一个电脑,让你输入你的身份证号码。想象一下,一个人从接到电脑以后5秒钟就开始输入数据,在10秒钟之内18位数字输完递交,后台检查正确。另外一个人,他从20秒钟以后开始输入数据,输入两个数字以后输到第三位把前面两个数字删掉,再接下来输几位,输掉第十位的时候把前面十位再删掉,再开始输入,输入到第18位,琢磨了半天,一分钟后才递交。运用大数据的方法,后台会记录你每一个按键的速度、时间、属性,我在后台制定一套计算方法,把这个过程描述出来。从而就可以判断哪个人身份证号码可能是真的,哪个人的身份证号码可能是假的。


这个例子说明了,大数据是一种技术手段,不是简单的数据堆积,并不是公司越大就自然而然有大数据了,也并不是说公司小就没有大数据。


大数据的局限性


大数据问题的由来比较技术化,它是从概率论开始发展,然后延伸到数理统计、人工智能、数据仓库、数据集市。大数据现在最前沿的几个技术包括,机器学习、类型识别、神经网络。


大数据在信贷风险管理中的作用是回答两方面的事情。


首先,大数据解决现状分析,即发生了什么。这个客户的生活方式、喜好,比如说移动电话上装了可定位的设备。移动公司可以根据定位信息知道,恰好有一批人在同一个时间点出现在一起了。它会聚类这一批人的信息,搜索你平时发表什么言论,写了什么样的微信,据此判定你的职业,你的任务是什么,这也就是发生了什么。


第二,大数据解决会发生什么的问题。从信贷关系角度上看,知道你今天下午要干什么几乎没有意义。信贷分析、风险管理所关心的问题是,给你一笔钱有多大的概率会不会还,如果给你1万块钱会怎么样,如果给你10万块会怎么样。有些人给他一个小额度的钱他会还,但给加大额度的就不一定了。这个大和小的区别每个人的理解是不一样的,这是大数据所需要分析的。


基于当今的互动网络数据,个人资料其实很难被掩饰,这恰恰是说很多互联网公司或者大数据的机构试图说用“知道你是谁”来做从事商业模式的主要考虑。


在“你是谁、你是做什么”这些问题得到答案之后,这时候能不能做一个信贷决策呢?这要画一个巨大的问号!答案是不一定的。


大数据在这个领域当中回答的问题跟征信局可以回答的问题是不同的。传统的征信局可以回答的是三个问题——你的还款意愿、还款能力和稳定性,这是信贷授信过程中最重要的三个问题,可是大数据回答不了。


交易数据和社交网络数据不能直接转换为信贷决策,这个在历史上有很多著名的案例可以证明。美国运通曾试图通过交易数据发行信用卡业务,基于这种方式提供信贷产品,这造成了巨大的失败。美国著名P2P公司Lending Club,利用Facebook的社交网络数据来确定客户的信用度,在遭受巨大的损失之后改用了征信局的数据,导致了后来业务发生巨大的变化,坏账率下降很多。


所以大数据有用,但是跟征信数据不一样,它们回答的问题是不同的。在国际上,美国和英国的征信体系相对比较完善,互联网金融机构可以向征信局购买数据发起客户营销。但在中国大陆,征信局的覆盖是比较局限的。中国人民银行征信数据覆盖8亿人,但是只有2.9亿人有信贷记录。由于目前征信体系尚不健全,且不对P2P机构开放报送和查询数据,行业首要的是解决征信覆盖的问题。


“Test And Learn”


显然,大数据在互联网金融领域已经成为热词,但是如何利用对于开采者来说,却是“八仙过海、各显神通”。在信而富看来,“Test And Learn”,才是大数据应用于P2P风险管理的核心方法。


“Test And Learn”,意思为“测试与获知”,对信而富来说,意味着在放款实践中收集数据,通过建立风险模型和目标变量,研究客户数据与信用行为之间的关系,从而调整授信策略。


目前信而富借款人大概几十万。我们在客户数据分析当中对每个借款个体采集的数据项超过1500个,并须在“细枝末节”中寻找线索。比如,关注申请人的邮政编码最近12个月是否变更,关联的信用卡张数是否变化,最近3个月、6个月的信用卡消费总额、交易类别与交易次数是否出现异常等。这些变量构成了信而富CDS(自动化授信决策系统)的重要依据。


总体来说,我们在自动化授信决策中主要依据几个纬度,根据不同的借款类型、不同的地区,借款金额、借款用途等等,这个纬度结构具体组成了一个网状型的决策机制。


第一个纬度是预测你还款的可能性。


第二个纬度是,你这个申请从根本上来说有多大可能是假的。也许你的数据很好,看上去很漂亮,但是借款人的名字填的不是你。也就是说你有多大可能性在你的申请过程中采用了假的数据。说轻一点叫数据不真实,更严格来说叫“欺诈”。


第三个纬度是,假定借款人借给你钱了以后,你所产生的风险调整后的收益是多少,你可以为整个交易贡献多少,你可以为借给你钱的人提供多少收入。


但是数据的纷繁复杂会让开采者遭遇困境。在信而富设置的上千个数据纬度中,实际有用的数据可能只有100个。不同数据纬度间的逻辑关系,也很有可能产生冲突。不断地测试并且获取正确的数据维度和信息,构成了信而富的大数据应用的核心机密。


举个例子,在常识看来,手机用户的开户时间越长,手机号码从不改变且经常使用,是稳定性的标志。


但这其中仍有许多不确定的因素。手机号用多少年算长?是两年还是三年,或是十年?那么信而富须针对使用一年、两年、三年、五年号码乃至更多的手机用户分别作一些测试,通过这些用户的借款行为不断进行总结。假设公司发现使用手机号少于三年零两个月的用户借款风险较高,过了这个点后风险率显著下降,那么“三年零两个月”这个数字就是信而富的授信标准,也是公司的核心机密。(作者为信而富公司CEO)


金融人必备微信

陆家嘴杂志微信号:lujiazuicbn


陆家嘴金融城微信号:lujiazuijrc


陆家嘴读书会微信号:lujiazuidushuhui



金融机构人士投稿《陆家嘴》杂志,

请发邮件至luoshujin@yicai.com




——————

《陆家嘴》,第一财经旗下金融人和投资人交流共享平台。

《陆家嘴》订阅优惠信息:

全年订阅享8折,12本精美杂志只要288元

邮发代号4-860

蜘蛛网订阅中心 :http://t.cn/z8syVvc

第一财经订阅中心http://t.cn/Shxg49




举报 | 1楼 回复

友情链接