来源:亿信华辰2020-07-28 11:30:00 热度:

浅析数据挖掘在金融行业中的应用

AI中国网 https://www.cnaiplus.com

原标题:浅析数据挖掘在金融行业中的应用

什么是数据挖掘?现在比较通用的定义是数据库中的知识发现, 数据库中数据量是非常大的, 要想从中提取有用的信息, 就要用到各种技术手段, 涉及到的学科领域包括: 统计、机器学习、人工智能、数据可视化等。

我国金融行业是较早使用数据库技术的行业,所以也积累了大量的数据,数据挖掘在金融行业有了很多成功的案例。

暗流涌动:金融业务场景下的问题

技术是用来解决问题的,首先,我们要找到金融行业有哪些业务问题是亟待解决的!以银行来说,主要就是要做好两件事,吸储和放贷。吸储显然就是各种金融产品的销售,需要准确把握客户,让客户把资金留在银行; 放贷则包括了信用卡业务和各种额度的贷款, 需要仔细把握风险, 避免坏账。

在信息技术还没有如今这么发达的时候,银行大多数还是靠的客户经理自身的经验,谨慎但繁琐的人工审批,这个环节的成本是很高的,而且人是很有可能犯错误的。为了解决这个问题数据挖掘被推到了业务前沿:一方面是可以自动化,用程序自动判断客户类型,自动评估贷款风险,从而降低成本;另一个方面是更加客观,避免人的失误, 排除主观因素的影响。

实操展现:数据挖掘如何解决问题

以信用卡的业务问题为例, 我们来看下数据挖掘方法是怎么构建信用评估模型的。

首先,确定研究对象,这里我们分析的对象是信用卡/贷款申请人, 确定了申请人这个对象, 我们就能确定收集哪些数据。

第二,整理数据, 例如以下几个方面,基本属性:年龄、性别、学历、职业、婚姻等;财务特征:月总收入、月还款占总收入比例等。另外还需要客观体现申请人信用表现的特征,信用评估实际就是在预测申请人违约的可能性,实际的违约行为就是要整理的数据,例如逾期还款次数,最长逾期时间等。

第三, 数据预处理。在模型训练之前,需要对数据进行处理,例如空值填充、异常值过滤、类型转换、降维等。有的是数据质量问题,有的是算法的要求。

第四,模型训练。这里我们使用的是有监督学习算法,像神经网络、支持向量机、逻辑回归等。这些算法实际是在计算申请人的这些特征(自变量)和是否违约(因变量)直接具体的定量的相关性。这样就能通过这些因变量预测申请人违约的可能性。

第五、模型评估。模型在使用之前肯定是要进行评估的。现在有很多的评估指标,例如正确率、准确率、召回率、ROC曲线等。根据模型的侧重点,选择合适的评估指标,得到最优模型。

最后,模型部署。模型是一个有预测的能力的程序,这个程序怎么运行,要看实际场景需求了,像银行的预测并发性很高,而且要实时响应,所以很多都是将模型转换成了评分卡,将模型的预测转换成了数据库查询。现在实时流技术的发展,也能够将模型部署到实时流中,实现模型的实时预测。这样业务人员就能快速判断申请人的信用情况。

结束语

技术是在不断发展的,只要能够获取知识,数据挖掘并没有局限于具体使用哪些技术方法。但是数据积累是需要时间的,在实际进行数据挖掘之前,我们更加深入的理解业务,明确收集哪些特征数据,并且做好数据规范,避免要用数据时才发现是脏数据,良好的数据质量也是数据挖掘成功的保障。亿信华辰旗下的数据挖掘平台:豌豆DM,深入洞察企业数据规律,充分挖掘数据潜在价值。我们相信数据挖掘技术会在金融行业找到更多的应用场景,持续发挥作用。

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容