加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

基于舆情大数据的企业风险预测

发布时间:2022-12-12 18:31:43 所属栏目:大数据 来源:网络
导读: 摘要:“大数据”和“风控” 是当前的热门话题。我们在之前的文章中讨论过以大数据为工具和手段的风控在互联网金融行业的应用,分析对象是个人客户。本期我们将结合近期笔者参与的某国内领

摘要:“大数据”和“风控” 是当前的热门话题。我们在之前的文章中讨论过以大数据为工具和手段的风控在互联网金融行业的应用,分析对象是个人客户。本期我们将结合近期笔者参与的某国内领先金融机构的项目经验,总结一下大数据风控针对企业风险方向的探索与发现。

一、主题舆情建模业务背景我们在使用机器学习对个人客户进行风险预测(包括各类授信类产品的申请、行为、催收评分)、构建客户画像时都有同一个前提假设,即历史会重演,可以通过提取目标的特征,基于历史数据预测未来。同样地,我们是否可以将这种思路也应用于企业的风险预测呢?今年4月发生了轰动世界的瑞幸咖啡造假事件,股价暴跌80%;10月发生了紫光、永煤等一批债券违约事件,给广大投资者造成了巨额的损失。古人说,冰冻三尺,非一日之寒。我们希望能在发生最终重大违约事件之前,根据该企业及其相关联实体的经营状况和其他负面舆情,计算出爆雷的概率。二、主题舆情建模业务调研业务调研:首先,我们对国内现有的舆情分析类产品做了详尽的业务调研并与该金融机构现有舆情产品进行对标。涉及的维度包括用户群体、监控对象、标签体系、热情热度以及交互设计。

网贷大数据风险_大数据风险_大数据金融的风险

同类产品的不足之处包括并不局限于:有限的目标用户群体和数据来源;针对舆情事件缺乏完备的标签体系;缺乏对舆情信息的深度挖掘与应用,展现和交互不够直观灵活等等。

我们为客户提供了产品提升方案,例如:增添金融市场数据和外部工商数据;优化舆情热度值计算公式;优化现有舆情标签体系;增添行业、地域、客群等多维度的组合分析;调整首页的信息与布局;简化归类现有导航栏等等。

以舆情热度值计算公式为例,项目组从数据源、开发技术、后期运维三个维度进行优化,效果提升对比如下:

大数据金融的风险_大数据风险_网贷大数据风险

三、主题舆情建模思路和方法

大数据金融的风险_网贷大数据风险_大数据风险

主题选择:在构建预测模型之前,首先要明确目标群体和目标变量。企业风险相关的目标变量有很多,例如“股票价格异常波动”,“主管部门处罚”,“评级下调”等等。在与该金融机构沟通过程中,我们认为如果目标变量处于风险早期阶段,噪声太多会导致预测效果不佳。如果处于风险的晚期阶段,则风险已完全暴露,对机构造成的损失已无可挽回。因此我们选择“发债主体“客群,“首次发生评级下调”事件,该类事件位于风险的中期阶段,预测其发生的概率有较大参考意义,可以为机构避免潜在的损失。

建模思路:机构提供的数据中包含“企业名称”、”舆情渠道”、“发生时间”、“舆情对应的标签“。结合传播学、新闻学、社交媒体方面的经验,我们考虑到不同渠道对舆情的传播差异,舆情出现后的热度传播增长规律以及衰减规律,设计出”舆情热度值“这一指标,作为模型的重要输入。接下来,针对机构监控范围内的三千余家发债主体,删除历史上曾经发生过“评级下调”事件的发债主体后,计算发债主体各类舆情事件的热度值及其衍生指标。利用人工智能算法建立预测模型,得出高风险的标签组合,并计算风险得分。最终识别出未来一个月内大概率首次发生“评级下调”事件的发债主体。可视化方面,在该机构的高管驾驶舱中,以行业、地域等组合维度进行展示。

建模方法:结合外部数据源,将历史上曾经发生过“评级下调”的发债主体定义为“坏客户”。选取第一次发生“评级下调”前,最近一次舆情事件的时间作为模型的观察时点。对应的,历史上未发生过“评级下调”的发债主体被定义为“好客户”,选取时间范围内最后一个舆情事件发生的时间作为模型的观察时点。

我们从两家数据提供商采购了企业的舆情数据,渠道包括微信公众号、微博、新闻、报刊等。用于建模的数据跨度接近半年时间(2019年10月至2020年3月)。

特征工程阶段,我们以“热度值“为基础,从时间切割、波动性等维度,衍生出”近90天热度值“、”平均热度值“、”最大热度值“、”热度值变化率“、”热度值波动率“六大类近2500个特征变量。利用IV值、随机森林特征重要性、卡方检验、相关性系数、方差膨胀系数等方法筛选有效变量,最终搭建业务指导性、可解释性更强的逻辑回归模型。建模完成后,综合考虑机器学习的模型结果和标签的业务含义,创新性开发“规则+机器学习模型”的策略体系,增强整体模型效果,加强可解释性及业务理解力。四、主题舆情建模的业务效果和价值

样本内测试集表现:基于测试集中的1200余家发债主体,对照新闻,保留近6个月内未发生过“发生下调”的企业,按预测概率排名后统计结果:

大数据风险_大数据金融的风险_网贷大数据风险

超过4000家发债主体样本,开发模型KS超过40%,验证样本KS\ROC等关键模型指标同样稳定,在样本外验证上(OOT),提前一个月识别出近50%的首次评级下调发债主体,模型结果显著。效果提升:若想达到更优的预测效果,可以从以下几个方面进行改进:1.增加更多舆情数据源,包括国外数据源;同时,拓宽数据的类型,除了舆情数据外,加入金融机构内部数据,多维度地刻画建模对象。2.对数据的处理深入到底层的自然语言处理阶段,进行深度的情感分析,使打标的流程可监控,提升标签准确率;3.准备更大的数据量进行模型训练,减少模型的过拟合现象。

本次项目客户从集团风险管理部的层面,通过舆情数据,构建关键风险指标库,为风险的量化预警管理建立基础,在全国范围内应属首次尝试。从该项目上我们发现了机器学习算法在金融机构的面向企业的风控领域有很大的应用空间和业务价值,未来我们将继续探索大数据风险,如何对潜在风险做到“先知先觉”,使机构风险管理人员可以结合自身战略和风险偏好做出有数据支撑的“先行“决策。

团队介绍:我们是毕马威旗下的专业数据挖掘团队,微信公众号(kpmgbigdata)。我们的作品都由项目经验丰富的博士或资深顾问精心准备,分享结合实际业务的理论应用和心得体会。欢迎大家关注我们的微信公众号,关注原创数据挖掘精品文章;您也可以在公众号中直接发送想说的话,与我们联系交流。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!