小张笔记

机器学习模型在商业银行防控电信网络诈骗中的应用与实践

本文着重介绍客户被骗风险模型的建模方案。

作者：招商银行财富平台部陈俊清

当前，电信网络诈骗风险已成为商业银行欺诈风险的主要形式，具有诈骗手法多变、隐蔽性强、对抗性强、危害性大等特点。本文介绍一种基于识别客户本人真实意图而构建的机器学习模型方法，能够评估客户被骗概率、辨别诈骗手法、识别欺诈交易，有效识别诈骗风险，从而采取合理的风险管控措施。在防控转账汇款过程的欺诈风险业务实践中，证明该方法可有效提升防控效果。

随着商业银行数字化水平的提升和金融科技的快速发展，商业银行凭借大数据、人工智能、区块链、5G 等新技术，全面提升银行业务的科技赋能，为客户提供便捷、高效、丰富的金融服务。与此同时，商业银行面临的欺诈风险也呈现出专业化、集团化、产业化、高科技等新特点，从非法获取客户核心信息并盗取资金的方式，逐步演变为通过电话、互联网、短信等方式，编造虚假信息，设置骗局，对受害者实施远程、“非接触式” 诈骗，即诱导受害者转账汇款的电信网络诈骗，严重威胁客户的资金安全，甚至阻碍商业银行线上业务的拓展。

据不完全统计，2020 年我国涉及电信网络诈骗的资金已超过 1 千亿元，接到诈骗电话、短信、网络信息的客户更是不计其数。商业银行作为我国主要金融机构，有责任参与防控电信网络诈骗风险，保护客户资金安全，从而提升银行履行社会责任的能力，防范银行声誉风险。

一、商业银行防控电信网络诈骗****面临的挑战

1. 面临的挑战

当前的反欺诈体系是建立在识别客户身份真实性的基础之上，以业务专家设计的反欺诈规则与模型为核心，对于非本人操作交易加强风险管控。而电信网络诈骗通常以冒充他人及仿冒、伪造各种合法 “外衣” 的方式，诱导客户本人转账汇款，使得商业银行难于直接运用传统的专家规则来有效防范电信网络诈骗风险，例如，加强人脸验证方式无法阻止客户因被骗转账。因此，商业银行在防控电信网络诈骗风险中面临巨大挑战。

一是专家规则是针对欺诈案件进行经验总结和归纳而形成的，而非基于诈骗行为与习惯行为之间的全方位差异性比较，往往只关注到个别而非全面的差异化特征，误判率较高，干扰了客户正常金融业务操作；二是诈骗手法多样化、变化快、对抗性强，从而要求频繁、快速地调整优化专家规则，导致反诈人力资源紧张、防控时效滞后；三是防控诈骗风险必须建立在识别客户本人真实意图的基础之上，阻断诈骗过程，劝醒受害者本人，而针对传统的欺诈风险形态设计的模型，主要是基于识别客户身份真实性而判断欺诈行为，如果这类模型直接用于识别诈骗行为，其实践效果不佳。

2. 商业银行进入基于大数据、人工智能技术的风险管控时代

随着移动互联网、大数据、人工智能等新技术的发展，商业银行逐步转型进入数字化金融时代，积累了丰富的金融数据资产，包含行内的客户、账户、业务、营销、风险等核心数据，行外的政府部门、监管机构、金融市场等关键数据，并建立了金融大数据管理和分析平台，为构建基于人工智能技术的风险管控奠定坚实基础。人工智能技术的核心部分就是机器学习，从学术角度看，机器学习是一门多领域交叉学科，涉及概率论、统计学、计算机科学等多门学科；从应用角度看，机器学习通过输入海量数据对模型进行训练，可使模型学习到数据中所蕴含的潜在规律，进而对新输入的数据进行准确分类或预测。

本文将机器学习引入防控电信网络诈骗风险业务中，其应用架构如图 1 所示，利用机器学习技术以海量的行内外数据对模型进行训练，采取有监督、无监督或半监督学习方式，获得客户被骗风险、诈骗类型分类、交易反欺诈等模型。机器学习模型能够从全方位、多维度比较诈骗行为与习惯行为之间的差异性，从而降低误判率；同时通过合适的机器学习算法，获得识别诈骗规律的一般性知识，有效应对诈骗手法多样化、变化快、对抗性强的特点，减少人工干预频次和提升防控时效。最为关键的是，客户被骗风险模型预测银行客户的被骗风险概率，再匹配诈骗类型分类模型所识别出的诈骗手段，以及交易反欺诈模型所判定的欺诈交易，从而准确、精细化识别出诈骗风险，使得银行能够有效劝醒受害客户，避免客户资金损失。

图 1 机器学习模型应用架构

二、基于机器学习的建模方案

机器学习的建模方案与业务实现目标密切相关，不同业务目标涉及不同业务数据和机器学习算法。本文着重介绍客户被骗风险模型的建模方案，该模型以预测客户的被骗风险概率为目标，采取有监督学习方式，选择四种机器学习算法 (逻辑回归、随机森林、XGBoost、GBDT) 对模型进行训练，其建模架构如图 2 所示。模型的主要建模流程为准备样本数据、构建特征变量、选择模型算法、评估模型结果。

图 2 客户被骗风险模型建模架构

1. 准备样本数据

从业务数据中抽取或构建出以客户为维度的相关数据，用于描述客户信息，作为模型输入的样本数据。一般来讲，样本数据分为正样本数据和负样本数据，正样本数据是指被骗转账的客户信息，负样本数据是指正常转账的客户信息。在实践中，被骗客户毕竟是少数，因此两者之间数据量比例悬殊，一般在千分级至万分级之间，其中，正样本数据的收集与确认工作对于有监督学习方式极其重要，直接决定了建模的可行性。本文抽取了 12 个月的样本数据用于训练模型，并将这些数据分为训练数据与验证数据，两者数据量比例为 7:3；为更好地评估模型预测能力，再抽取后续 1 个月样本数据作为测试数据进行评估。

2. 构建特征变量

构建特征变量是一个反复、迭代的过程，以期找出能够反映诈骗行为与习惯行为之间差异最大化的特征变量集合。本文采取了特征工程技术与业务经验相结合的方式，探索特征变量的可解释性与性能效果的统一。特征工程采取基于最近一次消费 (Recency，R)、消费频率(Frequency，F)、消费金额(Monetary，M) 的 RFM 分析技术和图关联技术，构建出上万维度的特征变量用于刻画客户的登录、支付、转账等消费习惯行为，再计算每个特征变量的信息值 (Information Value，IV)，选取 IV 较高(一般来讲，特征变量 IV 越高，说明其性能越好) 的入选特征变量候选集。同时，参照业务实践经验，选择可解释性较优的特征变量，加入特征变量候选集。

3. 选择模型算法

本文选择逻辑回归、随机森林、XGBoost、GBDT 四种常用模型算法。模型算法的性能指标主要有两个 (见表 1)：ROC 曲线下方的面积(Area Under Curve，AUC) 和柯尔莫可洛夫 - 斯米洛夫(Kolmogorov-Smirnov，KS)。其中，AUC 是衡量模型学习分类优劣的指标，其数值越高，表明模型分类效果越好；KS 是衡量模型区分能力的指标，其数值越大，表明模型区分能力越强。从表 1 中可看出 XGBoost 算法的性能指标最好，模型最终选择该算法。

4. 评估模型结果

用测试数据模拟实际生产上的业务数据，来评估模型的业务效果。评价业务效果指标与具体应用场景密切相关，本文涉及 3 个指标：客户打扰率、召回率和精准率。客户打扰率是指干预客户数占总客户数的比例，召回率是指模型识别出真实被骗的客户数占所有真实被骗客户数的比例，精准率是指模型识别出真实被骗客户数占模型判断为被骗客户数的比例。从上述的指标定义可看出，召回率与精准率越高，客户干扰率越低，模型识别的业务效果越好。然而，在实践应用中，这三个指标之间存在相互制衡关系，例如，召回率提高精准率可能会降低，客户打扰率也会提高。在防控电信网络诈骗业务场景中，考虑到要尽量降低客户打扰率，以及召回率要达到 70% 以上的条件，可选取 “被骗风险概率≥0.1” 作为权衡点(见表 2)。

三、基于机器学习的应用方案

机器学习的应用方案是根据业务场景需求而制定的，在防控电信网络诈骗风险中，最具挑战性的场景需求是：在客户被骗转账汇款的过程中，拦截被骗汇款，并且唤醒客户。针对该需求，可采取多种机器学习模型的组合应用方案，如先从客户层面上，通过客户被骗风险模型从银行客户中识别出易被骗客户，再运用诈骗类型分类模型，辨别出客户转账汇款的真实意图，并划分为不同诈骗类型的客户群，其流程如图 3 所示；再从交易层面上，通过交易反欺诈模型识别出欺诈交易，并根据不同诈骗手法，采取不同的管控措施。

图 3 识别不同诈骗类型客户流程

例如，客户在转账汇款过程中，若机器学习模型识别出该客户被骗概率高，诈骗手法属于冒充公检法诈骗类型，并且判断该笔交易为欺诈交易，那么立即阻断客户汇款交易，但是此时客户还处于被不法分子操控状态，还是会继续汇款。因此，可采用 “电话唤醒客户” 的方式，使得客户本人意识到是不法分子假冒公检法实施诈骗行为，彻底醒悟，停止汇款，从而达到良好的诈骗防控效果(不同的管控措施及相应的防控效果见表 3)。

在应用实践中，评价防控效果还可采用量化指标，例如拦截失败率指标。拦截失败率是指在识别出的被骗客户中没能唤醒客户数占总被骗客户数的比例，拦截失败率越低说明防控效果越好。在机器学习模型应用之前，每个月拦截失败率平均为 12.18%，而模型应用之后，拦截失败率下降为 3.13%，防控效果得到有效提升。

随着互联网技术的发展，电信网络诈骗手段还会不断演化，其迷惑性、隐蔽性的特点仍会使得很多客户上当受骗，严重威胁客户资金安全。商业银行是电信网络诈骗风险防范的重要参与者，在数字化转型过程中积累了丰富的金融数据资产，可凭借金融大数据平台，引入更多机器学习算法，迭代优化机器学习模型，不断提升防控效果，保护客户资金安全。此外，商业银行应加强与公安部门、互联网企业、电信企业之间的风险信息共享，实现联防联控，共同构建全链路的风险防控体系。

本文刊于《中国金融电脑》2021 年第 11 期

声明：本文来自中国金融电脑，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 [email protected]。

全文完

本文由简悦 SimpRead (opens new window) 优化，用以提升阅读体验

使用了全新的简悦词法分析引擎 beta，点击查看 (opens new window)详细说明