增强银行安全:用于欺诈检测的机器学习

已发表: 2023-11-14

每一个机会都伴随着威胁。 银行业向数字化的转变改善了客户体验,并将客户群扩大到以前没有银行账户的人群。 缺点是在线交易和数字支付解决方案为欺诈者提供了新的利用途径。

毕马威欺诈调查的结果表明,网络攻击的频率和严重程度正在增加,造成了数十亿美元的损失。

上图显示了 2022 年美国不同支付方式的欺诈损失价值。银行转账和支付最高,损失达 15.9 亿美元。

这些损失迫使银行机构采用新的解决方案来检测、减轻和防止金融欺诈。 其中一种方法是人工智能(AI),特别是机器学习。

在本文中,我们将讨论您需要了解的有关用于欺诈检测的机器学习的所有信息,包括好处和实际应用。

欺诈检测的演变

传统的欺诈检测遵循基于规则的方法。 顾名思义,它在一组规则或条件下运行,以确定交易是真实的还是欺诈的。 常见条件包括位置(购买是否在用户惯常区域之外?)和频率(用户通常购买的数量和类型吗?)。

交易只有在满足条件时才会进行。 例如,俄亥俄州的一位客户突然在新西兰的 POS 上被扣费。 该位置位于用户的区号之外,因此系统会将交易标记为欺诈。

这种类型的欺诈检测系统有几个缺点。

  1. 它会产生大量误报。 您可以在此处阻止真正客户的付款。
  2. 它不灵活。 基于规则的方法使用固定的结果,因此很难适应数字银行的趋势。 您必须更改规则以发现新形式的欺诈行为。
  3. 它无法扩展。 当数据增加时,防止数据增加所需的努力也会增加。 对系统的任何更改都是手动完成的,这使得成本昂贵且耗时。

基于规则的欺诈检测有效。 然而,它的缺点使其不适合现代数字环境。 它无法识别模式并依赖于人为干预。

此外,黑客不遵守朝九晚五的时间表,可以部署位置欺骗和客户行为模仿等复杂的方法来欺骗欺诈检测系统。 因此,您需要一个同样高度开发、24/7 运行的系统。

输入机器学习。

机器学习是一种人工智能 (AI) ,它使用数据来训练欺诈检测算法,以发现数据模式和关系、获得洞察力并做出预测。

即使您不知道,您也已经熟悉机器学习。 例如,每当您浏览 Instagram 帖子时,您都会向算法提供有关您喜欢的内容类型的信息。 然后它会在应用程序中搜索类似内容以添加到您的提要中。

机器学习将如何改变欺诈检测

使用机器学习进行银行欺诈检测已经正在改变整个行业,可以更快、更灵活、更准确地识别和响应欺诈。

人工智能系统分析客户数据中的模式,并根据历史和新出现的威胁自动更改规则。

还记得我们之前提到的新西兰POS收费吗? 使用机器学习的欺诈检测会认为同一张银行卡购买了飞往该地点的航班。 因此,新的借记很可能是合法的。

有两种模型用于训练算法来检测欺诈:监督机器学习和无监督机器学习。

监督机器学习

监督学习模型向算法提供大量标记为欺诈或非欺诈的数据。 该算法研究这些示例并了解哪些模式和关系可以区分合法交易和欺诈交易。

这种学习模型非常耗时,因为它需要手动标记数据。 此外,您的数据集必须正确标记且组织良好。 错误标记的交易将影响算法的准确性。

此外,它仅从训练集中包含的输入中学习。 因此,通过新推出的移动银行应用程序功能进行的不属于历史数据的交易不会被标记。 现在有一个漏洞可供欺诈者利用。

无监督机器学习

无监督学习模型使用最少的人工输入。 该算法从大量未标记的数据中学习模式和关系,根据相似性和差异对数据集进行分组。

目的是发现训练数据集中未包含的异常活动。 因此,无监督学习可以弥补监督学习的不足,并检测新的欺诈行为。

请记住,您不必在监督或无监督机器学习模型之间进行选择。 您可以一起使用它们(半监督学习模型)或独立使用它们。

使用 ML 进行欺诈检测的好处

我们已经暗示了在银行业中使用机器学习进行欺诈检测的好处,但让我们进一步讨论它们。

  • 速度

机器学习计算发生得很快,并实时给出欺诈决策。 虽然基于规则的算法也可以实时做出决定,但它们依赖书面规则来标记欺诈。

在没有预定义规则的新场景中会发生什么? 它会导致误报或误报。

机器学习自动检测新模式,分析常规客户活动并在几毫秒内计算适当的结果。

  • 准确性

基于规则的检测系统会阻止真实交易或允许欺诈交易,因为它们无法检测客户行为的细微差别。

机器学习系统考虑书面规则之外的变量,例如已知的欺诈行为。 这些变量有助于将交易置于情境中,降低误报率。

  • 灵活性

机器学习是灵活且反应性的。 自学习能力使该系统能够适应新场景并检测新威胁。 基于规则的系统是僵化的并且不具有学习能力。 因此,它只能根据预先定义的规则来应对欺诈活动。

  • 效率

机器学习算法每秒可以分析数千个交易数据。 机器学习可以处理重复或明确的欺诈行为,而不是花费劳动力和管理成本来调查低至中度的欺诈案件。 它使欺诈专家能够专注于需要人类洞察力的复杂模式。

  • 可扩展性

数据量的增加给基于规则的系统带来了压力。 新规则增加了系统的复杂性,使其难以维护。 任何错误或矛盾都可能导致整个模型无效。

机器学习系统则相反。 它们不仅吸收了大量的新数据,而且还进行了改进。

用于欺诈检测的机器学习技术

在我们研究人工智能欺诈检测中使用的不同算法之前,让我们先概述一下该系统的工作原理。

第一步是数据输入。 模型的准确性取决于数据的数量和质量。 添加的高质量数据越多,模型就越准确。

接下来,该模型分析数据并提取描述正常行为与欺诈行为的关键特征。 这些功能包括客户身份(电子邮件或电话号码)、位置(IP 或送货地址)、付款方式(持卡人姓名和来源国家/地区)等。

第三步是训练算法(使用更多数据)来区分真实交易和欺诈交易。 该模型接收训练数据集并预测各种情况下的欺诈概率。 一旦算法经过充分训练,您就可以启动它了。

现在,让我们看看您可以使用的各种算法。

1.逻辑回归

逻辑回归是一种监督学习算法。 它根据模型的参数计算二进制范围内的欺诈概率(欺诈或非欺诈)。

逻辑回归建模

位于图表正侧的交易很可能是欺诈性的,而位于图表负侧的交易最有可能是合法的。

2. 决策树

决策树是一种监督学习算法,但比逻辑回归算法更进一步。 它是一种分层决策结构,可以分层分析数据来确定交易是真实的还是欺诈的。

下面是信用卡欺诈检测决策树的图示。

用于欺诈检测的机器学习:决策树

判断交易是否欺诈的条件是交易金额。 如果交易的价值超过设定的阈值,算法就会认为它是欺诈的。 如果不是,树会检查另一个条件——交易时间。 如果时间不寻常(此处为凌晨 3 点),则很可能是欺诈行为。 如果没有,它会检查另一个条件。 它继续下去。

3. 随机森林

随机森林是许多决策树的组合,其中每个决策树检查不同的条件——身份、位置等。

用于欺诈检测的机器学习:随机森林

检查完所有参数后,每个子树都会提供一个决策。 总和决定交易是真实的还是欺诈的。

4. 神经网络

神经网络是复杂的、无监督的算法。 受人脑的启发,神经网络处理多层数据以提取高级特征。 该算法与深度学习齐头并进,可以识别图片、文本、音频和其他数据中的模式。

这是神经网络的简化版本。

神经网络:用于欺诈检测的机器学习

神经网络具有三层:输入层、隐藏层和输出层。 输入层处理数据,隐藏层分析来自输入层的数据以识别隐藏模式,输出层对数据进行分类。

深度神经网络有几个隐藏层。 它们非常适合识别非线性关系和检测前所未有的欺诈场景。

5.支持向量机

支持向量机 (SVM) 是一种监督学习算法,可以预测、分类和检测异常值。

支持向量机算法:用于欺诈检测的机器学习

此线性 SVM 插图显示了由称为超平面的直线分隔的两个数据集。 决策边界将数据分类为欺诈与非欺诈。

远离超平面的数据点很容易分类。 支持向量(最接近超平面)很难分类。 如果删除这些异常值,可能会影响超平面的位置。

6.K近邻

K近邻(KNN)是一种监督学习算法。 它的运作假设是相似的项目彼此靠近。

下面是一个简单的说明。

K 最近邻算法:用于欺诈检测的机器学习

新数据条目需要放置在类别 A 或 B 中。该算法使用称为欧几里得距离的数学方程计算数据点之间的距离。 新数据点属于邻居最多的组。 如果最接近的数据集被标记为“欺诈”,则该交易被归类为欺诈。

应对挑战和战略考虑

与所有技术一样,集成机器学习以进行欺诈检测也面临着不断增长的痛苦。 以下是您可能面临的一些常见挑战。

基础设施不足

许多银行系统无法分析大量复杂数据。 此外,大多数数据都是孤立的并存放在单独的存储设施中。

不幸的是,这个问题没有快速解决办法。 您必须投资适当的硬件和软件。

您需要与经验丰富的金融科技应用程序开发机构合作,并建立基础设施来自动为特定数据集选择适当的算法、导入原始数据并为机器学习做好准备、可视化数据、测试算法等。

数据质量和安全

对于希望实施机器学习进行欺诈检测的金融机构来说,数据质量是一个重要问题。 机器学习模型不区分好数据和坏数据。 因此,如果算法受到不相关或不完整的数据的污染,则模型的准确性将不正确。

Amazon Kinesis 等数据摄取解决方案可收集、清理和转换原始数据,使其适合机器学习模型。 清理和组织数据后,您必须隔离敏感数据和不敏感数据。 加密机密信息并将其存储在安全设施中。 您还应该限制对此数据的访问。

缺乏人才

尽管人们担心,机器学习并没有抢走工作。 事实恰恰相反。 我们仍然需要欺诈分析师来管理需要人类洞察力和经验的复杂案件。 此外,机器学习是一项新技术,该领域的专家还不够多。

这对于求职者来说是个好消息,但对于无法充分利用机器学习潜力的机构来说却不是。 您可以通过与具备实施机器学习技能的企业合作来克服这一障碍。

使用机器学习进行银行欺诈检测的案例研究

现在,让我们看一下使用机器学习进行银行欺诈检测的现实示例。

欺诈识别

丹斯克银行是一家丹麦跨国金融公司。 它是丹麦最大的银行,也是北欧领先的零售银行。 在基于规则的检测系统下,该银行努力减少欺诈行为。 它的欺诈检测率为 40%,误报率为 99.5%。

Danske 与数据软件公司 Teradata 合作,集成了深度学习软件,以帮助识别潜在的欺诈活动。 结果是误报率减少了 60%,真阳性率增加了 50%。

反洗钱

OakNorth 是英国的一家商业贷款银行,为规模化公司提供商业和个人金融服务。 该银行的筛选流程不完整,一个提供者负责反洗钱检查,另一个提供者负责客户。 此外,对政治公众人物(PEP)的筛查产生了大量误报。

该银行与欺诈和反洗钱检测公司 ComplyAdvantage 合作,集成了筛查和持续监控解决方案,以简化合规性并整合数据。 这促进了银行贷款和储蓄业务之间的快速数据传输。

信用承销

夏威夷美国信用社是夏威夷最大的信用社,也是《福布斯》杂志最好的信用社之一。 它希望与金融科技公司竞争,并在不增加风险的情况下扩大其个人贷款组合。

该信用合作社与 Zest AI 合作,使用人工智能驱动的个人贷款模型实现了决策流程自动化。 该模型使用 278 个变量来提供比 VantageScore 信用评分系统更深入的见解。 结果是批准率提高了 21%,违约/贷款申请欺诈率为 0%。

使用 ML 进行欺诈检测时的关键注意事项

虽然使用机器学习进行银行欺诈检测非常有效,但也令人望而生畏。 这些系统需要大量准确的数据,否则模型就无法发挥应有的作用。

因此,这里有一些优化机器学习过程的技巧。

1.限制输入变量的数量

在整篇文章中,我们一直在说“多即是多”。 关于数据量也是如此。 然而,对于欺诈检测变量的数量来说,少即是多。

调查欺诈时要考虑的典型特征包括:

  • IP地址
  • 电子邮件地址
  • 收件地址
  • 平均订单/交易额

较少特征的好处是较短的算法训练时间。 您还可以避免重叠或不相关数据集的问题。

2. 确保合规性

防止欺诈是数据安全的一部分。 另一个是数据隐私。 许多国家/地区都有关于机构如何收集、使用和存储客户数据的法律。 例如,中国的《个人信息保护法》(PIPL)、《加州消费者隐私法》(CCPA) 和欧盟的《通用数据保护条例》(GDPR) 等。

这些定律对机器学习中使用的数据有影响。 大多数数据隐私合规法规的主要原则是通知/同意。 您必须通知并获得许可才能将客户数据用于用户请求以外的目的,包括用于训练机器学习算法的数据。

确保遵守隐私标准的最简单方法是使用具有合规功能的技术合作伙伴。 例如,您应该与了解如何维护数据隐私和安全的银行应用程序开发公司合作。

3.设定合理的门槛

交易价值规则具有触发接受或拒绝响应的最低要求。 您需要一个平衡安全性和用户体验的阈值。 如果阈值太严格,您可能会面临阻止合法交易的风险。 如果门槛太宽松,欺诈成功率就会增加。

计算您的风险偏好以找到适当的平衡点。 每个金融机构或产品的风险水平有所不同。 例如,银行提供的小额贷款可以为低价值贷款设定很高的门槛。 商业银行不可能对抵押贷款如此慷慨。

展望未来

未来已来,但只有 17% 的组织在反欺诈计划中使用机器学习。 不要被抛在后面。

以下是您可以通过机器学习在银行安全方面取得的一些突破。

  • 设备分析:识别连接到银行网络的不同设备,分析任何给定设备的功能和行为。
  • 自动异常检测和响应:识别已知设备中的欺诈行为并隔离受影响的系统。
  • 零日检测:识别以前未知的漏洞和恶意软件,以保护组织免受网络攻击。
  • 数据脱敏:自动检测机密数据并使其匿名。
  • 大规模洞察:识别跨多个设备和位置的欺诈趋势。
  • 创新政策:利用机器学习洞察来推动相关安全政策。

无论您是财富管理机构还是信用合作社,人工智能和机器学习都为欺诈检测提供了巨大的机会。

然而,重要的是要记住,黑客也使用这些技术来规避保护措施。 更新您的机器学习模型以领先于这些攻击。 您还可以利用古老的人类智能来增强基于人工智能的安全性。