增強銀行安全:用於詐欺偵測的機器學習

已發表: 2023-11-14

每一個機會都伴隨著威脅。 銀行業向數位化的轉變改善了客戶體驗,並將客戶群擴大到以前沒有銀行帳戶的人。 缺點是線上交易和數位支付解決方案為詐欺者提供了新的利用途徑。

畢馬威詐欺調查的結果表明,網路攻擊的頻率和嚴重程度正在增加,造成了數十億美元的損失。

上圖顯示了 2022 年美國不同支付方式的詐欺損失價值。銀行轉帳和支付最高,損失達 15.9 億美元。

這些損失迫使銀行機構採用新的解決方案來偵測、減輕和防止金融詐欺。 其中一種方法是人工智慧(AI),特別是機器學習。

在本文中,我們將討論您需要了解的有關用於欺詐檢測的機器學習的所有信息,包括好處和實際應用。

詐欺檢測的演變

傳統的詐欺偵測遵循基於規則的方法。 顧名思義,它在一組規則或條件下運行,以確定交易是真實的還是欺詐的。 常見條件包括位置(購買是否在使用者慣常區域之外?)和頻率(使用者通常購買的數量和類型嗎?)。

交易只有在滿足條件時才會進行。 例如,俄亥俄州的一位客戶突然在新西蘭的 POS 上被扣費。 該位置位於使用者的區號之外,因此系統會將交易標記為詐欺。

這種類型的詐欺偵測系統有幾個缺點。

  1. 它會產生大量誤報。 您可以在此處封鎖真正客戶的付款。
  2. 它不靈活。 基於規則的方法使用固定的結果,因此很難適應數位銀行的趨勢。 您必須更改規則以發現新形式的詐欺行為。
  3. 它無法擴展。 當數據增加時,防止數據增加所需的努力也會增加。 對系統的任何更改都是手動完成的,這使得成本昂貴且耗時。

基於規則的詐欺檢測有效。 然而,它的缺點使其不適合現代數位環境。 它無法識別模式並依賴人為幹預。

此外,駭客不遵守朝九晚五的時間表,可以部署位置欺騙和客戶行為模仿等複雜的方法來欺騙詐欺偵測系統。 因此,您需要一個同樣高度開發、24/7 運作的系統。

輸入機器學習。

機器學習是一種人工智慧 (AI) ,它使用資料來訓練詐騙偵測演算法,以發現資料模式和關係、獲得洞察力並做出預測。

即使您不知道,您也已經熟悉機器學習。 例如,每當您瀏覽 Instagram 貼文時,您都會向演算法提供有關您喜歡的內容類型的信息。 然後它會在應用程式中搜尋類似內容以添加到您的提要中。

機器學習將如何改變詐欺偵測

使用機器學習進行銀行詐欺偵測已經正在改變整個產業,可以更快、更靈活、更準確地識別和回應詐欺。

人工智慧系統分析客戶資料中的模式,並根據歷史和新出現的威脅自動更改規則。

還記得我們之前提到的紐西蘭POS收費嗎? 使用機器學習的詐欺偵測會認為同一張銀行卡購買了飛往該地點的航班。 因此,新的借記很可能是合法的。

有兩種模型用於訓練演算法來偵測詐欺:監督機器學習和無監督機器學習。

監督機器學習

監督學習模型向演算法提供大量標記為欺詐或非欺詐的資料。 該演算法研究這些範例並了解哪些模式和關係可以區分合法交易和詐欺交易。

這種學習模型非常耗時,因為它需要手動標記資料。 此外,您的資料集必須正確標記且組織良好。 錯誤標記的交易將影響演算法的準確性。

此外,它僅從訓練集中包含的輸入中學習。 因此,透過新推出的行動銀行應用程式功能進行的不屬於歷史數據的交易不會被標記。 現在有一個漏洞可供詐欺者利用。

無監督機器學習

無監督學習模型使用最少的人工輸入。 該演算法從大量未標記的資料中學習模式和關係,根據相似性和差異對資料集進行分組。

目的是發現訓練資料集中未包含的異常活動。 因此,無監督學習可以彌補監督學習的不足,並偵測新的詐欺行為。

請記住,您不必在監督或無監督機器學習模型之間進行選擇。 您可以一起使用它們(半監督學習模型)或獨立使用它們。

使用 ML 進行詐欺偵測的好處

我們已經暗示了在銀行業中使用機器學習進行詐欺檢測的好處,但讓我們進一步討論它們。

  • 速度

機器學習計算發生得很快,並即時給出詐欺決策。 雖然基於規則的演算法也可以即時做出決定,但它們依賴書面規則來標記詐欺行為。

在沒有預定義規則的新場景中會發生什麼? 它會導致誤報或誤報。

機器學習自動偵測新模式,分析常規客戶活動並在幾毫秒內計算適當的結果。

  • 準確性

基於規則的偵測系統會阻止真實交易或允許詐欺交易,因為它們無法偵測客戶行為的細微差別。

機器學習系統考慮書面規則以外的變量,例如已知的詐欺行為。 這些變數有助於將交易置於情境中,降低誤報率。

  • 靈活性

機器學習是靈活且反應性的。 自學習能力使該系統能夠適應新場景並檢測新威脅。 基於規則的系統是僵化的且不具備學習能力。 因此,它只能根據預先定義的規則來應對詐欺活動。

  • 效率

機器學習演算法每秒可以分析數千個交易資料。 機器學習可以處理重複或明確的詐欺行為,而不是花費勞動力和管理成本來調查低至中度的詐欺案件。 它使詐欺專家能夠專注於需要人類洞察力的複雜模式。

  • 可擴展性

資料量的增加給基於規則的系統帶來了壓力。 新規則增加了系統的複雜性,使其難以維護。 任何錯誤或矛盾都可能導致整個模型無效。

機器學習系統則相反。 它們不僅吸收了大量的新數據,而且還進行了改進。

用於詐欺偵測的機器學習技術

在我們研究人工智慧詐欺偵測中使用的不同演算法之前,讓我們先概述一下該系統的工作原理。

第一步是資料輸入。 模型的準確性取決於數據的數量和品質。 添加的高品質數據越多,模型就越準確。

接下來,該模型分析資料並提取描述正常行為與詐欺行為的關鍵特徵。 這些功能包括客戶身分(電子郵件或電話號碼)、地點(IP 或送貨地址)、付款方式(持卡人姓名和來源國家)等。

第三步是訓練演算法(使用更多資料)來區分真實交易和詐欺交易。 此模型接收訓練資料集並預測各種情況下的詐欺機率。 一旦演算法經過充分訓練,您就可以啟動它了。

現在,讓我們看看您可以使用的各種演算法。

1.邏輯迴歸

邏輯迴歸是一種監督學習演算法。 它根據模型的參數計算二進制範圍內的欺詐機率(欺詐或非欺詐)。

邏輯迴歸建模

位於圖表正側的交易很可能是欺詐性的,而位於圖表負側的交易最有可能是合法的。

2. 決策樹

決策樹是一種監督學習演算法,但比邏輯迴歸演算法更進一步。 它是一種分層決策結構,可以分層分析資料來確定交易是真實的還是欺詐的。

下面是信用卡詐欺偵測決策樹的圖示。

用於詐欺偵測的機器學習:決策樹

判斷交易是否有詐欺的條件是交易金額。 如果交易的價值超過設定的閾值,演算法就會認為它是欺詐的。 如果不是,樹會檢查另一個條件—交易時間。 如果時間不尋常(此處為凌晨 3 點),則很可能是欺詐行為。 如果沒有,它會檢查另一個條件。 它繼續下去。

3. 隨機森林

隨機森林是許多決策樹的組合,其中每個決策樹檢查不同的條件——身份、位置等。

用於詐欺偵測的機器學習:隨機森林

檢查完所有參數後,每個子樹都會提供一個決策。 總和決定交易是真實的還是欺詐的。

4. 神經網絡

神經網路是複雜的、無監督的演算法。 受人腦的啟發,神經網路處理多層資料以提取高級特徵。 該演算法與深度學習齊頭並進,可以識別圖片、文字、音訊和其他資料中的模式。

這是神經網路的簡化版本。

神經網路:用於詐欺偵測的機器學習

神經網路有三層:輸入層、隱藏層、輸出層。 輸入層處理數據,隱藏層分析來自輸入層的數據以識別隱藏模式,輸出層將數據分類。

深度神經網路有幾個隱藏層。 它們非常適合識別非線性關係和偵測前所未有的詐欺場景。

5.支持向量機

支援向量機 (SVM) 是一種監督學習演算法,可預測、分類和檢測異常值。

支援向量機演算法:用於詐欺偵測的機器學習

此線性 SVM 插圖顯示了由稱為超平面的直線分隔的兩個資料集。 決策邊界將資料分類為詐欺與非詐欺。

遠離超平面的資料點很容易分類。 支持向量(最接近超平面)很難分類。 如果刪除這些異常值,可能會影響超平面的位置。

6.K近鄰

K近鄰(KNN)是一種監督學習演算法。 它的運作假設是相似的項目彼此靠近。

下面是一個簡單的說明。

K 最近鄰演算法:用於詐欺偵測的機器學習

新資料條目需要放置在類別 A 或 B 中。演算法使用稱為歐幾里德距離的數學方程式計算資料點之間的距離。 新數據點屬於鄰居最多的群組。 如果最接近的資料集被標記為“詐欺”,則該交易被歸類為詐欺。

應對挑戰和戰略考慮

與所有技術一樣,整合機器學習以進行詐欺檢測也面臨著不斷增長的痛苦。 以下是您可能面臨的一些常見挑戰。

基礎設施不足

許多銀行系統無法分析大量複雜數據。 此外,大多數資料都是孤立的並存放在單獨的儲存設施中。

不幸的是,這個問題沒有快速解決方案。 您必須投資適當的硬體和軟體。

您需要與經驗豐富的金融科技應用程式開發機構合作,並建立基礎設施來自動為特定資料集選擇適當的演算法、匯入原始資料並為機器學習做好準備、視覺化資料、測試演算法等。

數據品質和安全

對於希望實施機器學習進行詐欺偵測的金融機構來說,資料品質是一個重要議題。 機器學習模型不區分好數據和壞數據。 因此,如果演算法受到不相關或不完整的數據的污染,則模型的準確性將不正確。

Amazon Kinesis 等數據攝取解決方案可收集、清理和轉換原始數據,使其適合機器學習模型。 清理和組織資料後,您必須隔離敏感資料和不敏感資料。 加密機密資訊並將其儲存在安全設施中。 您還應該限制對此資料的存取。

缺乏人才

儘管人們擔心,機器學習並沒有搶走工作。 事實恰恰相反。 我們仍然需要欺詐分析師來管理需要人類洞察力和經驗的複雜案件。 此外,機器學習是一項新技術,該領域的專家還不夠多。

這對求職者來說是個好消息,但對於無法充分利用機器學習潛力的機構來說卻不是。 您可以透過與具備實施機器學習技能的企業合作來克服這一障礙。

使用機器學習進行銀行詐欺偵測的案例研究

現在,讓我們來看看使用機器學習進行銀行詐欺偵測的現實範例。

詐欺識別

丹斯克銀行是一家丹麥跨國金融公司。 它是丹麥最大的銀行,也是北歐領先的零售銀行。 在基於規則的檢測系統下,該銀行努力減少詐欺行為。 它的詐欺偵測率為 40%,誤報率為 99.5%。

Danske 與資料軟體公司 Teradata 合作,整合了深度學習軟體,以協助識別潛在的詐騙活動。 結果是誤報率減少了 60%,真陽性率增加了 50%。

反洗錢

OakNorth 是英國的商業貸款銀行,為規模化公司提供商業和個人金融服務。 該銀行的篩選流程不完整,一個提供者負責反洗錢檢查,另一個提供者負責客戶。 此外,對政治公眾人物(PEP)的篩選產生了大量誤報。

該銀行與詐欺和反洗錢檢測公司 ComplyAdvantage 合作,整合了篩選和持續監控解決方案,以簡化合規性並整合數據。 這促進了銀行貸款和儲蓄業務之間的快速資料傳輸。

信用承銷

夏威夷美國信用社是夏威夷最大的信用社,也是《富比士》雜誌最好的信用社之一。 它希望與金融科技公司競爭,並在不增加風險的情況下擴大其個人貸款組合。

該信用合作社與 Zest AI 合作,使用人工智慧驅動的個人貸款模式實現了決策流程自動化。 該模型使用 278 個變數來提供比 VantageScore 信用評分系統更深入的見解。 結果是批准率提高了 21%,違約/貸款申請詐欺率為 0%。

使用 ML 進行詐欺偵測時的關鍵注意事項

雖然使用機器學習進行銀行詐欺偵測非常有效,但也令人望而生畏。 這些系統需要大量準確的數據,否則模型就無法發揮應有的作用。

因此,這裡有一些優化機器學習過程的技巧。

1.限制輸入變數的數量

在整篇文章中,我們一直在說「多即是多」。 關於數據量也是如此。 然而,對於詐欺偵測變數的數量來說,少即是多。

調查詐欺時要考慮的典型特徵包括:

  • IP位址
  • 電子郵件地址
  • 收件地址
  • 平均訂單/交易額

較少特徵的好處是較短的演算法訓練時間。 您也可以避免重疊或不相關資料集的問題。

2. 確保合規性

防止詐欺是資料安全的一部分。 另一個是資料隱私。 許多國家都有關於機構如何收集、使用和儲存客戶資料的法律。 例如,中國的《個人資訊保護法》(PIPL)、《加州消費者隱私法》(CCPA) 和歐盟的《一般資料保護規範》(GDPR) 等。

這些定律對機器學習中使用的數據有影響。 大多數資料隱私合規法規的主要原則是通知/同意。 您必須通知並獲得許可才能將客戶資料用於使用者請求以外的目的,包括用於訓練機器學習演算法的資料。

確保遵守隱私標準的最簡單方法是使用具有合規功能的技術合作夥伴。 例如,您應該與了解如何維護資料隱私和安全的銀行應用程式開發公司合作。

3.設定合理的門檻

交易價值規則具有觸發接受或拒絕回應的最低要求。 您需要一個平衡安全性和使用者體驗的閾值。 如果門檻太嚴格,您可能會面臨阻止合法交易的風險。 如果門檻太寬鬆,詐騙成功率就會增加。

計算您的風險偏好以找到適當的平衡點。 每個金融機構或產品的風險程度有所不同。 例如,銀行提供的小額貸款可以為低價值貸款設定很高的門檻。 商業銀行不可能對抵押貸款如此慷慨。

展望未來

未來已來,但只有 17% 的組織在反詐騙計畫中使用機器學習。 不要被拋在後面。

以下是您可以透過機器學習在銀行安全方面取得的一些突破。

  • 設備分析:識別連接到銀行網路的不同設備,分析任何給定設備的功能和行為。
  • 自動異常偵測和回應:識別已知裝置中的詐欺行為並隔離受影響的系統。
  • 零時差偵測:識別以前未知的漏洞和惡意軟體,以保護組織免受網路攻擊。
  • 資料脫敏:自動偵測機密資料並使其匿名。
  • 大規模洞察:識別跨多個裝置和位置的詐欺趨勢。
  • 創新政策:利用機器學習洞察來推動相關安全政策。

無論您是財富管理機構還是信用合作社,人工智慧和機器學習都為詐欺偵測提供了巨大的機會。

然而,重要的是要記住,駭客也使用這些技術來規避保護措施。 更新您的機器學習模型以領先這些攻擊。 您還可以利用古老的人類智慧來增強基於人工智慧的安全性。