使用深度學習提高移動設備可用性的 6 種方法

已發表: 2020-01-23

隨著全球對增強型、更個性化的移動體驗的需求不斷增加,移動應用程序開發行業的廣泛人工智能和深度學習適應是不可避免的。 忘記移動傳感和雲計算帶來的令人沮喪的延遲問題。 近零延遲即將到來,實時數據處理速度可提供最佳結果。

Apple 具有內置神經處理單元的先進仿生智能手機芯片已經幫助神經網絡以驚人的速度直接在設備上運行。 使用 Apple 的 Core ML 和 Google 的 ML Kit 平台以及 TensorFlow Lite 和 Keras 等深度學習庫,移動開發人員可以創建具有更低延遲、更少錯誤和更快數據處理的應用程序。

設備上機器學習的主要優勢在於它為用戶提供了無縫、準確的用戶體驗。 由於不存在將數據發送到外部服務器進行處理的問題,因此您可以獲得更好的數據保護以及用戶安全和隱私。 此外,借助移動設備上的神經網絡,您無需連接到互聯網即可訪問應用程序的所有功能。 當然,大多數標準功能仍然需要互聯網。

將深度學習部署到移動設備的 6 種方法

利用移動設備計算能力實現深度學習算法,無疑提高了移動設備的可用性。 就是這樣:

1. 設備端語音識別

語音識別涉及使用循環神經網絡 (RNN)、卷積神經網絡 (CNN)、深度神經網絡 (DNN) 和其他架構將輸入序列轉換或轉換為輸出序列。 開發人員一直在努力解決延遲問題——這會在您的請求和自動助手的響應之間造成延遲——但我們現在可以通過在移動設備中使用緊湊型循環神經網絡傳感器 (RNN-T) 技術來解決這個問題。

RNN-T 是序列到序列模型。 然而,它們並沒有遵循在產生輸出之前處理整個輸入序列的通常方法,而是在輸入處理和輸出流中保持穩定的連續性。 這有助於實時語音識別和處理。 您可以通過 Google 助理看到這一點,它可以處理連續的語音命令而不會動搖,並且不需要您在每次請求後調用“嘿,谷歌”。

它可以進行更自然的雙向對話,並且 Google 助理會按照您的指示轉到 T。希望它設置電子郵件主題、在您的一個文件夾中查找照片並引導您到您姐姐的位置? 完成。

隨著谷歌新的 Pixel 4 的發展,它的實時字幕功能可以實時為音頻筆記、播客和視頻提供字幕,而且——因為處理是在設備上——也可以在飛行模式下進行。 因此,例如,如果視頻出現在您的 Twitter 提要中,您可以從其標題中找出它的內容,而無需取消靜音。 Live Caption 不適用於音樂或電話和視頻通話。

2. 通過手勢識別提高效率

借助設備上機器學習管道模型,您可以訓練您的移動設備檢測、跟踪和識別手部和身體手勢。 您的設備攝像頭將您的手勢和動作記錄並存儲為 3D 圖像數據。 然後,神經網絡的深度學習算法使用這個手勢庫來識別和破譯特定的靜態和動態手勢。 然後他們將它們實時匹配到您的意圖並執行您想要的命令。

Google Pixel 4 智能手機配備 Soli 芯片,可促進與手機進行複雜的非語言交互。 手機頂部的這種微型雷達傳感器為Motion Sense 技術提供動力,該技術可以檢測您的存在以及手部和身體手勢,從而實現您的手機交互。 只需揮手,甚至無需觸摸手機,您就可以讓它打盹、使鬧鐘靜音或導航到播放列表中的下一首歌曲。

3. 增強現實的沉浸式能力

使用 Google 的 ARCore 和 Apple 的 ARKit 平台,開發人員可以構建增強現實應用程序,將數字對象和環境與現實生活設置並列。 基於電話的增強現實的沉浸式功能正在對零售、娛樂、旅遊和其他行業產生重大影響。 Lacoste 和 Sephora 等品牌現在允許他們的客戶使用增強現實應用程序試用或預覽產品,越來越多的購物者更願意在決定購買之前先在手機上查看產品。

諸如 Pokemon、Ingress 和 Ghostbusters World 等交互式增強現實遊戲已獲得廣泛的媒體報導和忠實的追隨者。 如果您想在城鎮中找到自己的路,Google Maps Live View 將為您提供實時導航。

4. 更高質量的照片

高照片質量是買家在選擇智能手機時的一個重要標準,他們可以通過許多最新型號獲得。 它們配備了硬件組件——中央處理單元 (CPU)、圖像信號處理器、深度學習圖像算法和神經處理單元——在拍攝照片時,它們將智能手機推向了與傳統相機完全不同的領域。 有了這些,智能手機可以在像素分類級別上表現出對拍攝高清照片所見內容的更多認識。

Google Pixel 手機和 Apple iPhone 使用多個攝像頭和復雜的機器學習算法來識別人和物體、創建深度圖、無縫加入長時間曝光併計算準確的色彩平衡

通過在圖像數據集上訓練神經網絡,算法學習如何響應單個圖像要求和實時修飾照片。 由麻省理工學院和谷歌的研究人員開發的自動修飾系統允許攝影師在拍攝之前將不同的風格應用於圖像。

在卷積網絡以低分辨率執行圖像處理後,稱為仿射顏色變換的映射方法會修改圖像像素顏色。 網絡將這些轉換公式存儲在 3D 網格中,然後可以輸出高分辨率圖像。 這一切都在幾毫秒內發生。

智能手機現在在低光和夜間攝影方面也超過了數碼單反相機。 通過結合深度神經網絡和傳感器,智能手機攝像頭可以捕捉到比人眼感知的顏色更清晰的圖像。

華為在其 P20 Pro 中引入了可行的低光拍攝,在其 Mate 30 系列中使用 RYYB 濾鏡、大型傳感器和 AI 圖像處理來提供高質量的低光攝影和低光攝像。 Google Pixel 4 帶有夜視模式,可以拍攝 0.3-3 勒克斯範圍內的照片,它的天文攝影可以捕捉到黑暗的星空。 除了在黑暗中自動激活的夜間模式外,Apple 的新 Deep Fusion 系統還將根據光照水平進行調整,並將 iPhone 攝影提升到更令人印象深刻的水平。

即使您對攝影一竅不通,也可以使用這些智能手機拍攝出精美的照片。

5. 提高安全性和隱私性

通過設備上的機器學習,遵守通用數據保護條例 (GDPR) 和加州消費者隱私法 (CCPA) 變得更加容易。 它保證了數據安全,因為您無需將用於生物識別、加密或實時字幕的數據上傳到服務器或云進行處理。

設備上自動加密是另一項有用的智能手機功能,它使用 PIN 碼、密碼或圖案保護您的內容,並且僅在您解鎖手機時才允許訪問您的數據。 因此,如果您的設備丟失或被盜,任何人獲取您數據的機會都微乎其微。

iPhone 的面容 ID 功能是更安全的智能手機體驗的一個例子。 Apple 智能手機芯片中的設備上神經網絡處理並安全地存儲用戶面部數據。 識別發生在您的設備上,因此您的隱私和安全不會受到阻礙。

Google Pixel 4 的人臉解鎖技術由 Soli 芯片提供支持,使用 3D 紅外深度映射創建人臉模型以進行人臉識別,並將其存儲在設備上的 Titan M6 安全芯片上。 Face Unlock 與 1Password 應用程序配合得很好,通過消除身份欺詐的機會為用戶提供生物識別安全性。 要在 Pixel 4 上設置 1Password 應用程序,您只需在自動填充中輸入您的詳細信息並使用人臉解鎖而不是指紋解鎖功能登錄。

6. 圖像識別更準確

將設備上的機器學習與圖像分類技術相結合,您可以實時識別並獲取有關您遇到的幾乎任何事物的詳細信息。 想閱讀外文文本? 用您的手機掃描它以獲得即時準確的翻譯。 一件衣服或一件家具有沒有引起你的興趣? 掃描它以獲取有關價格和購買地點的信息。 餐廳菜單上有沒有誘人的新菜? 您可以使用手機查找其成分和營養信息。

通過促進實時圖像識別,Google Lens、Calorie Mama 和 Leafsnap 等應用程序正在提高移動設備的可用性和可學習性,並增強用戶體驗。

移動設備上的深度學習:最後的想法

設備上機器學習的可能性是巨大的。 隨著越來越高效的智能算法、更深的神經網絡和更強大的人工智能芯片,深度學習移動應用將成為銀行、零售、醫療保健、數據分析、信息技術、電信、航空航天和其他各種行業的標準。

根據 Verified Market Research 的數據,到 2026 年,全球深度學習市場可能達到 266.4 億美元,其中深度學習芯片組技術市場達到 29 億美元。 隨著深度學習能力的不斷提高,移動設備的可用性功能將隨之發展並推動進一步的創新。

準備好下一個軟件項目了嗎? 請與我們聯繫!