6 sposobów na wykorzystanie Deep Learning do poprawy użyteczności urządzeń mobilnych

Opublikowany: 2020-01-23

Przy rosnącym globalnym zapotrzebowaniu na ulepszone, bardziej spersonalizowane doświadczenia mobilne, nieunikniona jest powszechna sztuczna inteligencja i adaptacja głębokiego uczenia się w branży tworzenia aplikacji mobilnych. Zapomnij o frustrujących problemach z opóźnieniami, które pojawiają się w przypadku wykrywania urządzeń mobilnych i przetwarzania w chmurze. Zbliża się zerowa latencja, a szybkość przetwarzania danych w czasie rzeczywistym zapewnia optymalne wyniki.

Zaawansowane chipy smartfonów Bionic firmy Apple z wbudowanymi procesorami neuronowymi już teraz pomagają sieciom neuronowym działać bezpośrednio na urządzeniu z niewiarygodną szybkością. Korzystając z platform Apple Core ML i Google ML Kit oraz bibliotek głębokiego uczenia, takich jak TensorFlow Lite i Keras, programiści mobilni mogą tworzyć aplikacje z mniejszymi opóźnieniami, mniejszą liczbą błędów i szybszym przetwarzaniem danych.

Główną zaletą uczenia maszynowego na urządzeniu jest to, że zapewnia użytkownikom bezproblemowe i dokładne wrażenia użytkownika. Ponieważ nie ma mowy o wysyłaniu danych na zewnętrzne serwery w celu przetworzenia, zyskujesz lepszą ochronę danych oraz bezpieczeństwo i prywatność użytkowników. Ponadto dzięki sieciom neuronowym na urządzeniach mobilnych nie musisz łączyć się z Internetem, aby uzyskać dostęp do wszystkich funkcji swoich aplikacji. Oczywiście nadal będziesz potrzebować Internetu do większości standardowych funkcji.

6 sposobów na wdrożenie głębokiego uczenia się na urządzeniach mobilnych

Wykorzystanie możliwości obliczeniowych urządzeń mobilnych do implementacji algorytmów głębokiego uczenia niewątpliwie poprawiło użyteczność urządzeń mobilnych. Oto jak:

1. Rozpoznawanie mowy na urządzeniu

Rozpoznawanie mowy obejmuje przekształcanie lub transdukcję sekwencji wejściowych w sekwencje wyjściowe za pomocą rekurencyjnych sieci neuronowych (RNN), splotowych sieci neuronowych (CNN), głębokich sieci neuronowych (DNN) i innych architektur. Deweloperzy borykali się z problemem opóźnień — które powodują opóźnienia między żądaniem a odpowiedzią automatycznego asystenta — ale teraz możemy go obejść, korzystając z technologii kompaktowych rekurencyjnych przetworników sieci neuronowej (RNN-T) w urządzeniach mobilnych.

RNN-T są modelami sekwencyjnymi. Zamiast postępować zgodnie ze zwykłą metodą przetwarzania całej sekwencji wejściowej przed wytworzeniem danych wyjściowych, zachowują stałą ciągłość przetwarzania danych wejściowych i przesyłania strumieniowego danych wyjściowych. Ułatwia to rozpoznawanie i przetwarzanie mowy w czasie rzeczywistym. Widzisz to za pomocą Asystenta Google, który może przetwarzać kolejne polecenia głosowe bez załamań i bez konieczności wywoływania „Hej, Google” po każdym żądaniu.

Dzięki temu rozmowa jest bardziej naturalna, dwukierunkowa, a Asystent będzie postępować zgodnie z Twoimi instrukcjami do T. Chcesz ustawić temat e-maila, znaleźć zdjęcie w jednym z Twoich folderów i poprowadzić Cię do mieszkania Twojej siostry? Zrobione.

Wraz z nowym Pixel 4 firmy Google funkcja napisów na żywo może zapewniać napisy do notatek dźwiękowych, podcastów i filmów w czasie rzeczywistym, a także — ponieważ przetwarzanie odbywa się na urządzeniu — również w trybie samolotowym. Na przykład, jeśli wideo pojawi się w Twoim kanale na Twitterze, możesz dowiedzieć się, o czym jest, z jego podpisów, bez konieczności wyłączania wyciszenia dźwięku. Napisy na żywo nie działają jeszcze z muzyką, rozmowami telefonicznymi i wideo.

2. Zwiększona wydajność dzięki rozpoznawaniu gestów

Dzięki modelom potoku uczenia maszynowego na urządzeniu możesz nauczyć swoje urządzenie mobilne, aby wykrywało, śledziło i rozpoznawało gesty dłoni i ciała. Kamera urządzenia rejestruje i przechowuje gesty i ruchy jako dane obrazu 3D. Algorytmy głębokiego uczenia sieci neuronowych wykorzystują następnie tę bibliotekę gestów do identyfikowania i odszyfrowywania określonych gestów statycznych i dynamicznych. Następnie dopasowują je w czasie rzeczywistym do Twoich intencji i wykonują żądane polecenia.

Smartfony Google Pixel 4 są wyposażone w chip Soli, który ułatwia złożoną i niewerbalną interakcję z telefonem. Ten miniaturowy czujnik radarowy w górnej części telefonu obsługuje technologię Motion Sense, która może wykrywać Twoją obecność oraz gesty rąk i ciała, aby umożliwić interakcję z telefonem. Jednym machnięciem ręki, bez dotykania telefonu, możesz ustawić drzemkę, wyciszyć alarm lub przejść do następnego utworu na liście odtwarzania.

3. Immersyjne możliwości rozszerzonej rzeczywistości

Korzystając z platform Google ARCore i Apple ARKit, programiści mogą tworzyć aplikacje rzeczywistości rozszerzonej, które mogą zestawiać cyfrowe obiekty i środowiska z rzeczywistymi ustawieniami . Wciągające możliwości rzeczywistości rozszerzonej opartej na telefonach mają znaczący wpływ na handel detaliczny, rozrywkę, podróże i inne branże. Marki takie jak Lacoste i Sephora pozwalają teraz swoim klientom wypróbować lub wyświetlić podgląd produktów za pomocą aplikacji rozszerzonej rzeczywistości, a coraz większa liczba kupujących woli sprawdzić produkty na swoich telefonach przed podjęciem decyzji o ich zakupie.

Interaktywne gry z rozszerzoną rzeczywistością, takie jak Pokemon, Ingress i Ghostbusters World, otrzymały obszerną prasę i oddanych fanów. Jeśli chcesz poruszać się po mieście, widok na żywo w Mapach Google zapewni Ci nawigację w czasie rzeczywistym.

4. Zdjęcia wyższej jakości

Wysoka jakość zdjęć jest ważnym kryterium dla kupujących przy wyborze smartfonów, które mogą otrzymać z wieloma najnowszymi modelami. Są one wyposażone w komponenty sprzętowe – jednostki centralne (CPU), procesory sygnału obrazu, algorytmy głębokiego uczenia obrazu i jednostki przetwarzania neuronowego – które katapultowały smartfony w zupełnie inny wymiar niż tradycyjne aparaty fotograficzne, jeśli chodzi o robienie zdjęć. Dzięki nim smartfony mogą wykazywać większą świadomość na poziomie klasyfikacji pikseli tego, co widzą, aby robić zdjęcia w wysokiej rozdzielczości.

Telefony Google Pixel i Apple iPhone używają wielu aparatów i złożonych algorytmów uczenia maszynowego do rozpoznawania ludzi i obiektów, tworzenia map głębi, płynnego łączenia długich ekspozycji i obliczania dokładnego balansu kolorów .

Trenując sieci neuronowe na zbiorze danych obrazów, algorytmy uczą się, jak reagować na indywidualne wymagania dotyczące obrazów i retuszować zdjęcia w czasie rzeczywistym. Opracowany przez naukowców z MIT i Google automatyczny system retuszu pozwala fotografom na zastosowanie różnych stylów do zdjęcia, zanim jeszcze zrobią zdjęcie.

Po tym, jak sieć splotowa przeprowadza przetwarzanie obrazu w niskiej rozdzielczości, metoda mapowania znana jako transformacja kolorów afinicznych modyfikuje kolory pikseli obrazu. Sieć przechowuje te transformacyjne formuły w siatce 3D, która następnie umożliwia uzyskanie obrazu o wysokiej rozdzielczości. Wszystko dzieje się w ciągu milisekund.

Smartfony wyprzedzają teraz lustrzanki cyfrowe również w fotografii przy słabym oświetleniu i w nocy. Dzięki zastosowaniu głębokich sieci neuronowych i czujników, kamery smartfonów mogą rejestrować ostrzejsze obrazy z większą ilością kolorów niż ludzkie oko jest w stanie dostrzec.

Huawei, który wprowadził wykonalne zdjęcia w słabym świetle za pomocą swojego P20 Pro, wykorzystuje filtry RYYB, duże czujniki i przetwarzanie obrazu AI w swojej serii Mate 30, aby oferować wysokiej jakości fotografię przy słabym oświetleniu, a także filmowanie przy słabym oświetleniu. Google Pixel 4 jest wyposażony w tryb Night Sight, który może robić zdjęcia w zakresie 0,3-3 luksów, a jego astrofotografia może uchwycić ciemne, rozgwieżdżone niebo. Wraz z trybem nocnym, który aktywuje się automatycznie w ciemności, nowy system Deep Fusion firmy Apple dostosuje się do poziomu światła i przeniesie fotografowanie iPhone'a na bardziej imponujący poziom.

Nawet jeśli nie masz pojęcia o fotografii, tymi smartfonami będziesz w stanie robić świetne zdjęcia.

5. Zwiększone bezpieczeństwo i prywatność

Przestrzeganie ogólnych przepisów o ochronie danych (RODO) i kalifornijskiej ustawy o ochronie prywatności konsumentów (CCPA) stało się łatwiejsze dzięki uczeniu maszynowemu na urządzeniu. Gwarantuje bezpieczeństwo danych, ponieważ nie musisz przesyłać danych do biometrii, szyfrowania lub napisów na żywo na serwer lub do chmury w celu przetworzenia.

Automatyczne szyfrowanie na urządzeniu to kolejna przydatna funkcja smartfona, która chroni zawartość za pomocą kodu PIN, hasła lub wzoru i umożliwia dostęp do danych tylko po odblokowaniu telefonu. Tak więc, jeśli zgubisz urządzenie lub zostanie ono skradzione, szansa, że ​​ktokolwiek dostanie Twoje dane, jest znikoma.

Funkcja Face ID w telefonie iPhone jest jednym z przykładów bezpieczniejszego korzystania ze smartfona. Sieci neuronowe na urządzeniu w chipach smartfonów Apple przetwarzają i bezpiecznie przechowują dane twarzy użytkownika. Identyfikacja odbywa się na Twoim urządzeniu, dzięki czemu Twoja prywatność i bezpieczeństwo pozostają niezakłócone.

Technologia Face Unlock w Google Pixel 4, wspomagana przez układ Soli, wykorzystuje mapowanie głębi 3D IR do tworzenia modeli twarzy do rozpoznawania twarzy i przechowuje je na chipie zabezpieczającym Titan M6 na urządzeniu. Face Unlock działa dobrze z aplikacją 1Password, oferując użytkownikom bezpieczeństwo biometryczne, eliminując ryzyko oszustwa tożsamości. Aby skonfigurować aplikację 1Password na Pixelu 4, wystarczy wprowadzić swoje dane w autouzupełnianiu i zalogować się za pomocą funkcji Face Unlock, a nie funkcji Fingerprint Unlock.

6. Większa dokładność rozpoznawania obrazu

Łącząc uczenie maszynowe na urządzeniu z technologią klasyfikacji obrazów, możesz identyfikować i uzyskiwać szczegółowe informacje w czasie rzeczywistym na temat niemal wszystkiego, co napotkasz. Chcesz przeczytać tekst w języku obcym? Zeskanuj go telefonem, aby uzyskać natychmiastowe i dokładne tłumaczenie. Czy spodobał Ci się strój lub mebel? Zeskanuj go, aby uzyskać informacje o cenie i miejscu zakupu. Czy w menu restauracji jest kuszące nowe danie? Możesz użyć telefonu, aby poznać jego składniki i informacje o wartościach odżywczych.

Ułatwiając rozpoznawanie obrazów w czasie rzeczywistym, aplikacje takie jak Google Lens, Calorie Mama i Leafsnap zwiększają użyteczność i zdolność uczenia się urządzeń mobilnych oraz poprawiają wrażenia użytkownika.

Głębokie uczenie się na urządzeniach mobilnych: ostatnie przemyślenia

Możliwości uczenia maszynowego na urządzeniu są ogromne. Dzięki coraz bardziej wydajnym inteligentnym algorytmom, głębszym sieciom neuronowym i mocniejszym chipom AI aplikacje mobilne głębokiego uczenia będą standardem w bankowości, handlu detalicznym, opiece zdrowotnej, analizie danych, technologii informacyjnej, telekomunikacji, lotnictwie i wielu innych branżach.

Według Verified Market Research globalny rynek głębokiego uczenia się prawdopodobnie osiągnie 26,64 miliarda dolarów do 2026 roku, a rynek technologii chipsetów głębokiego uczenia się osiągnie 2,9 miliarda dolarów. Ponieważ możliwości uczenia głębokiego wciąż się poprawiają, funkcje użyteczności urządzeń mobilnych będą ewoluować wraz z dalszymi innowacjami.

Gotowy na następny projekt oprogramowania? Skontaktuj się z nami!