İş Odaklı Veri Bilimi

Yayınlanan: 2018-12-13

21. yüzyılın en seksi işinin Veri Bilimcisi olduğunu söylüyorlar (ve çeşitli konferanslarda tanıştığım tüm Veri Bilimcileri bunu biliyor). Ancak makine öğreniminin yalnızca teorik kısmı hakkında konuştuklarında bazen çalışmalarının neden sıcak olduğunu bilip bilmediklerini merak ediyorum. Bunun nedeni, bir Veri Bilimcisinin iş hedeflerine ulaşmak için verileri, teknik becerileri ve istatistik bilgilerini nasıl birleştireceğini bilmesidir. Bu nedenle, Veri Bilimini iyi yapmak için önce işi düşünmeniz gerekir.

Şirketlerin, gerçekte neyi başarmak istediklerini düşünmeden her kullanıcının dokunuşunu izlemek için analitik araçlar ekledikleri durumları biliyorum. Anlamadıkları ve işlerini ilerletmek için kullanamayacakları birçok veri topladılar.

Böyle hatalar yapmayın! Veri Bilimi sürecinin her adımında hedeflerinizi ve sektöre özgü özellikleri düşünün. Ne kadar yaratıcı olursanız, başarı şansınız o kadar artar. Bunu kanıtlamak için, size devlerin uygulamalarından bazı ilham verici Veri Bilimi örnekleri göstereceğim…

Veri Bilimi Maceranıza Nasıl Başlarsınız?

Birçok şirketin gelirlerini artırmak için ML kullandığını duydunuz, ancak nasıl başlayacağınız hakkında hiçbir fikriniz yok mu? Pahalı altyapı ve (iş ihtiyaçlarınızı karşılamada) yararsız verilerle sonuçlanmamak için, aşağıdaki sorulara yanıt vererek başlamalısınız:

Müşterinin iş hedefleri nelerdir? Bunları elde etmek için verileri nasıl kullanabiliriz?

Ardından hangi verilerin izlenebileceğini ve kullanılabileceğini planlamaya başlayabilirsiniz.

Veri toplama

Hangi verileri toplamalıyız? Bu sorunun cevabı aslında sizi şaşırtabilir. Todd Yellin'e (Netflix'in Ürün İnovasyonu Başkan Yardımcısı) göre kullanılabilecek iki tür veri vardır : açık ve örtük [1]. Netflix durumunda, açık olan, kullanıcının bir filmi tam anlamıyla derecelendirdiği zamandır. Örtük, diğer yandan, kullanıcı tıklamalarına ve uygulamanın kullanımına dayanan davranışsal verilerdir. Hangi tür daha değerli?

Bu sorunun evrensel bir cevabı yoktur, ancak çoğu durumda örtük veriler daha faydalı olacaktır . Ve bunun nedeni… insanların yalan söylemesidir.

Belgeselleri sevdiğini söyleyen ve onları 5/5 olarak değerlendiren adamı düşünün. Ancak verilerin gösterdiği gibi, bu türü yılda bir kez izliyor. Aynı zamanda her Cuma akşamı sevilen dizileri izliyor. Ve bunun nedeni, işten sonra yorgun olması ve sadece kanepede gevşemek istemesidir. Peki böyle bir öneri sistemini hazırlamak için hangi veriler kullanılmalıdır: derecelendirme mi yoksa kullanıcı davranışı mı?

Bu soruyu cevaplamak için, gelişiminin iş hedefi hakkında düşünmemiz gerekiyor. Netflix'in amacı, bir kullanıcıyı daha fazla film izlemeye teşvik etmektir. Popüler beş yıldızlı derecelendirme sistemiyle başladılar. Bahsi geçen kullanıcıların 2. Dünya Savaşı ile ilgili bir film yerine Friends'i izleme ihtimalinin daha yüksek olduğunu anlayınca, kullanıcı davranışına dayalı öneri sistemini geliştirdiler. Ayrıca beş yıldızlı derecelendirmeyi düşürdüler ve bunun yerine daha basit, ikili bir beğeni, beğenmeme sistemi koydular.

Bu örneğin gösterdiği gibi, toplanan veriler sektöre özgüllük dikkate alınarak seçilmeli ve kullanıcıların kararlarını ve ihtiyaçlarını anlamak için yeterli bilgiyi getirmelidir. Ancak burada başka bir sorunla karşılaşıyoruz: davranışsal veriler, metinler ve diğer yapılandırılmamış verilerin Makine Öğrenimi modellerinde analiz edilmesi ve kullanılması yapılandırılmış olanlardan daha zordur. Şimdi özellik mühendisliği hakkında konuşma zamanı.

Özellik Mühendisliği

Veri Biliminde özellik mühendisliğinin ne kadar önemli olduğunu göstermek için Google Brain'in kurucu ortağı ve deeplearning.ai'nin kurucusu Andrew Ng'den alıntı yapmak istiyorum:

Özelliklerin ortaya çıkması zordur, zaman alıcıdır, uzmanlık bilgisi gerektirir. Uygulamalı makine öğrenimi temel olarak özellik mühendisliğidir. [2].

https://forum.stanford.edu/events/2011/2011slides/plenary/2011plenaryNg.pdf

Veri işlemeye yönelik amaca yönelik bir yaklaşımın ilginç bir örneği, kullanıcıların otelleri 0 ile 10 arasında derecelendirebildiği Booking.com'dur. Ancak bir parti hayvanı otele yüksek puan veriyorsa, çocuklu aileler için iyi bir seçim midir? Şart değil.

Neyse ki, ihtiyacımız olan daha fazla bilgiyi içeren kullanıcı yorumları da var. Booking.com, yorum yapılan otelin güçlü ve zayıf yönlerini ve kullanıcıların konaklamayla ilgili tercihlerini çıkarmak için duygu analizi ve konu modellemeyi kullanır.

Bu örneği ele alalım:

Rezervasyon incelemesi

Bir konu Oda tesisleri olumsuz duygulara sahiptir (kullanıcı duş, yatak, wifi ve klima hakkında şikayet eder). Aynı zamanda, bu kullanıcı otel, personel ve yemek fiyatları için Değeri övüyor. Sistem ayrıca yorumda belirtilmeyenleri de analiz eder ve bu nedenle muhtemelen kullanıcı için önemli değildir - örneğimizde gece hayatı olabilir.

Bu anlayışlar ile platform, benzer profile sahip kullanıcılar için daha uygun otelleri, bu durumda huzurlu bir otelde tatil geçirecek bir yer arayan çocuklu bir aileyi makul bir fiyata sunabilir. Ayrıca Booking.com, en üstteki izleyici için en ilginç bilgileri göstermek için yorumları sıralar.

Bu, bir kazan-kazan durumuna yol açar: kullanıcılar, özel ihtiyaçlarına göre uyarlanmış teklifleri daha hızlı ve daha kolay bulabilir ve platform, kullanıcıların satın alma olasılığı daha yüksek olan teklifler olduğu için kâr sağlar.

Veri Bilimini merak mı ediyorsunuz?

Daha fazla bilgi edin

Veri Ürünü

Tatmin edici sonuçlarla veri ürününü dağıttınız mı? Memnun olma zamanı değil. Netflix örneğinin gösterdiği gibi [3] , sistemi geliştirmeye yönelik sürekli çalışma önemli kazanımlar sağlayabilir. Uygun bir film önerisi yeterli mi? Daha ne yapabiliriz?

Netflix'in kullanıma hazır yaklaşımlarından biri, yalnızca film önermek değil, aynı zamanda belirli bir kullanıcıya en çekici gelecek bir görselle onları göstermektir. Diyelim ki size Good Will Hunting'i tavsiye ettiler. Geçmişte çok sayıda romantik komedi izlediyseniz, öpüşen bir çiftin resmini görebilirsiniz, oysa bir komedi hayranıysanız, büyük olasılıkla popüler bir Amerikan komedyenini çekeceksiniz:

Netflix öneri sistemi

Bu yaklaşımla, sayısız seçenek arasında gezinen bir kullanıcının dikkatini çeken bir filmi bulma olasılığı çok daha yüksektir.

Bu ve diğer öneri stratejilerinin şaşırtıcı sonuçları vardır - platform içeriğinin %80'inden fazlası algoritmik önerilere dayanmaktadır . Bu, bir kullanıcının izleyeceği şeylerin bitmesinin zor olduğu anlamına gelir. Bir gösteri bittiğinde, Netflix bir sonrakini önermek için oradadır.

Kullanıcıların aboneliklerini iptal etme olasılıkları çok daha düşük olduğu için rekabet avantajı sağlayan işlerinde. Bu son derece başarılı Veri Bilimi uygulaması, çoğunlukla işlerini ve uygulama kullanıcılarının iyi anlaşılmasıyla gerçekleştirildi.

Özet

Bu yılki Veri Bilimi konferanslarından birinde, kredi riski tahminleriyle ilgilenen bir konuşmacı şunları söyledi:

İnsanlar bana temel olarak işimin ne olduğunu sorduklarında cevap veriyorum: Verilere dayalı iş değerleri getiriyorum.

Benim için bu, Veri Biliminin en iyi tanımlarından biridir. Sadece teorik temellerine değil, özellikle iş dünyasına yönelik olmalıdır. İyi bir Machine Learning uygulaması oluşturmak istiyorsanız, kullanıcıların sisteminizde nasıl davrandığını ve neye ihtiyaçları olduğunu düşünmeniz gerekir. Bunu akılda tutarak, iş hedeflerinize başarıyla ulaşacaksınız.