Büyük veri vaka çalışması veya kullanım örneği


13

Farklı veri türlerinin Büyük Veri Analitiğini nasıl kullandığına dair birçok blog \ makalesi okudum. Ancak bu makalenin çoğunda bahsedilemiyor

  1. Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi
  2. Verileri işlemek için ne tür araçlar teknolojileri kullandılar
  3. Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu.
  4. İhtiyaçlarına göre araç \ teknolojiyi nasıl seçtikleri.
  5. Verilerden ne tür bir kalıp tanımladıklarını ve verilerden ne tür kalıplar aradıklarını.

Birinin bana tüm bu sorulara cevap verebileceğini veya en azından bazı soruları cevaplayan bir bağlantı sağlayıp sağlayamayacağını merak ediyorum. Gerçek dünya örneği arıyorum.

Birisi finans endüstrisinin Büyük Veri Analitiğini nasıl kullandığını paylaşırsa harika olur.

Yanıtlar:


14

Haber kuruluşları, "Büyük Veri" yi oldukça gevşek kullanma eğilimindedir. Satıcılar genellikle kendi ürünlerini çevreleyen vaka çalışmaları sunar. Açık kaynak uygulamaları için çok fazla bir şey yok, ancak bunlardan bahsediliyor. Örneğin, Apache hadoop üzerinde bir vaka çalışması oluşturmak için çok fazla zaman harcamaz, ancak Cloudera ve Hortonworks gibi satıcılar muhtemelen yapacak.

Finans sektöründe Cloudera'dan bir örnek olay incelemesi .

Çalışmadan alıntı:

Büyük bir küresel finansal hizmetler grubu, haydut ticaret faaliyetlerini tanımlamak için Cloudera ve Datameer'i kullanıyor. Firmanın varlık yönetimi grubundaki ekipler, fiyat, pozisyon ve sipariş bilgilerinin günlük feed'leri üzerinde geçici analizler yapmaktadır. Tüm ayrıntılı verilerin ad hoc analizine sahip olması, grubun belirli varlık sınıflarındaki anormallikleri tespit etmesine ve şüpheli davranışı tanımlamasına olanak tanır. Kullanıcılar daha önce yalnızca masaüstü e-tablo araçlarına güveniyordu. Şimdi, Datameer ve Cloudera ile kullanıcılar daha fazla veriyi daha hızlı bir şekilde gözden geçirmelerini ve başlamadan önce potansiyel kayıpları önlemelerini sağlayan güçlü bir platforma sahipler.

.

Lider bir perakende bankası, Dodude-Frank Yasası ve diğer yönetmeliklerin gerektirdiği şekilde veri doğruluğunu ve kalitesini doğrulamak için Cloudera ve Datameer kullanıyor. Kredi ve şube verilerini ve varlık yönetimi verilerini entegre eden bankanın veri kalitesi girişimi, her kaydın doğru olmasını sağlamaktan sorumludur. Süreç, verilerin 50'den fazla veri sağlığı ve kalite kontrolüne tabi tutulmasını içerir. Bu kontrollerin sonuçları, zaman içinde veri bozulması ve veri alanlarına ilişkin toleransların olumsuz bir şekilde değişmemesini ve yatırımcılara ve düzenleyici kurumlara bildirilen risk profillerinin ihtiyatlı ve düzenleyici gerekliliklere uygun olmasını sağlamak için zamanla eğilimlidir. Sonuçlar, bir veri kalitesi panosu aracılığıyla Baş Risk Görevlisi ve Baş Finans Görevlisi'ne raporlanır,

Cloudera'da finansla ilgili başka bir çalışma görmedim, ancak çok fazla araştırma yapmadım. Kütüphanelerine buradan göz atabilirsiniz .

Ayrıca, Hortonworks, K-means, Hadoop ve R'den yararlanarak bir strateji geliştirmek için geçen sürede% 20'lik bir düşüş gördükleri Ticaret Stratejileri ile ilgili bir vaka çalışmasına sahiptir .

Her renk, benzer kâr ve zarar olasılığı olan bir grup stratejiyi gösterir

Hadoop (Hortonworks Veri Platformu) ve k-ortalama algoritması kullanılarak ticaret sisteminin nasıl geliştirildiği

Bunlar tüm sorularınıza cevap vermiyor. Bu çalışmaların her ikisinin de çoğunu kapsadığından eminim. Özellikle alet seçimi hakkında hiçbir şey görmüyorum. Satış temsilcilerinin, genel ürünü kapıya sokmakla çok ilgisi olduğunu düşünüyorum, ancak veri bilimcileri kendilerinin en rahat oldukları araçlardan yararlandılar. Büyük veri alanındaki bu alan hakkında çok fazla fikrim yok.


1
Teşekkür ederim. Bu çok yardımcı. Biliyorum bu bir hata alanı ve tek bir doğru cevap yok. Kişinin ihtiyaçlarına göre büyük veri araçlarını ve teknolojisini nasıl seçtiğini bilmekle çok ilgileniyorum. Bunu şimdilik doğru cevap olarak işaretlemiyorum ama kesinlikle çok fazla UP oyu hak ediyor. Şerefe :)
Brown_Dynamite

6

Finansal Hizmetler, Büyük Veri'nin büyük bir kullanıcısı ve yenilikçi. Bir örnek ipotek tahvil ticareti. Sorularınızı cevaplamak için:

Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi?

  • Geçtiğimiz yıllar boyunca verilen ipoteklerin uzun geçmişleri ve aylara göre ödemeler. (Milyarlarca satır)
  • Uzun kredi geçmişleri. (Milyarlarca satır)
  • Ev fiyat endeksleri. (Büyük değil)

Verileri işlemek için ne tür araçlar teknolojileri kullandılar?

Değişir. Bazıları Netezza veya Teradata gibi veritabanlarında oluşturulmuş şirket içi çözümler kullanır. Diğerleri verilere veri sağlayıcıları tarafından sağlanan sistemler aracılığıyla erişir. (Corelogic, Experian, vb.) Bazı bankalar KDB veya 1010data gibi sütunsal veritabanı teknolojileri kullanır.

Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu.

Kilit konu, ipotek tahvillerinin (ipoteğe dayalı menkul kıymetler) ne zaman ön ödeme veya temerrüde düşeceğini belirlemektir. Bu özellikle devlet garantisinden yoksun olan tahviller için önemlidir. Ödeme geçmişlerini, kredi dosyalarını ve evin mevcut değerini anlayarak, bir temerrüt olasılığını tahmin etmek mümkündür. Bir faiz oranı modeli ve ön ödeme modeli eklemek de bir ön ödeme olasılığını tahmin etmeye yardımcı olur.

İhtiyaçlarına göre araç \ teknolojiyi nasıl seçtikleri.

Proje dahili BT tarafından yönlendiriliyorsa, genellikle Oracle, Teradata veya Netezza gibi büyük bir veritabanı satıcısından oluşur. Sorgular tarafından yönlendirilirse, doğrudan veri satıcısına veya 3. taraf "Hepsi içeri" sistemine gitme olasılığı daha yüksektir.

Verilerden ne tür bir kalıp tanımladıklarını ve verilerden ne tür kalıplar aradıklarını.

100,000,000beingworththatamount,oraslittleas


Ön ödeme modellemesi için makine öğrenme tekniklerinin kullanıldığı herhangi bir örneği gördünüz mü? Yani Sinir ağları, rastgele orman, GBM?
Josh

5

Kaggle'ın uygulamaların kısa bir özeti vardır:

Revolution Analytics birçok genel vaka çalışması, veri sayfası ve tanıtım belgesi yayınladı:

Bilim ve mühendislik uygulamaları için Nuton vaka çalışmalarına başvurabilirsiniz :

Analyx potansiyel müşterilere ticaretteki uygulamalar hakkında şunları söyledi:

Financial Times , büyük verinin iş uygulamaları hakkında hikayeler bir koleksiyon yayınladı:

McKinsey 2011 yılında başvuruları özetledi:

Diğer danışmanlık firmaları da benzer raporlar verdiler.

Gartner Büyük veriler için Hype Cycle'ı yarattı:

resim açıklamasını buraya girin

Ürünlerini tanıtmak isteyen diğer şirketlerin vaka çalışmalarından ve teknik incelemelerden bahsetmiyorum bile.


1

O'Reilly ücretsiz veri raporlarına göz atın . Bankacılık ve Fintech, Spor, Moda, Müzik, Sağlık, Petrol ve Gaz vb. Raporları bulabilirsiniz.

Daha önce bahsedilen McKinsey raporunun klasik bir rapor ve mutlaka okunması gerektiğini unutmayın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.