Tam olarak büyük veri nedir?


44

Birkaç defa soru sorulmuştu:

Büyük Veri Nedir?

Hem öğrenciler hem de akrabalarım tarafından istatistik ve ML ile ilgili buzz'ları toplayanlar.

Bu CV-postasını buldum . Ve oradaki tek cevabı kabul ettiğimi hissediyorum.

Vikipedi sayfası da üzerinde bazı yorumlar vardır, ama gerçekten orada her şeye katılıyorum eğer emin değilim.

EDIT: (Wikipedia sayfasının bununla başa çıkma yöntemlerini ve aşağıda bahsettiğim paradigmayı açıklamaktan yoksun olduğunu düşünüyorum) .

Geçenlerde , Big-Data paradigmasını tanıttığı Emmanuel Candès'in bir konferansına katıldım .

Önce verileri topla soru sorun

Bu, ilk önce bir hipotez formüle ettiğiniz ve bunun hakkında bir şeyler söylemek için veri topladığınız hipotez odaklı araştırmalardan temel farklılıktır.

Veri taramasından kaynaklanan hipotezlerin güvenilirliğini nicelleştirmek konusunda çok şey yaptı. Dersinden çıkardığım en önemli şey, FDR'yi kontrol etmeye gerçekten başlamamız gerektiği ve bunun için nakavt yöntemini sundu .

Özgeçmişin Büyük Veri nedir ve bununla ilgili tanımınız nedir diye bir sorusu olması gerektiğini düşünüyorum. O kadar çok farklı "tanım" olduğunu hissediyorum, ne olduğu hakkında genel bir fikir birliği yoksa, ne olduğunu gerçekten kavramak ya da başkalarına açıklamak zor.

Ben hissediyorum "tanımı / paradigma / açıklama" düşünceleriniz nelerdir, Candes tarafından sağlanan ben katılıyorum yakın şeydir?

EDIT2: Cevabın verinin kendisinin açıklamasından başka bir şey vermemesi gerektiğini düşünüyorum. Bir veri / yöntem / paradigma bileşimi olmalıdır.

EDIT3: Ben hissediyorum bu görüşme Michael Jordan ile de masaya bir şeyler ekleyebilir.

EDIT4: En yüksek oyu alan cevabı doğru cevap olarak seçmeye karar verdim. Her ne kadar tüm cevapların tartışmaya bir şeyler kattığını düşünmeme rağmen, şahsen bunun daha çok hipotezler üretme ve verilerle çalışma biçiminin bir paradigması meselesi olduğunu hissediyorum. Umarım bu soru, Büyük Veri'nin ne olduğunu arayanlar için bir referans havuzu işlevi görür. Umarım Wikipedia sayfasının çoklu karşılaştırma problemini ve FDR kontrolünü daha da vurgulamak için değiştirileceğini umuyorum.


55
“Büyük veriler genç cinsiyete benziyor: herkes bunun hakkında konuşuyor, kimse nasıl yapılacağını gerçekten bilmiyor, herkes başkalarının yaptığını düşünüyor, bu yüzden herkes onların yaptığını iddia ediyor.” Simon Matthews
Alexander Lutsenko

4
bu teklif artık geçerli değil. İnsanlar son zamanlarda birçok olağanüstü çalışma yapıyor. Kaggle'daki yarışmalara bakarsanız, şirketler işlerini geliştiriyor ve çok para harcayarak para kazanıyorlar. Büyük Veri uygulamaları için diğer örnekleri burada bulabilirsiniz: linkedin.com/pulse/…
Metariat

5
@ XuanQuangDO, katılıyorum. Bu teklifi ciddiye alma.
Alexander Lutsenko

6
@ XuanQuangDO: Pekala, bazı gençlerin olağanüstü seks yaptıklarından eminim , ancak etrafta doya doyamayacak kadar beceriksiz ya da yanlış yönlendirilmiş bir sürü şey olduğu gerçeğini değiştirmiyor, insanların acımasızca alay edecekleri ;-)
Steve Jessop

Yanıtlar:


54

Hadley Wickham tarafından RStudio şöhretinin verdiği bir konferansa katılmaktan büyük zevk aldım. Öyle tanımladı ki

  • Büyük Veri: Bir bilgisayardaki belleğe sığamıyor:> 1 TB
  • Orta Boy Veri: Bir sunucudaki hafızaya sığar: 10 GB - 1 TB
  • Küçük Veri: Bir dizüstü bilgisayarda belleğe sığar: <10 GB

Hadley ayrıca çoğu verinin yönetilebilir sorunlara indirgenebileceğine ve çok küçük bir miktarın gerçek büyük veri olduğuna inanıyor. Bunu "Big Data Mirage" olarak adlandırıyor.

  • % 90 Alt kümeleme / örnekleme / özetleme ile küçük / orta ölçekli veri sorununa indirgenebilir
  • % 9 Çok sayıda küçük veri sorununa indirgenebilir
  • % 1 indirgenemez derecede büyük

Slaytlar burada bulunabilir .


2
@ GuðmundurEinarsson, Ben öneri için teşekkürler, ben sadece onu düzenledik.
Chris C

5
Kesin sınırların mevcut olduğunu düşünmemekle birlikte, bu görevin çok anlayışlı olduğunu düşünüyorum. Bir SW şirketinde çalışırken, " büyük veri çözümleri " arayan çok az sayıda müşteriyle etkileşim kurdum ; gerçekte 16 GB SODIMM'i kaçırdılar.
usεr11852, Reinstate Monic’in

2
Günümüzde 1 TB SSD'ler ile kalıcı depolama, hızlı geçici depolamadan çok uzak değildir. Büyük verilerin 1 TB'tan büyük, belki de en az 50 TB veya daha büyük olmasını beklerim gibi hissediyorum.
Mehrdad

3
Size ve Hadley’e saygı göstererek, teklif verileri yalnızca hacim ile ilgili değil. Genellikle teklif verileri 3V ve daha yakın bir zamanda 4V modeli (Gartner tarafından önerilen) aracılığıyla tanımlanır - aşağıdaki Dawny33'ün cevabına bakınız. Bununla birlikte, bazı uzmanlar (Gartner dahil) bir başkasını düşünür ve V'nin işletme değeri anlamına geldiği en önemli V boyutunu tartışırlar . Örneğin, bu yazıya ve bu yazıya bakın .
Aleksandr Blekh 20:15

2
@AleksandrBlekh Yorumunuz hem uzmanlar arasında "Büyük Veri" kriterlerini çevreleyen tartışmalı tartışmalara ilişkin bir tartışma hem de bu konudaki iddialarınızı desteklemek için bazı referanslar içeriyor. Bence bir cevaba çevirmeyi düşünmelisin.
Silverfish

19

Dört V'nin tümünü karşılarsa, bir veri kümesi / akışı Büyük Veri olarak adlandırılır.

  • Ses
  • hız
  • gerçeklik
  • Çeşitlilik

Süreklilik sağlanmadıkça ve veri seti Büyük Veri olarak adlandırılamaz.

Referans için benzer bir cevabım.


Bunu veri bilimcisi olarak söyleyerek; Harita Azaltma çerçevesini gerçekten çok güzel buluyorum. Verilerinizi bölmek, eşlemek ve daha sonra eşleştirici adımının sonuçları tek bir sonuca indirgenir. Bu çerçeveyi gerçekten büyüleyici buluyorum ve veri dünyasına nasıl fayda sağladığını.

Ve bunlar, her gün yaptığım çalışma sırasında veri sorunuyla nasıl başa çıkacağımın bazı yolları:

  1. Sütunlu Veritabanları: Bunlar veri bilimcileri için bir nimettir. Sütunlu veri depom olarak Aws Red Shift kullanıyorum. Karmaşık SQL sorgularının yürütülmesine yardımcı olur ve daha az acı çektirir. Özellikle büyüme ekibim bazı karmaşık sorular sorduğunda gerçekten iyi buluyorum ve "Evet, bir sorgu koştum; bir günde halledelim!" Dememe gerek yok.
  2. Spark ve Harita Çerçevesini Azaltma Çerçevesi: Nedenler yukarıda açıklanmıştır.

Ve bu bir veri deneyinin nasıl yapıldığıdır:

  • Cevaplanması gereken sorun tespit edildi
  • Olası veri kaynakları şimdi listelenmiştir.
  • Boru hatları, verileri yerel veritabanlarından Redshift'e almak için tasarlanmıştır. Evet, Spark buraya geliyor. Bu DB -> S3 -> Redshift veri hareketi sırasında gerçekten işe yarar.
  • Daha sonra Redshift'teki veriler üzerinde sorgulamalar ve SQL analizleri yapılır.

Evet, hiper loglog, vb. Gibi Büyük Veri algoritmaları vardır; ama onları kullanma gereği bulamadım.

Yani evet. Veriler, hipotezi oluşturmadan önce ilk önce toplanır.


5
Bunları kabul ediyorum, ancak Büyük Veri teriminin veriden daha fazlasını kapsadığını düşünüyorum. Aynı zamanda kendisine uygulanan yöntemler ve bu konuda hipotezler üretmeden önce ilk verileri toplayan paradigmadır.
Gumeo

1
@ GuðmundurEinarsson Acelem vardı, bu yüzden kısa sürede size en iyi cevabı vermek istedim. Bu yüzden şimdi, sektördeki büyük verilerle günlük deneyimlerimin iş akışı ve anlayışlarıyla onu düzenledim ve genişlettim.
Dawny33

1
Dört V, burada büyük verilerin kayda değer özellikleri olarak değil, büyük verileri tanımlamak için ters çevriliyor. Bunlardan birkaçı olmadan pek çok örnek büyük verilerden yapılabilir ve bazıları IBM Infographic'de listelenmiştir.
John,

@John Evet, gerçekten de çok şey değişiyor. Ayrıca yeni bir V ( Value ) argümanı da var
Dawny33

1
Değişdiklerini söylemiyorum, bazı özelliklerin açıklamasını yanlış bir tanımlamaya ters çevirdiğinizi söylüyorum. Bir köpekle ilgili sadakat, kahkaha ve yalama gibi önemli şeyleri tanımlayan biri gibi geliyor ve bir başkası gelip bir köpeğin tanımı olduğunu söylüyor. Bununla birlikte, analiz yönünü tersine çevirmeyi düşündüğünüzde daha doğru yolda olduğunuzu düşünüyorum, ancak verilerin bir şekilde eklenmesi gerekiyor. Bunu yapmanın pek çok iyi yolu olduğunu düşünüyorum ve bir tane geliştirdiyseniz çok iyi olurdu.
John,

14

Büyük verilerin tek faydalı tanımı, belirli bir fenomen hakkındaki tüm bilgileri kataloglayan verilerdir . Bununla demek istediğim, ilgili çıkar popülasyonundan örnekleme yapmak ve bu birimler üzerinde bazı ölçümler toplamak yerine, büyük verilerin bütün ilgi popülasyonu üzerindeki ölçümleri toplamaktan geçiyor olmasıdır. Amazon.com müşterileriyle ilgilendiğinizi varsayalım. Amazon.com'un sadece bazı kullanıcıları takip etmekten ya da sadece bazı işlemleri takip etmekten ziyade, tüm müşterilerin alımlarıyla ilgili bilgi toplaması mükemmel bir şekilde mümkün.

Aklıma, verinin bellek boyutuna bağlı olan tanımların bir miktar sınırlı fayda sağlayacağı belirtiliyor. Bu ölçümle, yeterince büyük bir bilgisayar verildiğinde, hiçbir veri aslında büyük veri değildir. Sonsuz derecede büyük bir bilgisayarın ucunda, bu argüman indirgeyici görünebilir, ancak tüketici sınıfı dizüstü bilgisayarımı Google sunucularıyla karşılaştırmayı düşünün. Açıkçası, bir terabaytlık veriyi elemeye çalışırken muazzam bir lojistik sorun yaşamaya başlamıştım, ancak Google bu görevi oldukça kolay bir şekilde idare edecek kaynaklara sahip. Daha da önemlisi, bilgisayarınızın boyutu verinin kendine özgü bir özelliği değildir , bu nedenle verileri yalnızca elinizdeki teknolojiye göre tanımlamak, kollarınızın uzunluğu açısından bir ölçüm mesafesi türüne benzer.

Bu argüman sadece bir formalizm değildir. Karmaşık paralelleştirme şemaları ve dağıtılmış hesaplama platformlarına duyulan ihtiyaç, yeterli bilgi işlem gücüne sahip olduğunuzda kaybolur. Öyleyse , Büyük Veri'nin RAM'e sığmayacak kadar büyük olduğunu kabul edersek (veya Excel'i çökertirse ya da her neyse), o zaman makinelerimizi yükselttikten sonra Büyük Veri durur. Bu aptalca görünüyor.

Ama büyük verilerle ilgili bazı verilere bakalım ve ben buna "Büyük Meta Veri" diyeceğim. Bu blog yazısı önemli bir trend izliyor: mevcut RAM veri boyutlarından daha hızlı artıyor ve kışkırtıcı bir şekilde "Büyük RAM Büyük Veri yiyor" diyor - yani, yeterli altyapıya sahip olursanız, artık büyük bir veri probleminiz yok veri var ve geleneksel analiz yöntemleri alanına geri dönersiniz.

Dahası, farklı temsil yöntemleri farklı boyutlara sahip olacaktır, bu nedenle bellekteki boyutuna atıfta bulunularak tanımlanmış "büyük verilere" sahip olmanın ne demek olduğu tam olarak belli değildir. Verileriniz çok fazla fazla bilgi saklanacak şekilde oluşturulmuşsa (yani, verimsiz bir kodlama seçersiniz), bilgisayarınızın kolayca taşıyabileceği eşiğin sınırlarını kolayca geçebilirsiniz. Peki neden bu özelliğe sahip bir tanım istiyorsun? Aklıma göre, veri setinin "büyük veri" olup olmadığı, araştırma tasarımında etkin seçimler yapıp yapmadığınıza bağlı olmamalıdır.

Bir uygulayıcının bakış açısından, tanımladığım kadarıyla büyük veriler hesaplama gereksinimlerini de taşır, ancak bu gereksinimler uygulamaya özeldir. gözlem için veritabanı tasarımını (yazılım, donanım, organizasyon) düşünmek, çok farklıdır.10 7104107gözlemler ve bu tamamen iyi. Bu aynı zamanda, tanımladığım gibi, büyük verilerin klasik istatistiklerde geliştirdiklerimizin ötesinde özel bir teknolojiye ihtiyaç duymayabileceği anlamına da geliyor: örnekler ve güven aralıkları, ekstrapolasyona ihtiyaç duyduğunuzda hala mükemmel kullanışlı ve geçerli çıkarımsal araçlardır. Doğrusal modeller bazı sorulara mükemmel kabul edilebilir cevaplar sağlayabilir. Ancak tanımladığım kadarıyla büyük veriler yeni teknolojiler gerektirebilir. Belki de yeni verileri, eğitim verilerinden daha fazla öngörücüye sahip olduğunuz veya öngörücülerinizin veri boyutunuzla birlikte büyüdüğü bir durumda sınıflandırmanız gerekir. Bu problemler daha yeni teknolojiler gerektirecektir.


Bir yana, bu sorunun önemli olduğunu düşünüyorum, çünkü tanımların neden önemli olduğunu, yani konuyu kimin için tanımladığınızı açıkça belirtir. Birinci sınıf öğrencileri için ekleme tartışması küme teorisi ile başlamaz, fiziksel nesnelerin sayılmasıyla başlar. "Büyük veri" teriminin kullanımının çoğunun, popüler basında veya istatistik veya makine öğreniminde (örneğin, profesyonel analiz isteyen pazarlama malzemeleri) uzman olmayan kişiler arasındaki iletişimde meydana geldiği benim tecrübem) Modern bilgisayar uygulamalarının şapka kullanabileceği fikrini dile getirerek, sömürülebilecek bir bilgi hazinesi var. Bu hemen hemen her zaman, belki de özel olmasa da, hemen açık olmayan, tüketiciler hakkında bilgi veren veriler bağlamındadır.

Bu nedenle, “büyük verilerin” ortak kullanımını çevreleyen çağrışım ve analiz, aynı zamanda, yeterli bir çıkarım yönteminin uygulanması koşuluyla, verilerin bir insanın yaşamının gizli, gizli veya hatta özel detaylarını gösterebileceği fikrini de taşımaktadır. Medya büyük veriler hakkında rapor verdiğinde, anonimlikte bu bozulma genellikle sürdükleri şeydir - bu "büyük verinin" ne olduğunu tanımlamak bu açıdan biraz yanlış görünmektedir, çünkü popüler basın ve uzman olmayan kişilerin rastgele bir hak için endişeleri yoktur. ormanlar ve vektör makinelerini desteklerler, vb. farklı ölçeklerde veri analizinin zorlukları hakkında da bir fikirleri yoktur. Ve bu iyi.Bakış açılarından kaygı, bilgi çağının sosyal, politik ve yasal sonuçlarına odaklanmaktadır. Medya ya da uzman olmayan kişiler için kesin bir tanım gerçekten yararlı değildir, çünkü onların anlayışı da kesin değildir. (Beni kaçıracağımı düşünme - Ben sadece herkesin her şeyde uzman olamayacağını gözlemliyorum.)


7
Bu. '' Büyük veri 'kavramının kullanımının çoğunun, popüler basında veya istatistik veya makine öğrenmesinde uzman olmayan kişiler (örneğin, profesyonel analiz isteyen pazarlama materyalleri) arasındaki iletişimde meydana geldiği benim deneyimim oldu "
Momo

2
Sanırım son paragrafınla kafasındaki tırnağa çarptın. Popüler basın anlayışı ile istatistik / ML / Veri bilimindeki kişilerin büyük veri terimi hakkında ne düşündükleri arasında çok açık bir fark olduğunu düşünüyorum. Sadece gerçekte ne olduğu konusunda daha net bir fikir birliği olması gerektiğini hissediyorum. Bunun bir nedeni, insanların açıkça kullanılamıyorsa, terimi kullanamayacağı veya kötüye kullanamayacağı bir referansa sahip olmaktır.
Gumeo

1
Sanırım seninle daha çok aynı fikirde olmaya başladım. Özgeçmişin konuyla ilgili ve konuyla ilgilenen kişilerin konuyla ilgili iki sentlerini koydukları bir referans sorusuna ihtiyacı olduğunu düşünüyorum. Burada sorular arıyordum ve bu tartışmanın eksik olduğunu hissettim.
Gumeo

1
Bunun değerli bir konuşma olduğunu düşünüyorum ve soruyu sorduğunuza sevindim! Ve yorumlarımı faydalı bulduğuna sevindim.
Monica'yı

1
Bu cevabı birçok nedenden dolayı seviyorum. Öncelikle, "büyük verilerin" analiz etmek için kullanılan algoritmalarla ilgisi olmadığını vurgulamanın gerçekten önemli olduğunu düşünüyorum. Çoğu 20-30 yaş arasındadır (rastgele orman, doğrusal regresyon vb.) Ve gayet iyi çalışırlar. Sektördeki bazı insanlar "büyük veri" nin yeni algoritmalar ile bir araya geldiğine inanıyorlar, çünkü muhtemelen makine öğrenmenin uzun yıllar boyunca var olduğunu bile bilmiyorlardı. İkincisi, "büyük veri" boyutuyla ilgili değil. 128 Gb RAM'e sahip bir sunucunuz varsa ve her şeyi yalnızca mükemmel olan belleğe sığdırabilirseniz. (devam)
skd

7

görüntü tanımını buraya girin

Büyük Veri konusundaki devasa literatürün çapraz taramasından geçerken, 13 taneye kadar yaklaşık 11 boyuttan 14 taneye kadar "V" terimi topladım:

  • Geçerlik,
  • Değer, kıymet,
  • Değişkenlik / Varyans,
  • Çeşitlilik,
  • Hız,
  • Doğruluğu da / Veraciousness,
  • Canlılık,
  • sanallık
  • Görselleştirme,
  • volatilite,
  • Ses.

14. dönem Vacuity'dir. Son provokatif bir yazıya göre, Büyük Veri Yok . Başlıca noktaları:

  • “Büyük Veri” Büyük Değil
  • Çoğu “Büyük Veri” Aslında Faydalı Değildir
  • [Olmalıyız] Küçük Verilerden Yararlanma

Büyük Veri'nin uygun bir tanımı donanım, yazılım, ihtiyaçlar ve bilgi ile gelişecektir ve muhtemelen sabit bir boyuta bağlı olmamalıdır. Dolayısıyla, Büyük veride ele geçirilebilir tanım : İnovasyon, rekabet ve verimlilik için bir sonraki sınır , Haziran 2011:

"Büyük veri", boyutu tipik veritabanı yazılımı araçlarının yakalama, depolama, yönetme ve analiz etme yeteneğinin ötesinde olan veri kümelerini ifade eder.


1
"Boşluk" başvurulan makalede oldukça zayıf görünüyor. 30GB veri / gün büyük olmadığına (ve bu büyüklüğün tanımın tek bileşeni) olduğuna dair bir ima var. Ayrıca, şirketler, verilerinin gerçekte büyük olmadığı anlamına geldiğinden çok daha büyük olduğunu söyler. Hiçbir yerde verilen büyük tanımı yoktur. Ve "büyük değil" önermek için kullanılan örneklerin hepsi burada listelenen V'lerin çoğuna sahip.
John

"Boşluk" sadece beden için geçerli değildir. Gerçekten de, son bir linerde big'in tanımı, şu anki uygulama durumuyla birlikte geliştiğini ifade eder. Geçmişte büyük olan şey birkaç yıl sonra küçük sayılabilir. Burada, "büyük veri" nin, yukarıdaki çizgi filmde gösterildiği gibi, az maddeli sihirli bir mantra olarak kullanıldığı durum için kullanıyordum.
Laurent Duval

1
14 kriterin hepsinin V harfiyle başlaması ne kadar olası? Hepimiz istatistikler burada insanlarla ilgileniyor, hadi!
Aksakal,

Temel olarak, katılıyorum, bu sadece Büyük veri gibi bir terimin pazarlama alanlarına ait olma ihtimalinin istatistiklerden daha fazla olduğunu göstermek içindi. Ancak okuduğum terimlerin "koleksiyonunu" paylaşmak istedim. O 3V ardından 5V ile başlamış ve bazen olarak 7 vs. olanlar terim can belli belirsiz veri birinde yardım nokta özellikleri vardır
Laurent Duval

4

İnsanlar Büyük Veri'de büyük bir niteleyiciyi belirledi . Ancak, boyut bu terimin bileşenlerinden yalnızca biridir (etki alanı). Bu veri seti oldu bu yeterli değil büyük de anlamak ve analiz etmek ve hatta süreci zor ihtiyacım büyük veri senin sorunun (domain) aramak için. Bazıları bu özelliği yapılandırılmamış olarak nitelendirir, ancak sadece farklı parçalar ve veri unsurları arasındaki açık olmayan ilişkinin yapısı değildir.

Yüksek enerji fizikçilerinin CERN gibi yerlerde çalıştığı veri setlerini göz önünde bulundurun . Büyük Veri terimi oluşturulmadan önce yıllarca petabayt boyutunda verilerle çalışıyorlar . Ancak şimdi bile bildiğim kadarıyla bu büyük veriyi aramıyorlar. Neden? Veriler oldukça düzenli olduğundan, onunla ne yapacaklarını biliyorlar. Henüz her gözlemi açıklayamayabilirler, bu yüzden yeni modeller üzerinde çalışıyorlar vs.

Şimdi Büyük Veri olarak CERN'deki LHC'den birkaç saniye içinde üretilebilecek büyüklükteki veri setleriyle ilgili problemleri diyoruz. Bunun nedeni, bu veri setlerinin genellikle farklı formatlardaki çok sayıda kaynaktan gelen, veriler arasındaki belirsiz ilişkiler ve işletme için belirsiz değerlerden kaynaklanan veri unsurları olmasıdır. Sadece 1TB olabilir, ancak tüm ses, vidio, metinler, konuşmaları vb. İşlemek çok zor. Bu nedenle, karmaşıklık ve kaynaklar açısından bu CERN'in verilerinin petabaytlarını aşmaktadır. Veri setlerimizde fark edilebilir yararlı bilgiler olup olmadığını bile bilmiyoruz.

Bu nedenle, Büyük Veri sorunu çözme, ayrıştırmayı, bilinmeyen değere sahip veri öğelerini çıkarmayı ve sonra bunları birbirine bağlamayı içerir. Bir görüntüyü "Ayrıştırma", kendi başına büyük bir sorun olabilir. Diyelim ki, insanların acıkmaya alıp almadığını ve yayaların yol açtığı trafik kazalarını etkileyip etkilemediğini görmeye çalışan şehrin sokaklarından CCTV görüntüleri arıyorsunuz. Bir ton video var, yüzleri buluyorsunuz, duygularını ifadelere göre ölçmeye çalışıyorsunuz, ardından bunu hava durumunu (ön değerlendirme, sıcaklık) ve trafik sıkışıklığını kontrol ederken kaza sayısını veri setleri, polis raporları vb. Bu farklı türdeki bu büyük veri kümelerini destekleyen ve verileri verimli bir şekilde birbirine bağlayabilen depolama ve analitik araçlara ihtiyacınız vardır.

Büyük Veri, karmaşıklığın hem büyüklüğünden hem de içindeki yapı ve bilginin karmaşıklığından kaynaklandığı karmaşık bir analiz sorunudur.


İyi giriş. LHC ile CCTV veri problemi arasında verdiğiniz karşıtlık, insanların sıklıkla özlediği bir şey.
Gumeo

3

İnsanların Büyük Veri'nin ne olduğu konusunda kafalarının karışmasının sebebi, faydalarını görmemek. Büyük Verilerin (teknik) değeri, yalnızca toplayabileceğiniz veri miktarına değil, aynı zamanda sonuçta daha önemli olan Tahmine dayalı Modellemeye de bağlıdır:

  1. Tahmini Modelleme , istatistik ve tahminleri yapma biçimimizi tamamen değiştirdi, bize verilerimiz hakkında daha fazla fikir verdi, çünkü yeni modeller, yeni teknikler eğilimleri daha iyi algılayabilir, verilerin sesleri "çok" boyutlu veritabanını yakalayabilir. Veri tabanımızda ne kadar büyük boyut varsa, iyi modeli yaratma şansımız o kadar artar. Tahmini Modelleme, Big Data'nın değerinin kalbidir.
  2. Büyük Veri (veri büyüklüğü açısından) ön adımdır ve Öngörülen Modellemeye şu şekilde hizmet etmek için vardır: veritabanını aşağıdakilerle ilgili olarak zenginleştirin: 1. yordayıcı sayısı (daha fazla değişken), 2. gözlem sayısı.

Daha fazla prediktör çünkü şimdi daha önce elde edilmesi mümkün olmayan verileri yakalayabiliyoruz (sınırlı donanım gücü nedeniyle, yapılandırılmamış veriler üzerinde çalışmak için sınırlı kapasite). Daha fazla öngörücü, önemli öngörücülere sahip olmak için daha fazla şans anlamına gelir; yani daha iyi bir model, daha iyi bir tahmin, işletme için daha iyi bir karar alınabilir.

Daha fazla gözlem modeli sadece zaman içinde daha sağlam kılmakla kalmaz, aynı zamanda modelin gerçeklikte sunulabilecek / üretilebilecek her olası modeli öğrenmesine / tespit etmesine yardımcı olur.


3

Büyük Veri ile ilgili zıt anlamlı olan (muhtemelen Küçük Veri?) Zor olan şey bir süreklilik olmasıdır. Büyük veri insanları spektrumun bir tarafına gitti, küçük veri insanları diğerine gitti, ama kumda herkesin aynı fikirde olabileceği net bir çizgi yok.

İkisi arasındaki davranış farklılıklarına bakardım. Küçük veri durumlarında, "küçük" bir veri kümesine sahip olursunuz ve elinizden geldiğince her veri noktasından mümkün olduğunca fazla bilgi sıkıştırmanızı istersiniz. Daha fazla veri alın, daha fazla sonuç alabilirsiniz. Ancak, daha fazla veri almak pahalı olabilir. Birinin topladığı veriler, ilginç davranışları taramak için kısmi bir test faktörü yapmak gibi matematiksel modellere uyacak şekilde kısıtlanır.

Büyük veri durumlarında, "büyük" bir veri kümesine sahipsiniz, ancak veri kümeniz kısıtlı olma eğiliminde değil. Genellikle analizlerinizi kolaylaştırmak için müşterilerinizi bir latin kare mobilya satın almaya ikna edemezsiniz. Bunun yerine, kötü yapılandırılmış verilerin gobileri ve gob'leri olma eğilimindedir. Bu problemleri çözmek için amaç, "en iyi veriyi seç, ve elinden geleni yap." Hedef, “her bir veri noktasından küçük bir smidgen çıkarabilirseniz, toplam büyük ve derin olacaktır” çizgileri boyunca daha fazla olma eğilimindedir.

Bunların arasında orta büyüklükte veri kümeleri tamam bir yapıya sahip. Bunlar "gerçekten zor sorunlar" dır, bu yüzden şu anda iki kampa girme eğilimindeyiz: biri sonda her bir parçayı sıkıştıran küçük veriye sahip, diğeri de her veri noktasının kendi kendine parlamasına izin vermeye çalışan büyük veriye sahip sağ. İlerlerken, daha büyük veri setlerine adapte olmaya çalışan daha küçük veri işlemlerini ve daha fazla yapılandırılmış veriye sahip olmaya adapte olmaya çalışan daha büyük veri işlemlerini görmeyi bekliyorum.


Küçük verilerin karakterizasyonu, Bem'in analiz konusundaki kitabına çok benziyor. Lütfen bunun eleştirilerini inceleyin, çünkü gelecekteki veri toplamanın temelini oluşturan özel araştırmalar dışındaki küçük veri kümelerini tedavi etmenin uygun olmayan bir yolu.
John

@John Onlara bakmak zorunda kalabilirim. Eleştiriler, bir sürekliliği tanımlamak için karakterizasyonu bile kullanamadığım için yeterli mi?
Cort Ammon

Buraya girmek uzun gerçekten ama temel mesaj yok olmasıdır değil küçük verilerle dışarı her bir veri noktasının size geleni sıkın. Belki de google Gelman ve Forking Paths; veya deneyci serbestlik dereceleri. Küçük ve büyük veri analizi hakkında farklı düşünmelisiniz, sadece bir süreklilik noktası olarak değil.
John,

3

Büyük verileri tanımlamak için gerekli üç bileşen olduğunu söyleyebilirim: analizin yönü, popülasyona göre verilerin boyutu ve hesaplama problemlerine göre verilerin boyutu.

Sorunun kendisi, veriler bulunduktan sonra hipotezlerin geliştirildiğini ortaya koymaktadır. "Toplanan" kelimesini kullanmıyorum, çünkü "toplanan" kelimesinin bir amaç için ima ettiğini ve verilerin o zaman bilinen hiçbir amaç için bulunmadığını düşünün. Toplama genellikle büyük verilerin içinde bir sorunun hizmetinde mevcut verileri bir araya getirerek gerçekleşir.

İkinci önemli bölüm, yalnızca post-hoc analizinin, hangisinin daha küçük veri kümeleriyle keşif analizi olarak adlandırılacağına ilişkin herhangi bir veri olmadığıdır. Ondan toplanan tahminlerin, daha küçük birçok örnek konunun göz ardı edilebileceği tahminlerine yeterince yakın olduğuna inanılması için yeterli büyüklükte olması gerekir. Bu nedenle, şu anda alanda çoklu karşılaştırma düzeltmelerine doğru bir itme olduğuna dair biraz endişeliyim. Tüm nüfusa sahipseniz ya da geçerli olduğuna inanmak için iyi bir nedeniniz olduğunu düşündüğünüz bir yaklaşım varsa, bu tür düzeltmeler yapılmalıdır. Bazen “büyük verileri” gerçekten küçük bir örneğe (örneğin, büyük lojistik regresyonlar) dönüştüren sorunların ortaya çıktığını fark etmeme rağmen, büyük bir örneklemin belirli bir soru için ne anlama geldiğini anlıyoruz. Çoklu karşılaştırma sorularının birçoğu bunun yerine etki büyüklüğü sorularına yönlendirilmelidir. Ve elbette, çoğu büyük veride olduğu gibi, alfa = 0,05 olan testleri kullanacağınız tüm fikir saçmadır.

Ve son olarak, küçük topluluklar kalifiye değil. Bazı durumlarda küçük bir popülasyon vardır ve bunlardan biri kolayca incelenmesi ve ilk iki kriterin karşılanmasına izin verilmesi için gerekli tüm verileri toplayabilir. Verilerin hesaplama problemi haline gelmesi için yeterli büyüklükte olması gerekir. Bu nedenle, bazı yönlerden "büyük verilerin" geçici bir vızıltı kelimesi ve belki de kesin bir tanım arayışı içinde kalıcı bir fenomen olabileceğini kabul etmeliyiz. Şimdi "büyük verileri" büyük kılan şeylerden bazıları birkaç yıl içinde ortadan kalkacak ve bilgisayar kapasitesine dayalı Hadley'in tanımları ilginç görünecek. Ancak başka bir düzeyde hesaplama problemleri, bilgisayar kapasitesi ile ilgili olmayan veya belki de asla ele alınamayan bilgisayar kapasitesi ile ilgili sorulardır. Bence bu anlamda tanımlamanın sorunları "

Bu alan için zor bir hesaplama probleminin ne olduğuna dair örnekler veya kesin tanımlar sağlamadığımı belirtebilirim (genellikle compci ve bazılarında uygulayamayacağım bazı örnekler vardır). Hiçbir şey yapmak istemiyorum çünkü bunun biraz açık kalması gerektiğini düşünüyorum. Zamanla, birçok insanın topladığı işler, bu noktada donanım geliştirmekten, donanım geliştirmekten daha sık bu işleri kolaylaştırmak için bir araya geliyor. Belki de bu son gerekliliği daha sağlam bir şekilde sınırlandırmak için alan daha tam olarak olgunlaşmak zorunda kalacak, ancak kenarlar her zaman bulanık olacaktır.


giriş için teşekkürler! Bu konu için değerli bilgiler sağladığını düşünüyorum. Nüfusun yer aldığı verilerin büyüklüğünün burada bir şekilde göz ardı edildiğini düşünüyorum.
Gumeo

1

Wikipedia oldukça net bir tanım sağlar

Büyük veri, geleneksel veri işleme uygulamalarının yetersiz kaldığı kadar büyük veya karmaşık veri kümeleri için kullanılan geniş bir terimdir. (kaynak https://en.wikipedia.org/wiki/Big_data )

bildiğim diğer basit tanım

Bilgisayar belleğine sığmayan veriler.

Ne yazık ki bunun için referans hatırlamıyorum. Her şey bu tanımlardan doğar - bir şekilde büyük miktarlarda veri ile uğraşmak zorundasınız.


0

Büyük Veri'nin ya büyük veri setinde (milyonlarca ve / veya milyarlarca satır) çalışmak ya da şimdi her yerde toplayabileceğiniz geniş veri kaynakları hakkında bilgi / kalıp bulmaya çalışmak için bir referans olduğunu eklerdim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.