Örnekleme 'büyük veri' zamanında önemli midir?


54

Ya da daha fazla "olacak" mı? Büyük Veri , istatistikleri ve ilgili bilgileri daha da önemli hale getirir ancak Örnekleme Teorisinin altını çizer.

Bu yutturmaca 'Büyük Veri' etrafında gördüm ve "neden" her şeyi analiz etmek isteyeyim merak ediyorum yardımcı olamaz ? "Örnekleme Teorisi" nin tasarlanması / uygulanması / icat edilmesi / keşfedilmesi için bir sebep yoktu mu? Veri setinin tüm 'popülasyonunu' analiz etme noktasını anlamıyorum. Sırf yapabileceğin için yapman gerektiği anlamına gelmiyor (Aptallık bir ayrıcalık ama kötüye kullanmamalısın :)

Yani benim sorum şu: Tüm veri setini analiz etmek istatistiksel olarak anlamlı mı? Örnekleme yaparsanız, yapabileceğiniz en iyi hatayı en aza indirmek olacaktır. Ancak bu hatayı azaltmanın maliyeti buna gerçekten değer mi? "Bilginin değeri" gerçekten büyük ölçüde paralel bilgisayarlar üzerinde büyük verilerin analizinde kullanılan çabaya, zaman maliyetine vb. Değer mi?

Biri tüm popülasyonu analiz etse bile, sonuç en iyi ihtimalle doğru olma ihtimalinin yüksek olduğu bir tahmin olacaktır. Muhtemelen örneklemeden biraz daha yüksek (ya da çok daha fazla olurdu mı?) Nüfusu analiz etmekten ve örneği analiz etmekten edinilen bilgiler geniş ölçüde farklılık gösterir mi?

Yoksa "zaman değişti" olarak mı kabul etmeliyiz? Bir aktivite olarak örnekleme, yeterli hesaplama gücü verildiğinde daha az önemli olabilir :)

Not: Bir tartışma başlatmaya çalışmıyorum ama neden büyük verinin neden yaptığını anlamak (yani her şeyi analiz etmek) ve örnekleme teorisini dikkate almamak (ya da değil mi?) Anlamak için bir cevap arıyorum.


1
Ayrıca bakınız: stats.stackexchange.com/q/22502/7828 - büyük verilerden geçerli sonuçlar nasıl çıkarılır ?
Anony-Mousse

2
(+1 uzun zaman önce) Anlayışlı sorularınızı okumaktan her zaman zevk alıyorum. Onlar bu siteye gerçek bir varlıktır.
kardinal

1
@cardinal - Yorumunuz için içtenlikle teşekkür ederim. Senden gelen çok şey ifade ediyor.
Doktora,

Yanıtlar:


29

Bir kelimeyle, evet . Örneklemenin "büyük veri" dünyası içinde ve olmasın uygun olduğu hala net durumlar olduğuna inanıyorum, ancak büyük verinin doğası kesinlikle örnekleme yaklaşımımızı değiştirecek ve altta yatanın neredeyse tam gösterimi olan daha fazla veri setini kullanacağız. nüfus.

Örneklemede: Koşullara bağlı olarak, örneklemenin yapılması uygun bir şey olup olmadığı neredeyse her zaman açık olacaktır. Örnekleme doğası gereği yararlı bir faaliyet değildir; bu bizim yaptığımız şeydir, çünkü veri toplamayı uygulamanın maliyetini değiştirmemiz gerekiyor. Nüfusları karakterize etmeye çalışıyoruz ve nüfus hakkında veri toplamak ve analiz etmek için uygun yöntemi seçmemiz gerekiyor. Örnekleme, bir veri toplama veya veri işleme yönteminin marjinal maliyetinin yüksek olduğu zaman anlamlıdır. Nüfusun% 100'üne ulaşmaya çalışmak, bu durumda kaynakların iyi bir şekilde kullanılması değildir, çünkü rastgele örnekleme hatasını küçümseyen iyileştirmeler yapmaktan ziyade, yanıt vermeyen önyargı gibi şeyleri ele almakta genellikle daha iyi olursunuz.

Büyük veri farklı mı? "Büyük veri", uzun zamandır sorduğumuz soruların birçoğuna hitap ediyor, ancak "yeni" olan şey, veri toplamanın varolan, bilgisayar aracılı bir süreçten kaynaklanıyor olması, bu nedenle verilerin toplanmasının marjinal maliyeti aslında sıfır. Bu, örnekleme ihtiyacımızı önemli ölçüde azaltır.

Hala örneklemeyi ne zaman kullanacağız? Eğer "büyük veri" popülasyonunuz sorun için doğru popülasyon ise, o zaman sadece birkaç durumda örnekleme uygulayacaksınız: ayrı deney grupları çalıştırma ihtiyacı ya da çok fazla veri hacmi yakalamak ve işlemek için çok büyükse (çoğu Bugünlerde milyonlarca veri satırını kolaylıkla idare edebiliyoruz, bu yüzden buradaki sınır daha da ileri gidiyor. Sorunuzu reddediyor gibi görünüyorsam, muhtemelen veri toplama hacminin toplama veya işleme aşamalarında endişe duyduğu durumlarla nadiren karşılaştığım için, çoğu kişinin bildiği halde

Bana göre zor görünen durum, "büyük veri" popülasyonunuzun hedef popülasyonunuzu mükemmel bir şekilde temsil etmediği durumdur, bu nedenle tradeoflar portakallara daha fazla elmalardır. Bölgesel bir ulaşım plancısı olduğunuzu ve Google'ın size yardımcı olmak için Android GPS navigasyon günlüklerine erişmenizi sağladığını söyleyin. Veri setinin kullanımı hiç şüphesiz olsa da, nüfus düşük gelirli, toplu taşıma kullanıcıları ve yaşlılara karşı muhtemelen sistematik olarak önyargılı olacaktır. Böyle bir durumda, rastgele bir ev örneğine gönderilen geleneksel seyahat günlükleri, daha pahalı ve daha az olmasına rağmen, yine de veri toplamada üstün bir yöntem olabilir. Ancak, bu sadece "büyük verilere karşı örnekleme" sorunu değil, '


22

Mobil cihazlar tarafından üretilen çok fazla Büyük Veri çok fazla olsa da, bunun içinde çok az kullanılabilir veri var. Kentsel seyahat düzenini oturaklı kullanarak tahmin etmek istiyorsanız, tahmini akışlardaki büyüklük sırasına göre kapalı olabilirsiniz. Daha da kötüsü, bu akışları fazla tahmin edip etmediğiniz veya küçümsemediğinizi bilemezsiniz. Manyak asıllı oturaklı kullanıcıların kentsel seyahat modellerinin delice kesin bir resmini elde edebilirsiniz, ancak herkes çalışan bir akıllı telefonu tutması için gerekli olmadıkça (1) her zaman oturaklı uygulamayı çalıştırmak ve (3) kayıt olmak için 10 dakikadan daha uzun süre kaldıkları herhangi bir yerde (yani, bir elektronik nüfus sayımı alın; liberterlerin Google ve Facebook hakkında hakkınızdaki her şeyi bilerek şikayet etmesine izin verin), verileriniz bilinmeyen önyargılar içerecek ve elektronik Dewey'leriniz gerçek kelimeyi yenmeye devam edecek Trumans (tıklanabilir):


(kaynak: whatisasurvey.info )

Bir şey olursa, bu tarihin kendisinin de tekrarlanacağını umardım ve Büyük Veri'den üretilen bazı büyük "bira + bebek bezleri" tahminleri, daha katı örnekleme yaklaşımları kullanan araştırmacılar tarafından bozulur. Öyle şaşırtıcı olasılık tabanlı anketler bile düşen yanıt oranlarına rağmen doğru kalması.


1
(+1) Fakat klişeleşmiş bir kullanıcı, paranoidlerin antitezi olamaz . ;-)
kardinal

1
Evet ... muhtemelen kötü bir terim. Bunu manyak olarak değiştirmeme izin ver!
StasK

2
Büyük veri suçlu değil. Bu nasıl kullanıldığı. Bilgiye sahip ve uygun şekilde uygulandığında çok yardımcı olabilir. Veri madenciliği fena değil.
Michael Chernick

Trafik bilgisi için büyük verilerin kullanımında büyük nokta. Google ve Apple gibi şirketler zaten bunu yaptığını düşündüğüm için, bunun büyük kitlenin (şu anda mevcut) büyük verilerin bazı izleyiciler için yetersiz kaldığının harika bir örneği olduğunu düşünüyorum ve cevabımı da buna dahil etmeye çalıştım.
Jonathan

@Michael, elbette haklısın. Veriler kir ucuzdur, ancak kullanılabilir bilgiyi elde etmenin yolları aşağı inmez - bir şey varsa, artık yararlı bilgiyi elde etmek için daha fazla veriyi elemek zorunda kaldıklarından, yükseliyorlar.
StasK

21

Ne zaman bir kişi istatistiksel çıkarım teknikleri uygularsa, hangisinin sonuç çıkarmayı amaçladığı nüfus için net olmak önemlidir . Toplanan veriler çok büyük olsa bile, nüfusun sadece küçük bir kısmı ile ilgili olabilir ve bütünü temsil etmeyebilir.

Örneğin, belirli bir sektörde faaliyet gösteren bir şirketin belirli bir ülkedeki müşterileri hakkında 'büyük veri' topladığını varsayalım. Bu verileri o ülkedeki mevcut müşterileri hakkında sonuç çıkarmak için kullanmak istiyorsa, örnekleme çok ilgili olmayabilir. Bununla birlikte, daha geniş bir popülasyon hakkında - mevcut müşteriler veya potansiyel olarak başka bir ülkedeki müşteriler gibi - sonuçlara varmak istiyorsa, o zaman, verilerin toplandığı müşterilerin ne kadar temsilci olduğunu - belki de gelir, yaşlarında dikkate almak çok önemlidir. , cinsiyet, eğitim, vb - büyük nüfusun.

Zaman boyutunun da dikkate alınması gerekiyor. Amaç, öngörüleri desteklemek için istatistiksel çıkarım kullanmaksa, o zaman popülasyonun geleceğe uzanması gerektiği anlaşılmalıdır. Eğer öyleyse, o zaman yine, yine de elde edilebilecek olanları temsil eden durumlarda, büyük olan veri kümesinin elde edilip edilmediğinin göz önüne alınması zorunlu hale gelir.


Sitemize Hoşgeldiniz Adam! (Düzenli olarak check-in yaparsanız, ilgi alanlarınızı geometri ve sayı teorisinde kullanmak için ara sıra fırsatlar bulacaksınız . :-)
whuber

Nüfusu göz önünde bulundurma gereği hakkında harika bir nokta! Bu, insanların büyük veriler konusunda tembelleşebilmelerinin en büyük yollarından biri.
Jonathan

“Toplanan veriler çok büyük olsa bile, nüfusun sadece küçük bir kısmı ile ilgili olabilir ve bütünü çok temsil etmeyebilir.” Bence bu cümle tek başına birçok soruya cevap veriyor.
Bemipefe

13

Büyük veri / ML çılgınlığı ile ilgili gördüğüm kadarıyla, örnekleme ve örneklemenin alındığı nüfusu düşünmek her zamanki kadar önemlidir - ama daha az hakkında düşünmek.

Stanford ML sınıfını "denetliyorum" ve şu ana kadar nüfus çıkarımından söz eden regresyon ve sinir ağlarını ele aldık. Bu sınıf 6 kişiden fazla insan tarafından alındığından, artık örnekleme fikri olmadan herhangi bir verinin nasıl uygun olacağını bilen çok sayıda insan var.


3
Tamamen katılıyorum. Makine Öğrenimi (çoğunlukla uygulayıcılar ve programcılar), Büyük Veri ve "veri bilimi" ile ilgili mevcut çılgınlığı gözlemlerken, insanların örnekleme, çıkarsama, istatistiksel muhakeme ve anlamı tamamen göz ardı etmeleri ve kör olarak ne olursa olsun uygulamak için feda etmeleri çok saçmadır. algoritma üzerinde kalça. Bunu, çapraz onaylanmış sorular ve bazı cevaplarla burada görebilirsiniz. Bu yüzden, yakında modası geçecek ya da istatistiksel epistemolojiyi ödünç alacağına ve böylece bir istatistik dalı haline geleceğine inanıyorum (bu şekilde de görüyorum).
Momo

2
Eğer bu ML sınıfı bir süre önce denetlediklerime benziyorsa, Hoeffding eşitsizliğinden hemen önce, eğitim verilerinin popülasyondan mükemmel bir şekilde rastgele bir örnek olduğuna dair teknik bir varsayım vardı. Ne yazık ki, bu neredeyse hiç bir zaman, en azından benim deneyimimde ve kurs boyunca tekniklerin uygulama örneklerinde böyle değildir. "Büyük veri" kullandığınızda hala durum böyle değil.
Douglas Zare

12

Evet, örnekleme önemlidir ve ilgili kalacaktır. Alt satırda, istatistiksel bir tahminin doğruluğu, genellemek istediğimiz popülasyonun değil, genellikle örneklem büyüklüğünün bir fonksiyonudur. Bu nedenle, 1000 katılımcıdan bir numuneden hesaplanan ortalama veya ortalama bir oran, popülasyonun büyüklüğünden (veya “ne kadar büyük” olduğu dikkate alınmaksızın) belirli bir doğruluk tahmini (sonuç verdiğimiz popülasyona göre) sağlayacaktır. büyük veri ”dir.

Şunu söylemiştim: İlgili ve belirtilmesi gereken belirli konular ve zorluklar var:

  1. İyi bir olasılık örneği almak her zaman kolay değildir. Teorik olarak, popülasyonda genellemek istediğimiz (hakkında çıkarım yapmak istediğimiz) her birey, seçilme ihtimalinin bilinen bir olasılığına sahip olmalıdır; ideal olarak olasılık aynı olmalıdır (eşit olasılık örneği veya EPSEM - Eşit Seçim Olasılığı). Bu önemli bir husustur ve örnekleme sürecinin, genelleme yapmak istediği nüfusun üyelerine nasıl seçim olasılıkları atayacağına dair net bir anlayış olmalıdır. Örneğin, Twitter'dan türeyen, twitter hesabı olmayanlar da dahil olmak üzere geniş popülasyondaki genel duyguların doğru tahminlerini besleyebilir mi?
  2. Büyük veri çok karmaşık detaylar ve bilgiler içerebilir; Başka bir deyişle, konunun örnekleme değil, (mikro-) segmentasyonu, konuyla ilgili küçük bir gözlem alt kümesi için doğru detayları ortaya çıkarmaktır. Buradaki zorluk örnekleme değildir, ancak değerli içgörülere dönüştürülebilen en doğru harekete geçirilebilir bilgiyi veren büyük verilerin spesifik katmanlaşmasını ve bölümlenmesini tanımlamaktır.
  3. Bir başka genel fikir ölçüm kuralı, örnekleme dışı hataların ve önyargıların genellikle örnekleme hatası ve önyargılardan çok daha büyük olmasıdır. Sırf ifade veren yanıtlayanların yüz milyonlarca kaydını işlediğiniz için, özellikle ilgili ankete ilişkin sorular iyi yazılmış değilse ve önyargı oluşturduysanız, yalnızca 1000 kişilik bir alt örneğe ait verileriniz varsa sonuçları daha kullanışlı yapmaz.
  4. Bazen örnekleme gereklidir: Örneğin, eğer bir kişi tüm verilerden bir tahmine dayalı model oluştursa, onu nasıl doğrularsınız? Farklı modellerin doğruluğu nasıl karşılaştırılır? “Büyük veri” (çok büyük veri havuzları) olduğunda, farklı örnekler için çoklu modeller ve modelleme senaryoları oluşturabilir ve diğer bağımsız örneklerde bunları doğrulayabilir (deneyebilirsiniz). Biri tüm veriler için bir model oluşturacak olsaydı - nasıl biri doğrulardı?

'Büyük Veri Devrimi' bölümümüzü buradan inceleyebilirsiniz.


1
Sitemize Hoşgeldiniz, Kyra!
whuber

3

Birçok büyük veri yöntemi aslında örnekleme etrafında tasarlanmıştır.

Soru şu hatta daha fazla olmalı:

Büyük veri ile sistematik örneklemeyi kullanmamalı mıyız ?

"Büyük veri" öğelerinin çoğu hala oldukça taze ve bazen saf. Örneğin K-araçları, trivally paralelleştirilebilir ve bu nedenle “büyük veriler” için çalışır (sonuçlar hakkında konuşmayacağım, çok anlamlı değiller ve muhtemelen bir örnek üzerinde elde edilenlerden çok farklı değiller!). Bildiğim kadarıyla k-Mahout’taki uygulamanın yaptığı şey bu.

Bununla birlikte, araştırma saf paralelliğin ötesine geçiyor (yine de büyük miktarda yineleme gerektirebilir) ve sabit sayıda yinelemede K-aracı yapmaya çalışıyor . Bunun için örnek:

  • MapReduce
    Ene, A. ve Im, S. ve Moseley kullanarak hızlı kümeleme , B.
    Bilgi keşfi ve veri madenciliği konulu 17. ACM SIGKDD uluslararası konferansının bildirileri, 2011

Ve tahmin et ne, onların yaklaşımı ağır örneklemeye dayanıyor .

Sonraki örnek: Karar ormanları . Bu esasen: Veri setinden birkaç örnek için, her biri için bir karar ağacı oluşturun. Yine önemsiz şekilde paralelleştirilebilir: her numuneyi ayrı bir makineye koyun. Ve yine, örnekleme temelli bir yaklaşımdır.

Bu nedenle örnekleme, büyük veri yaklaşımlarının en önemli bileşenlerinden biridir!

Ve bunda yanlış bir şey yok.


2

Çapraz doğrulama, ML / büyük verilerde oldukça önemli olan alt örneklemenin spesifik bir örneğidir. Daha genel olarak, buradaki diğer insanların da belirttiği gibi, büyük veriler hala genellikle bir nüfus örneğidir.

Ancak, OP'nin gözlemsel verilere karşı kontrollü bir deney için geçerli olduğu için özellikle örneklemeye gönderme yapabileceğini düşünüyorum. Genellikle büyük veriler ikincisi olarak düşünülür, ancak bana göre en azından istisnalar var. Randomize denemeler, A / B testleri ve e-ticaret ve sosyal ağ ayarlarında çok silahlı haydutları "büyük veri ayarlarında örnekleme" olarak düşünürdüm.


1

Büyük Veri'nin popülerlik kazandığı alanlarda: Arama, Reklam, Amazon, Netflix gibi Tavsiye Sistemleri, tüm veri setini keşfetmek için çok büyük bir teşvik var.

Bu sistemlerin amacı, popülasyonun her bir üyesine öneri / öneriler sunmaktır. Ayrıca, çalışılmakta olan niteliklerin sayısı muazzamdır. Ortalama bir web analitik sistemi, tıklama oranını, bir sayfadaki "sıcak alanların" termal izlenmesini ", sosyal etkileşimleri vb. Ölçebilir ve bunları önceden belirlenmiş çok sayıda hedefle karşılaştırabilir.

Daha da önemlisi, Büyük Veri'nin artık her yerde olduğu yerlerin çoğu "çevrimiçi" veri akışlarıdır, yani veri sürekli eklenir / güncellenir. Tüm bu nitelikleri kapsayan, içsel bir önyargı olmadan ve hala ümit verici sonuçlar veren (daha iyi marjlar okuyan) bir örnekleme şeması oluşturmak zordur.

Örnekleme hala anketler, tıbbi denemeler, A / B testi, kalite güvencesi ile ilgili kalır.

Özet olarak, çalışılacak popülasyon çok büyük olduğunda ve popülasyonun makroskopik özellikleriyle ilgileniyorsanız, örnekleme çok yararlıdır. Sistemin mikroskobik özelliklerinden yararlanmak için% 100 kontrol (Büyük Veri) gereklidir

Bu yardımcı olur umarım :)


Demek istediğin, henüz sahip olmadıkları verilere göre sahip oldukları verilerin ötesine genelleme yapmak istememeleri değil mi? Veya örneklerinin o kadar büyük olduğunu düşündüklerini, bu konular hakkında endişelenmeleri gerekmediğini mi? Ya da altta yatan parametrelerin zaman içinde değişeceği, bu yüzden yeni veriler akarken güncellenmeye devam ettiği sürece önemli değil mi?
gung - Reinstate Monica

Mesele, örneğin büyüklüğü değil, çok sayıda özniteliği olan bir veri kümesi için tarafsız bir örnek oluşturma problemidir. Genelleme genellikle veri setinin bir kısmı üzerinde eğitilmiş Makine Öğrenme algoritmaları ile yapılır. Sürekli olarak gelen çevrimiçi veri akışları, ikincil örnekleme sorununu yapar, çünkü toplu güncellemeler parametreleri değiştirmek için kullanılabilir.
rrampage
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.