“Büyük veriler” den geçerli sonuçlar nasıl çıkarılır?


40

Medyada her yerde "Büyük veri" var. Herkes "büyük veri" nin 2012 için büyük bir şey olduğunu söylüyor, örneğin KDNuggets 2012 için sıcak konuları araştırıyor . Ancak, burada derin endişelerim var. Büyük verilerle, herkes bir şey çıkarmaktan mutlu görünüyor . Fakat hipotez testi ve temsili örnekleme gibi tüm klasik istatistiksel ilkeleri ihlal etmiyor muyuz?

Aynı veri seti hakkında sadece tahminlerde bulunduğumuz sürece, bu iyi olmalı. Bu yüzden, Twitter kullanıcı davranışını tahmin etmek için Twitter verilerini kullanırsam, bu muhtemelen tamamdır. Bununla birlikte, örneğin Tahminleri tahmin etmek için Twitter verilerini kullanmak, Twitter kullanıcılarının tüm popülasyon için temsili bir örnek olmadığı gerçeğini tamamen ihmal eder. Ayrıca, çoğu yöntem aslında gerçek bir “taban” havası ile bir kampanya arasında ayrım yapamayacaktır. Ve twitter kampanyalarla doludur. Bu yüzden Twitter'ı analiz ederken, kampanya ve botları ölçmek için çabucak bitiyorsunuz. (Bkz. Örneğin "Yahoo, Amerika’nın Politik Kazananlarını Tahmin Ediyor"Anketin dolması ve "duyarlılık analizi daha iyi". "Romney, adaylığı kazanma ve Güney Carolina'da birinci dereceyi kazanma olasılığının yüzde 90'ından fazlasına sahipti" (Gingrich'in bu seçimlerde% 40'ı varken)% 28'ini hesapladılar.

Bu kadar büyük verilerin başarısız olduğunu biliyor musunuz ? Kabaca bir bilim adamının 150'den fazla arkadaşlık kuramayacağını tahmin ettiğini hatırlıyorum. Aslında sadece arkadaşça bir sınır sınırı keşfetmişti ...

Twitter verilerinden ya da web'den toplanan herhangi bir "büyük veri" den gelince, çoğu zaman insanların verilerini toplarken ek önyargı getirdiğine inanıyorum. Birkaç kişi Twitter’ın hepsine sahip olacak. Örümceklerinin oluşturduğu belli bir altkümeye sahip olacaklar ve bu da veri setlerinde başka bir önyargı.

Verileri bir test setine bölmek veya çapraz doğrulama yapmak için muhtemelen pek bir faydası yok. Diğer set aynı önyargıya sahip olacak. Ve büyük veriler için, bilgilerimi o kadar fazla "sıkıştırmam" gerekir ki, fazladan giymeme izin vermeyeceğim.

Geçenlerde bu şakayı duydum, dünyada yaklaşık 6 cinsiyet olduğunu keşfeden büyük veri bilimci ile ... ve bunun gerçekleşmesini hayal edebiliyorum ... "Erkek, Kadın, Ork, Kürklü, Evet ve Hayır".

Peki, özellikle “büyük veri” veri setinin dışındaki bir şeyi öngörmeye çalışırken, istatistiksel olarak biraz geçerliliği elde etmek için hangi yöntemleri kullanmak zorundayız?

Yanıtlar:


31

Korkularınız sağlam ve anlayışlı. Yahoo ve muhtemelen birkaç başka şirket kullanıcılar üzerinde rasgele deneyler yapıyorlar ve iyi yapıyorlar. Ancak gözlemsel veriler zorluklarla donuyor. Örneklem büyüklüğü arttıkça sorunların azalması yaygın bir yanılgıdır. Bu, varyans için geçerlidir, ancak n arttıkça yanlılık sabit kalmaktadır. Önyargı büyük olduğunda, çok küçük bir gerçek rasgele örnek veya randomize çalışma 100.000.000 gözlemden daha değerli olabilir.


8
Büyük veri muhtemelen yanlılık varyansı ayrışmasının yardımcı olmadığı bir alandır - veri kalitesi ve veri yönetimi daha önemlidir. Bunlardan sadece çok fazla - biz her veri noktasını veya hatta özel durumları bilmek umut edemez Bunun nedeni
probabilityislogic

24

Deneysel tasarım ve analizde önyargınızı azaltmanıza yardımcı olabilecek bir takım teknikler var, ancak bu yine de her zaman aynı şeye bağlı: Kişinin ne yaptığını bilmek zorunda. Büyük veri analizi, diğer veri analizleriyle aynı problemi taşır; hipotez eksikliğinden muzdariptir.

Açık bir örnek, kademeli değişken seçimiyle çoklu regresyondur. Çok güzel bir söyleyebiliriz, ancak 100 değişkenlerle ölçülen istatistiksel yasalar bazıları olduğunu dikte edecek sıfırdan anlamlı, ilgili katsayı farklıdır olmadığını bakarak değerlendirildiğinde anlamlı bir ilişki olduğunu göstermektedir. Dolayısıyla, veri kümenizdeki değişkenler ne kadar fazlaysa, bazı (anlamsız) bir ilişki gösteren iki tane bulma şansı o kadar fazladır. Veri kümeniz ne kadar büyükse, örneğin küçük bir karıştırıcı etki nedeniyle anlamsız modeller için daha fazla şans. Pek çok modeli test ederseniz (ve sadece bir sürü model olabilen sadece 10 değişken olsa bile), en az bir tane önemli bulmanız çok olasıdır. Bir anlamı var mı? Hayır.

O zaman ne yapmalı? Beynini kullan:

  • Veri toplamadan önce bir hipotez formüle eder ve bu hipotezi test eder. İstatistiklerinizin bir hikaye anlattığından emin olmanın tek yolu bu.
  • Bazı testler yapmadan önce örneklemenizi sınıflandırmak için değişkenlerinizi kullanın. Aptal örnek: Veri kümenizde 1000 erkek ve 100 kadın varsa, ortalama bir popülasyon hakkında konuşmak istiyorsanız, rastgele 50 kişiyi seçin. Bu aslında büyük verilerin işe yaradığı bir şey: Örneklemeniz için fazlasıyla yeterli.
  • Test popülasyonunu iyice tanımlayın, bu nedenle sonuçlarınızın hangi popülasyon için formüle edildiği açıktır.
  • Büyük veri kümenizi keşif amaçlı kullanıyorsanız, bu keşif sırasında elde ettiğiniz hipotezleri yalnızca topladıklarınızın alt kümesi değil, yeni ve farklı bir veri kümesi üzerinde test edin . Ve gerekli tüm önlemleri kullanarak tekrar test edin.

Bunların hepsi açık ve iyi bilinmektedir. Heck, zaten 1984 yılında Rosenbaum ve Rubin , gözlemsel çalışmalarda önyargıyı azaltmak için eğilim puanlarının nasıl kullanılacağını göstermişti ve bu en büyük veri setlerinin en büyüğü: gözlem verileri. Feng ve arkadaşlarının daha yakın tarihli çalışmalarında , Mahalanobis mesafesinin kullanımı da savunulmaktadır. Ve aslında, istatistiksel kahramanlarımdan biri olan Cochran, 1973'te bu sorun hakkında bir inceleme yazdı ! Ya da 1979’da çok değişkenli eşleştirme örneklemesi ve regresyon düzeltmesi yapan Rubin’e ne oldu ?

Bütün bu tekniklerin avantajları ve dezavantajları vardır ve kişi, önyargının azaltılmasının önyargının ortadan kaldırılması ile aynı olmadığını anlamalıdır. Ama eğer farkındaysanız:

  • ne test etmek istiyorsan, ve
  • nasıl yapıyorsun

Büyük veri, sahte sonuçlarla gelmek için bir bahane değil.


'Uygun olmayan' terimini yanlış bir bağlamda kullandığımı belirten @DW'nin (correc) yorumundan sonra düzenlendi.


12
"Veri setiniz ne kadar büyük olursa, anlamsız kıyafetler için daha fazla şans" - Aslında, geriye doğru. Olası model seti ne kadar büyük olursa, fazla takılma olasılığı da o kadar artar (diğerleri eşit olur). Veri kümesi ne kadar büyük olursa , fazla uydurma şansı o kadar küçük olur (diğerleri eşit olur).
DW

@DW Nasıl yani? Aslında, bir simülasyonda mutlak bağımsızlık varsa, küçük ve büyük veri setlerine sahip önemli bir modelde çok fazla şans vardır (basit simülasyon size bunu gösterir). Ne yazık ki, bağımsızlığın mükemmel olduğu bir veri setiyle tanışmadım. Örneğin çok küçük bir karıştırıcı etki yarattığınız an, büyük veri kümelerinin küçük veri kümelerinden daha anlamlı anlamlı sonuçlar vermesi daha olasıdır.
Joris Meys

Güzel cevap - önemli etkiler bulma hakkındaki yorumunuz, “girip çık” model seçim yöntemlerine göre büzülme yöntemleri için iyi bir gerekçe sunar.
olasılık

10
@DW fazladan takma hakkında bir açıklama yapmakta ve doğru gözükmektedir - özellikle veri kümesi büyüdükçe, verilerin alt kümelerinde çapraz doğrulama yapma şansı artmaktadır. Joris Meys, istatistiksel önemi hakkında açıklama yapıyor. Bu da doğru. Ancak büyük veri kümelerinde istatistiksel anlamlılık çok fazladır - önemli olan etki büyüklüğüdür çünkü neredeyse her şey "istatistiksel olarak önemlidir".
zbicyclist

1
@zbicyclist Çok doğru gözlem. DW'yi yanlış yorumladığımı ve fazla terleme terimini yanlış bir bağlamda kullandığımı kabul ediyorum. Düzeltilmiş duruyorum.
Joris Meys
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.