Medyada her yerde "Büyük veri" var. Herkes "büyük veri" nin 2012 için büyük bir şey olduğunu söylüyor, örneğin KDNuggets 2012 için sıcak konuları araştırıyor . Ancak, burada derin endişelerim var. Büyük verilerle, herkes bir şey çıkarmaktan mutlu görünüyor . Fakat hipotez testi ve temsili örnekleme gibi tüm klasik istatistiksel ilkeleri ihlal etmiyor muyuz?
Aynı veri seti hakkında sadece tahminlerde bulunduğumuz sürece, bu iyi olmalı. Bu yüzden, Twitter kullanıcı davranışını tahmin etmek için Twitter verilerini kullanırsam, bu muhtemelen tamamdır. Bununla birlikte, örneğin Tahminleri tahmin etmek için Twitter verilerini kullanmak, Twitter kullanıcılarının tüm popülasyon için temsili bir örnek olmadığı gerçeğini tamamen ihmal eder. Ayrıca, çoğu yöntem aslında gerçek bir “taban” havası ile bir kampanya arasında ayrım yapamayacaktır. Ve twitter kampanyalarla doludur. Bu yüzden Twitter'ı analiz ederken, kampanya ve botları ölçmek için çabucak bitiyorsunuz. (Bkz. Örneğin "Yahoo, Amerika’nın Politik Kazananlarını Tahmin Ediyor"Anketin dolması ve "duyarlılık analizi daha iyi". "Romney, adaylığı kazanma ve Güney Carolina'da birinci dereceyi kazanma olasılığının yüzde 90'ından fazlasına sahipti" (Gingrich'in bu seçimlerde% 40'ı varken)% 28'ini hesapladılar.
Bu kadar büyük verilerin başarısız olduğunu biliyor musunuz ? Kabaca bir bilim adamının 150'den fazla arkadaşlık kuramayacağını tahmin ettiğini hatırlıyorum. Aslında sadece arkadaşça bir sınır sınırı keşfetmişti ...
Twitter verilerinden ya da web'den toplanan herhangi bir "büyük veri" den gelince, çoğu zaman insanların verilerini toplarken ek önyargı getirdiğine inanıyorum. Birkaç kişi Twitter’ın hepsine sahip olacak. Örümceklerinin oluşturduğu belli bir altkümeye sahip olacaklar ve bu da veri setlerinde başka bir önyargı.
Verileri bir test setine bölmek veya çapraz doğrulama yapmak için muhtemelen pek bir faydası yok. Diğer set aynı önyargıya sahip olacak. Ve büyük veriler için, bilgilerimi o kadar fazla "sıkıştırmam" gerekir ki, fazladan giymeme izin vermeyeceğim.
Geçenlerde bu şakayı duydum, dünyada yaklaşık 6 cinsiyet olduğunu keşfeden büyük veri bilimci ile ... ve bunun gerçekleşmesini hayal edebiliyorum ... "Erkek, Kadın, Ork, Kürklü, Evet ve Hayır".
Peki, özellikle “büyük veri” veri setinin dışındaki bir şeyi öngörmeye çalışırken, istatistiksel olarak biraz geçerliliği elde etmek için hangi yöntemleri kullanmak zorundayız?