İstatistik Yüksek Lisans tezi için Veri Bilimi odaklı veri seti / araştırma sorusu

11

'Veri bilimi'ni keşfetmek istiyorum. Terim bana biraz belirsiz görünüyor, ancak bunu gerektiriyor:

makine öğrenimi (geleneksel istatistiklerden ziyade);
kümeler üzerinde analizler yürütmeniz için yeterince büyük bir veri kümesi.

Veri bilimi alanını keşfetmek için kullanabileceğim, programlama geçmişine sahip bir istatistikçinin erişebileceği bazı iyi veri kümeleri ve problemler nelerdir?

Bunu olabildiğince dar tutmak için ideal olarak açık, iyi kullanılan veri kümelerine ve örnek sorunlara bağlantılar istiyorum.

— user3279453
kaynak

8

Sadece kaggle.com adresine gidin; sizi uzun süre meşgul edecek. Açık veriler için UC Irvine Machine Learning Deposu vardır . Aslında, buna adanmış bir Stackexchange sitesi var ; oraya bak.

— Emre
kaynak

5

Sunlight Vakfı açılması ve hükümet verilerinin olmayan partizan analizini teşvik odaklanmış bir kuruluştur.

Vahşi doğada karşılaştırma için kullanılabilecek bir ton analiz ve çok çeşitli konular var.

Verilere erişmek için araçlar ve API'ler sağlarlar ve data.gov gibi yerlerde verileri kullanılabilir hale getirmeye yardımcı oldular .

İlginç bir proje Influence Explorer . Burada kaynak verileri alabilir ve gerçek zamanlı verilere erişebilirsiniz.

Ayrıca, daha popüler sorulardan birine de göz atmak isteyebilirsiniz:

Herkese açık veri kümeleri .

— Steve Kallestad
kaynak

5

Master Bilgisayar Bilimi mi? İstatistik?

'Veri bilimi' tezinizin merkezinde mi olacak? Yoksa bir yan konu mu?

İstatistiklerde olduğunu ve tezinizi bir 'veri bilimi' sorununa odaklamak istediğinizi varsayacağım. Eğer öyleyse, o zaman tahıl karşı gideceğim ve bir veri kümesi veya bir ML yöntemi ile başlamam gerektiğini öneririz . Bunun yerine, iyi anlaşılmamış veya ML yöntemlerinin henüz başarılı olduğu kanıtlanmamış veya birçok rakip ML yönteminin olduğu, ancak hiçbirinin diğerlerinden daha iyi görünmediği ilginç bir araştırma problemi aramalısınız.

Şu veri kaynağını göz önünde bulundurun: Stanford Büyük Ağ Veri Kümesi Koleksiyonu . Eğer ederken olabilir , bu veriler kümelerinden birini seçmek bir sorun deyimi oluşturan ve ardından ML yöntemlerden bazıları listesini çalıştırın bu yaklaşım gerçekten çok ne olduğunu bildirilir gelmez veri bilim Bence değil de ilgilidir hepsi ve çok iyi bir yüksek lisans tezine yol açar.

Bunun yerine, bunu yapabilirsiniz: belirli bir kategoride ML kullanan tüm araştırma makalelerini arayın - örneğin, İşbirliği ağları (ortak yazarlık). Her kağıt okurken, onlar ne olduğunu öğrenmek için denemek vardı her ML yöntemiyle ve ne adrese mümkün değildi ile gerçekleştirmek mümkün. Özellikle "gelecekteki araştırma" önerilerini arayın.

Belki hepsi aynı yöntemi kullanır, ancak rakip ML yöntemlerini hiç denememiştir. Ya da belki de sonuçlarını yeterince doğrulamıyorlar ya da belki de veri setleri küçük, ya da araştırma soruları ve hipotezleri basit ya da sınırlıydı.

En önemlisi: bu araştırma hattının nereye gittiğini bulmaya çalışın. Bunu yapmak için neden uğraşıyorlar? Bu konuda önemli olan nedir? Nerede ve neden zorluklarla karşılaşıyorlar?

— MrMeritology
kaynak

Bu oldukça iyi bir fikir. Ustalar İstatistiktedir.

— user3279453