İstatistik Yüksek Lisans tezi için Veri Bilimi odaklı veri seti / araştırma sorusu


11

'Veri bilimi'ni keşfetmek istiyorum. Terim bana biraz belirsiz görünüyor, ancak bunu gerektiriyor:

  1. makine öğrenimi (geleneksel istatistiklerden ziyade);
  2. kümeler üzerinde analizler yürütmeniz için yeterince büyük bir veri kümesi.

Veri bilimi alanını keşfetmek için kullanabileceğim, programlama geçmişine sahip bir istatistikçinin erişebileceği bazı iyi veri kümeleri ve problemler nelerdir?

Bunu olabildiğince dar tutmak için ideal olarak açık, iyi kullanılan veri kümelerine ve örnek sorunlara bağlantılar istiyorum.

Yanıtlar:



5

Sunlight Vakfı açılması ve hükümet verilerinin olmayan partizan analizini teşvik odaklanmış bir kuruluştur.

Vahşi doğada karşılaştırma için kullanılabilecek bir ton analiz ve çok çeşitli konular var.

Verilere erişmek için araçlar ve API'ler sağlarlar ve data.gov gibi yerlerde verileri kullanılabilir hale getirmeye yardımcı oldular .

İlginç bir proje Influence Explorer . Burada kaynak verileri alabilir ve gerçek zamanlı verilere erişebilirsiniz.

Ayrıca, daha popüler sorulardan birine de göz atmak isteyebilirsiniz:

Herkese açık veri kümeleri .


5

Master Bilgisayar Bilimi mi? İstatistik?

'Veri bilimi' tezinizin merkezinde mi olacak? Yoksa bir yan konu mu?

İstatistiklerde olduğunu ve tezinizi bir 'veri bilimi' sorununa odaklamak istediğinizi varsayacağım. Eğer öyleyse, o zaman tahıl karşı gideceğim ve bir veri kümesi veya bir ML yöntemi ile başlamam gerektiğini öneririz . Bunun yerine, iyi anlaşılmamış veya ML yöntemlerinin henüz başarılı olduğu kanıtlanmamış veya birçok rakip ML yönteminin olduğu, ancak hiçbirinin diğerlerinden daha iyi görünmediği ilginç bir araştırma problemi aramalısınız.

Şu veri kaynağını göz önünde bulundurun: Stanford Büyük Ağ Veri Kümesi Koleksiyonu . Eğer ederken olabilir , bu veriler kümelerinden birini seçmek bir sorun deyimi oluşturan ve ardından ML yöntemlerden bazıları listesini çalıştırın bu yaklaşım gerçekten çok ne olduğunu bildirilir gelmez veri bilim Bence değil de ilgilidir hepsi ve çok iyi bir yüksek lisans tezine yol açar.

Bunun yerine, bunu yapabilirsiniz: belirli bir kategoride ML kullanan tüm araştırma makalelerini arayın - örneğin, İşbirliği ağları (ortak yazarlık). Her kağıt okurken, onlar ne olduğunu öğrenmek için denemek vardı her ML yöntemiyle ve ne adrese mümkün değildi ile gerçekleştirmek mümkün. Özellikle "gelecekteki araştırma" önerilerini arayın.

Belki hepsi aynı yöntemi kullanır, ancak rakip ML yöntemlerini hiç denememiştir. Ya da belki de sonuçlarını yeterince doğrulamıyorlar ya da belki de veri setleri küçük, ya da araştırma soruları ve hipotezleri basit ya da sınırlıydı.

En önemlisi: bu araştırma hattının nereye gittiğini bulmaya çalışın. Bunu yapmak için neden uğraşıyorlar? Bu konuda önemli olan nedir? Nerede ve neden zorluklarla karşılaşıyorlar?


Bu oldukça iyi bir fikir. Ustalar İstatistiktedir.
user3279453
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.