«large-data» etiketlenmiş sorular

'Büyük veri', gözlem sayısının (veri noktaları) o kadar fazla olduğu, veri analistinin analizi düşündüğü veya yürütme biçiminde değişiklik yapılmasını gerektirdiği durumlar anlamına gelir. ('Yüksek boyutluluk' ile karıştırılmamalıdır.)

12
Sıfırlar dahil olmak üzere negatif olmayan verileri nasıl dönüştürmeliyim?
Olumlu verilerim çok eğrilmişse, genellikle günlükleri alırım. Fakat sıfır içeren, eğri, negatif olmayan verilerle ne yapmalıyım? Kullanılan iki dönüşüm gördüm: ile eşleşen düzgün bir özelliğe sahip olan log ( x + 1 ) .kütük( x + 1 )kütük⁡(x+1)\log(x+1) burada c tahmin edilir veya çok küçük bir pozitif değer olarak ayarlanır.kütük( …



7
Endüstri ve Kaggle zorlukları. Daha fazla gözlem toplamak ve fantezi modellemeden daha fazla değişkene erişebilmek daha mı önemli?
Umarım bu başlık kendi kendini açıklar niteliktedir. Kaggle'da kazananların çoğu, MSE'nin% birkaçını sıkıştırmak için bazen yüzlerce baz modeliyle istiflemeyi kullanıyor, genel olarak, deneyimlerinizde, istifleme gibi fantezi modellemenin ne kadar önemli olduğu, sadece daha fazla veri toplama ve daha fazla özellik toplama veri için?

8
Örnekleme 'büyük veri' zamanında önemli midir?
Ya da daha fazla "olacak" mı? Büyük Veri , istatistikleri ve ilgili bilgileri daha da önemli hale getirir ancak Örnekleme Teorisinin altını çizer. Bu yutturmaca 'Büyük Veri' etrafında gördüm ve "neden" her şeyi analiz etmek isteyeyim merak ediyorum yardımcı olamaz ? "Örnekleme Teorisi" nin tasarlanması / uygulanması / icat edilmesi …

10
Büyük bir defalarca okunan veri kümesinin ortancasını tahmin etmek için iyi bir algoritma nedir?
Saklamak için çok büyük bir veri kümesinin ortancasını tahmin etmek için iyi bir algoritma (en az hesaplama, en az depolama gereksinimleri anlamına gelir) arıyorum, öyle ki her bir değer yalnızca bir kez okunabilir (bu değeri açıkça saklayamazsanız). Varsayılabilecek verilerde sınır yoktur. Doğruluğu bilindiği sürece, yaklaşımlar iyidir. Herhangi bir işaretçi var …

10
Tam olarak büyük veri nedir?
Birkaç defa soru sorulmuştu: Büyük Veri Nedir? Hem öğrenciler hem de akrabalarım tarafından istatistik ve ML ile ilgili buzz'ları toplayanlar. Bu CV-postasını buldum . Ve oradaki tek cevabı kabul ettiğimi hissediyorum. Vikipedi sayfası da üzerinde bazı yorumlar vardır, ama gerçekten orada her şeye katılıyorum eğer emin değilim. EDIT: (Wikipedia sayfasının …
44 large-data 


6
Anlamlılık testi için hipotez olarak etki büyüklüğü
Bugün, Çapraz Validated Journal Club'da (neden orada değildin?), @Mbq sordu: Biz (modern veri bilimcileri) öneminin ne anlama geldiğini bildiğimizi düşünüyor musunuz? Ve sonuçlarımıza olan güvenimizle nasıl bir ilgisi var? @Michelle bazılarının (ben dahil) genellikle cevap verdiği gibi: Önemlilik kavramını (p-değerlerine dayanarak) kariyerime devam ettikçe daha az faydalı buluyorum. Örneğin, son …

5
Çok yüksek boyutlu sınıflandırma için ücretsiz veri seti [kapalı]
1000'den fazla özelliğe (veya eğriler varsa örnek noktalara) sahip sınıflandırma için serbestçe kullanılabilir veriler nelerdir? Ücretsiz veri setleri hakkında zaten bir topluluk wiki'si var: Serbestçe kullanılabilir veri örneklerini bulma Ancak burada daha rahat kullanılabilecek daha odaklanmış bir listeye sahip olmak güzel olurdu , ayrıca aşağıdaki kuralları öneriyorum: Veri kümesi başına …

3
Scikit-learn kullanarak polinom regresyon
Scikit-learn'ı polinom regresyonu için kullanmaya çalışıyorum. Okuduğum kadarıyla polinom regresyonu özel bir lineer regresyon vakasıdır. Belki de bir scikit'in genelleştirilmiş doğrusal modellerinden birinin daha yüksek dereceli polinomlara uyması için parametreleştirilebileceğini ümit ediyordum ama bunun için bir seçenek göremiyorum. Poli çekirdekli bir Support Vector Regressor kullanmayı başardım. Bu, verilerimin bir alt …

9
Büyük veri kümeleriyle başa çıkmak için istatistik ve veri madenciliği yazılım araçları
Şu anda yaklaşık 20M kayıtları analiz etmeli ve tahmin modelleri oluşturmalıyım. Şimdiye kadar Statistica, SPSS, RapidMiner ve R'yi denedim. Bu Statistica arasında veri madenciliği ile uğraşmak en uygun gibi görünüyor ve RapidMiner kullanıcı arayüzü de çok kullanışlı, ancak Statistica, RapidMiner ve SPSS'in sadece daha küçük veri setleri için uygun olduğu …

1
Sanat akım öğrenme öğrenme
Son zamanlarda büyük veri kümeleriyle çalışıyorum ve çok sayıda akış yöntemi buldum. Birkaç isim: Düzenli Lider ve Ayna İnişini Takip Etme: Eşdeğerlik Teoremleri ve L1 Düzenlemesi ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Akışlı Öğrenme: Bir Geçişli SVM'ler ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: SVM için Primal Tahmini Alt GrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf veya burada: SVM her …

1
Muazzam bir seyreklik durum tablosu nasıl görselleştirilir?
İki değişkenim var: Uyuşturucu Adı (DN) ve çoktan çoğa ilişkide olan karşılık gelen Advers Olaylar (AE). 33.556 ilaç ismi ve 9.516 advers olay var. Örneklem büyüklüğü yaklaşık 5.8 milyon gözlemdir. DN ile AE arasındaki ilişkiyi / ilişkiyi incelemek ve anlamak istiyorum. Resimlere bakmak daha iyi olduğundan, bu seti R'de görselleştirmenin …

3
Büyük veri için ilk adım ( , )
Her gözlemin birkaç bin seyrek ve muhtemelen gereksiz sayısal ve kategorik değişkenlere sahip olduğu, günde milyarlarca gözlem ayarında büyük bir veriyi analiz ettiğinizi varsayalım. Diyelim ki bir regresyon problemi, bir dengesiz ikili sınıflandırma problemi ve bir de “hangi tahmin edicilerin en önemli olduğunu bulma” görevi var. Soruna nasıl yaklaşılacağı konusundaki …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.