«large-data» etiketlenmiş sorular

'Büyük veri', gözlem sayısının (veri noktaları) o kadar fazla olduğu, veri analistinin analizi düşündüğü veya yürütme biçiminde değişiklik yapılmasını gerektirdiği durumlar anlamına gelir. ('Yüksek boyutluluk' ile karıştırılmamalıdır.)

1
Büyük veri kümesinin normallik açısından test edilmesi - nasıl ve güvenilirdir?
Veri setimin 1'den 1690'a kadar 46840 çift değer içeren bir bölümünü iki grupta inceliyorum. Bu gruplar arasındaki farkları analiz edebilmek için doğru testi seçmek amacıyla değerlerin dağılımını inceleyerek başladım. Normallik testi için bir kılavuzun ardından qqplot, histogram ve boxplot yaptım. Bu normal bir dağılım gibi görünmüyor. Kılavuz, tamamen grafiksel bir …

4
Büyük Verilerle Hipotez Testi
Büyük verilerle hipotez testlerini nasıl yapıyorsunuz? Karışıklığımı vurgulamak için aşağıdaki MATLAB senaryosunu yazdım. Tek yaptığı iki rastgele seri oluşturmak ve bir değişkenin diğerinde basit bir doğrusal regresyonunu çalıştırmaktır. Bu regresyonu farklı rasgele değerler kullanarak birkaç kez gerçekleştirir ve ortalamaları rapor eder. Örnekleme boyutunu büyüttüğümde gerçekleşme eğilimi, ortalama olarak p değerleri …


1
R'deki büyük veri kümelerini işleme - öğreticiler, en iyi uygulamalar, vb.
Ben, R'deki büyük veri kümeleri üzerinde çeşitli analizler yapmak zorunda olan bir R çayhanıyım. Bu yüzden bu siteye ve başka yerlere bakarken, burada çok fazla ezoterik ve daha az bilinen sorunların olduğu ortaya çıktı - gibi hangi paketin ne zaman kullanılacağı, verilere hangi dönüşümlerin (uygulanmayacağı) uygulanacağı vb. Sadece tüm bu …
11 r  large-data 

1
Büyük ölçekli PCA bile mümkün müdür?
Temel bileşen analizi '(PCA) klasik yolu bunu sütunların sıfır ortalaması olan bir giriş veri matrisinde yapmaktır (o zaman PCA "varyansı en üst düzeye çıkarabilir"). Bu sütunları ortalayarak kolayca gerçekleştirilebilir. Bununla birlikte, giriş matrisi seyrek olduğunda, ortalanmış matris artık daha seyrek olacaktır ve - eğer matris çok büyükse - artık belleğe …

3
büyük olduğunda iç içe ikili lojistik regresyon modellerinin karşılaştırılması
Daha iyi sorumu sormak için, bir 16 değişken modeli (hem çıktıların bazı sağladı fit) ve 17 değişken modeli ( fit2aşağıda) (bu modellerde tüm belirleyici değişkenler bu modeller arasındaki tek fark nerede olduğunu, sürekli olan fityapmaz değişken 17 (var17)) içerir: fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs …

2
Tüm popülasyondan elde edilen veriler olduğunda güven aralıklarını hesaplamak ve hipotezleri test etmek mantıklı mıdır?
Tüm popülasyondaki veriler mevcut olduğunda güven aralıklarını hesaplamak ve hipotezleri test etmek mantıklı mıdır? Bence cevap hayır, çünkü parametrelerin gerçek değerlerini doğru bir şekilde hesaplayabiliriz. Ancak, orijinal popülasyondan yukarıda belirtilen teknikleri kullanmamıza izin veren maksimum veri oranı nedir?

3
Büyük zaman serileri verilerini etkileşimli olarak nasıl görüntülerim?
Genellikle makul miktarda zaman serisi verileri, 50-200 milyon ilişkili zaman damgalarıyla iki katına çıkar ve bunları dinamik olarak görselleştirmek isterim. Bunu etkili bir şekilde yapmak için mevcut yazılım var mı? Kütüphaneler ve veri formatlarına ne dersiniz? Zoom-cache , büyük zaman serilerine odaklanan bir kütüphane örneğidir. Zoom-cache'de veriler, farklı çözünürlüklerde görüntülenmeyi …

1
Çok büyük zaman serisi veri kümeleriyle başa çıkmak
Çok büyük bir veri kümesine erişimim var. Veriler, dört türden birinden müzikal alıntıları dinleyen insanların MEG kayıtlarından alınmıştır. Veriler aşağıdaki gibidir: 6 Konular 3 Deneysel tekrarlar (çağlar) Dönem başına 120 Deneme 275 MEG kanalından 500Hz'de (= 4000 örnek) deneme başına 8 saniye veri Yani burada her "örnek" [4000x275] boyutunda bir …

3
Büyük veri kümelerinden öğrenirken yaklaşımlar?
Temel olarak, büyük veri kümelerine karşı öğrenmenin iki yaygın yolu vardır (zaman / alan kısıtlamaları ile karşılaştığınızda): Hile :) - eğitim için sadece bir "yönetilebilir" alt kümesini kullanın. Doğruluk kaybı, azalan getiriler yasası nedeniyle ihmal edilebilir - modelin tahmini performansı, tüm eğitim verileri buna dahil edilmeden çok önce düzleşir. Paralel …

1
K-anlamı: Pratik durumlarda kaç tekrarlama var?
Veri madenciliği veya büyük verilerde endüstri deneyimim yok, bu yüzden biraz deneyim paylaştığınızı duymak isterim. İnsanlar gerçekten büyük bir veri kümesinde k-ortalamaları, PAM, CLARA, vs. çalıştırıyor mu? Yoksa rastgele bir örnek mi seçtiler? Sadece veri kümesinin bir örneğini alırlarsa, veri kümesi normal olarak dağıtılmazsa sonuç güvenilir olur mu? Bu algoritmaları …

2
Yüksek boyutlu veri setleri için Gauss Süreci regresyonu
Sadece yüksek boyutlu veri kümelerine Gauss süreç regresyonu (GPR) uygulayan herhangi bir deneyim olup olmadığını görmek istedim. İdeal özellik seçimi parametre seçim sürecinin bir parçası olduğu yüksek boyutlu veri kümeleri için ne işe yarayacağını görmek için çeşitli seyrek GPR yöntemleri (örneğin seyrek sözde girişler GPR) içine bakıyorum. Kağıtlar / kod …

2
Ölçeklenebilir boyut küçültme
Sabit özelliklerin sayısı göz önüne alındığında, Barnes-Hut t-SNE'nin karmaşıklığıO ( n günlüğün )O(nlog⁡n)O(n\log n), rastgele projeksiyonlar ve PCA, çok büyük veri setleri için onları "uygun fiyatlı" yapan karmaşıklığına sahiptir .O ( n )O(n)O(n) Öte yandan, güvenerek yöntemleri boyutlu ölçekleme bir olması karmaşıklığı.O (n2)O(n2)O(n^2) Karmaşıklığı daha düşük olan başka boyut küçültme …


2
Karışık modeller için parametrik, yarı parametrik ve parametrik olmayan önyükleme
Bu makaleden aşağıdaki greftler alınmıştır . Ben bootstrap için acemi ve R bootpaket ile doğrusal karışık model için parametrik, yarı parametrik ve parametrik olmayan bootstrapping bootstrapping uygulamaya çalışıyorum . R Kodu İşte benim Rkod: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.