İstatistikler ve Büyük Veri dataset

3

Sıklıkla, bir veri kümesinin bir boyutunu / özelliğini, ortalamanın tüm öğelerden kaldırılmasıyla sıfır ortalama olarak görüyorum. Ama bunu neden yapacağımı hiç anlamadım? Bunu bir önişleme adımı olarak yapmanın etkisi nedir? Sınıflandırma performansını artırıyor mu? Veri kümesi hakkında bir şeyler yanıtlamaya yardımcı olur mu? Verileri anlamak için bir görselleştirme yaparken yardımcı …

12 data-mining dataset

2

Neden bazı insanlar ham verileri üzerinde regresyon benzeri model varsayımlarını test ederken, diğer insanlar bunları artık üzerinde test ediyor?

Deneysel psikoloji doktora öğrencisiyim ve verilerimi nasıl analiz edeceğime ilişkin bilgi ve becerilerimi geliştirmek için çok uğraşıyorum. Psikoloji'deki 5. yılıma kadar, regresyon benzeri modellerin (örneğin, ANOVA) aşağıdakileri varsaydığını düşündüm: verilerin normalliği veriler için varyans homojenliği vb. Lisans derslerim, varsayımların verilerle ilgili olduğuna inanmamı sağlıyor. Ancak 5. sınıfımda bazı eğitmenlerim varsayımların …

12 regression dataset residuals assumptions

4

İstatistiksel analiz için verileri basitçe R'de saklamanın en iyi yolu [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 6 yıl önce kapalı . Bir süredir sorunsuz bir şekilde R için verilerimi saklamak için metin dosyaları kullanıyorum. Ancak yeni bir proje için dosyaların boyutları …

12 r dataset

1

R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar

Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

İstatistiksel araçların uygunsuz kullanımından kaynaklanan maliyetli sonuçlara örnekler

İstatistiksel araç kullanıcılarının çoğunun yardımcı kullanıcılar olduğundan şüpheleniyorum (istatistik konusunda çok az resmi eğitim almış veya hiç eğitim almamış kişiler). Araştırmacıların ve diğer profesyonellerin, sadece hakemli dergilerde, gri literatürde, web'de veya bir konferansta “daha önce yapıldığını” gördükleri için istatistik yöntemlerini uygulamalarına çok cazip geliyor. Bununla birlikte, gerekli varsayımları ve istatistiksel …

12 dataset methodology

2

Belirli bir yanıt değişkenine göre Optimal Binning

Belirli bir yanıt (hedef) ikili değişken ve sürekli olarak parametre olarak aralıkların maksimum sayısı ile sürekli değişken en iyi binning yöntemi (ayrıklaştırma) arıyorum. örnek: "yükseklik" (sürekli sayısal) ve "has_back_pains" (ikili) değişkenleri olan insanların gözlemleri bir dizi var. Yüksekliği en fazla 3 aralıkta (grup) ayrıştırmak istiyorum, bu yüzden algoritma gruplar arasındaki …

12 r dataset optimization discrete-data binning

2

'Düzenli Veri' Oluşturmaya İlişkin En İyi Uygulamalar

Hadley Wickham geçen sene JSS'de veri manipülasyonu ve analiz yapmak için verileri "optimal" duruma getirme hakkında "Düzenli Veri" ( link ) adlı yıldız bir makale yazdı . Ancak, bir çalışma ortamında tablo verilerinin sunulması açısından en iyi uygulamaların neler olduğunu merak ediyordum? İş arkadaşınızın sizden ona bazı veriler vermenizi istediğini …

12 dataset tables

2

Verileri test ve eğitim setlerine ayırmak yalnızca bir “istatistik” midir?

Ben makine öğrenimi / veri bilimi okuyan bir fizik öğrencisiyim, bu yüzden bu sorunun herhangi bir çatışmaya başlamasını istemiyorum :) Ancak, herhangi bir fizik lisans programının büyük bir kısmı laboratuvarlar / deneyler yapmaktır, bu da çok fazla veri anlamına gelir. işleme ve istatistiksel analiz. Ancak, fizikçilerin verilerle ilgilenme şekli ile …

11 regression machine-learning cross-validation dataset experiment-design

3

Verilerle pratik PCA eğitimi

İnternette PCA eğitimi için arama yapmak binlerce sonuç (hatta videolar) verir. Eğiticilerin çoğu çok iyi. Ancak, PCA'nın gösterim için kullanabileceğim bazı veri kümeleri kullanılarak açıklandığı pratik bir örnek bulamıyorum. PCA analizi öncesi ve sonrası (100s boyutu ile veri satırları 10000s değil) çizmek kolay bazı küçük veri seti sağlayan bir öğretici …

11 data-visualization dataset pca data-mining

14

Bir isimden ne kadar bilgi çıkarabilirsiniz?

Bir isim: ilk olarak, muhtemelen bir orta ve soyadı. Herkese açık veri kümelerini kullanarak bir addan ne kadar bilgi çıkarabileceğinizi merak ediyorum. ABD nüfus sayımı verilerini kullanarak düşük bir olasılık (girişe bağlı olarak) arasında herhangi bir yerde aşağıdakileri elde edebileceğinizi biliyorum: 1) Cinsiyet. 2) Yarış. Örneğin, Facebook, kullanıcıların sitelerinin kullanıcılarının …

11 dataset data-mining census

3

Büyük bir ikili veri kümesini birkaç kategoriye kümelemek için hangi algoritmayı kullanmalıyım?

Büyük (650K satır * 62 sütun) ikili veri matrisi (yalnızca 0-1 girişleri) var. Matris çoğunlukla seyrek: yaklaşık% 8 doldurulur. Bunu 5 gruba ayırmak istiyorum - 1'den 5'e kadar adlandırın. Hiyerarşik kümelemeyi denedim ve boyutu işleyemedim. Ayrıca 62 uzunluk 650K bit vektörleri göz önünde bulundurarak çekiçleme mesafesine dayalı k-ortalama kümeleme algoritması …

11 clustering dataset k-means binary-data

3

Veri önişleme ve aykırı algılama tekniklerini kapsayan iyi kitaplar

Başlık ilerledikçe, genel olarak veri önişlemini ve özellikle aykırı algılama tekniklerini kapsayan iyi, güncel bir kitap biliyor mu? Kitabın sadece buna odaklanması gerekmiyor, ancak yukarıda belirtilen konularla kapsamlı bir şekilde ilgilenmeli - bir başlangıç noktası olan ve kağıtların bir listesini alıntılayan bir şeyden memnun olmazdım, çeşitli tekniklerin açıklamaları görünmelidir kitabın …

11 dataset data-mining references outliers

4

“Veri seti” ile tam olarak ne kastedilmektedir?

Sadece veri noktalarının toplanması mı? Yoksa farklı değişkenlerin değerleri ile düzenlenmiş tablo biçimindeki farklı elemanlar için veri noktalarının gösterimi midir? Ham verilerden farkı nedir?

10 dataset terminology definition

1

Veri işleme hataları istatistiksel analize zaten 'fiyatlandırılmıştır' mi?

Tamam, adil uyarı - bu sayı içermeyen felsefi bir sorudur. Hataların zaman içinde veri kümelerine nasıl girdiğini ve bunun analistler tarafından nasıl ele alınması gerektiğini ya da gerçekten önemli olup olmadığını çok düşündüm. Arka plan için, analizi 7-8 yıl içinde muhtemelen 25 kişi tarafından toplanan birçok veri kümesini içeren uzun …

10 dataset error

2

Veri türleri (nominal / sıralı / aralık / oran) gerçekten değişken türleri olarak mı düşünülmeli?

Örneğin, standart ders kitaplarından aldığım tanımlar Değişken - popülasyonun veya örneğin karakteristiği. ex. Testteki hisse senedi veya kalitenin fiyatı Veri - gerçek gözlemlenen değerler İki sütunluk bir rapor için [Ad | Gelir] sütun adları değişkenler ve gerçek gözlemlenen değerler olacaktır {dave | 100K}, {jim | 200K} veri olurdu Yani [Ad] …

10 dataset ordinal-data categorical-data ratio

«dataset» etiketlenmiş sorular