«dataset» etiketlenmiş sorular

Veri kümesi istekleri bu sitede konu dışıdır. Veri kümeleri oluşturma, işleme veya bakımını yapma ile ilgili sorular için bu etiketi kullanın.

3
Verilerin sıfır ortalaması olması fikri
Sıklıkla, bir veri kümesinin bir boyutunu / özelliğini, ortalamanın tüm öğelerden kaldırılmasıyla sıfır ortalama olarak görüyorum. Ama bunu neden yapacağımı hiç anlamadım? Bunu bir önişleme adımı olarak yapmanın etkisi nedir? Sınıflandırma performansını artırıyor mu? Veri kümesi hakkında bir şeyler yanıtlamaya yardımcı olur mu? Verileri anlamak için bir görselleştirme yaparken yardımcı …

2
Neden bazı insanlar ham verileri üzerinde regresyon benzeri model varsayımlarını test ederken, diğer insanlar bunları artık üzerinde test ediyor?
Deneysel psikoloji doktora öğrencisiyim ve verilerimi nasıl analiz edeceğime ilişkin bilgi ve becerilerimi geliştirmek için çok uğraşıyorum. Psikoloji'deki 5. yılıma kadar, regresyon benzeri modellerin (örneğin, ANOVA) aşağıdakileri varsaydığını düşündüm: verilerin normalliği veriler için varyans homojenliği vb. Lisans derslerim, varsayımların verilerle ilgili olduğuna inanmamı sağlıyor. Ancak 5. sınıfımda bazı eğitmenlerim varsayımların …

4
İstatistiksel analiz için verileri basitçe R'de saklamanın en iyi yolu [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 6 yıl önce kapalı . Bir süredir sorunsuz bir şekilde R için verilerimi saklamak için metin dosyaları kullanıyorum. Ancak yeni bir proje için dosyaların boyutları …
12 r  dataset 

1
R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar
Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
İstatistiksel araçların uygunsuz kullanımından kaynaklanan maliyetli sonuçlara örnekler
İstatistiksel araç kullanıcılarının çoğunun yardımcı kullanıcılar olduğundan şüpheleniyorum (istatistik konusunda çok az resmi eğitim almış veya hiç eğitim almamış kişiler). Araştırmacıların ve diğer profesyonellerin, sadece hakemli dergilerde, gri literatürde, web'de veya bir konferansta “daha ​​önce yapıldığını” gördükleri için istatistik yöntemlerini uygulamalarına çok cazip geliyor. Bununla birlikte, gerekli varsayımları ve istatistiksel …

2
Belirli bir yanıt değişkenine göre Optimal Binning
Belirli bir yanıt (hedef) ikili değişken ve sürekli olarak parametre olarak aralıkların maksimum sayısı ile sürekli değişken en iyi binning yöntemi (ayrıklaştırma) arıyorum. örnek: "yükseklik" (sürekli sayısal) ve "has_back_pains" (ikili) değişkenleri olan insanların gözlemleri bir dizi var. Yüksekliği en fazla 3 aralıkta (grup) ayrıştırmak istiyorum, bu yüzden algoritma gruplar arasındaki …

2
'Düzenli Veri' Oluşturmaya İlişkin En İyi Uygulamalar
Hadley Wickham geçen sene JSS'de veri manipülasyonu ve analiz yapmak için verileri "optimal" duruma getirme hakkında "Düzenli Veri" ( link ) adlı yıldız bir makale yazdı . Ancak, bir çalışma ortamında tablo verilerinin sunulması açısından en iyi uygulamaların neler olduğunu merak ediyordum? İş arkadaşınızın sizden ona bazı veriler vermenizi istediğini …
12 dataset  tables 

2
Verileri test ve eğitim setlerine ayırmak yalnızca bir “istatistik” midir?
Ben makine öğrenimi / veri bilimi okuyan bir fizik öğrencisiyim, bu yüzden bu sorunun herhangi bir çatışmaya başlamasını istemiyorum :) Ancak, herhangi bir fizik lisans programının büyük bir kısmı laboratuvarlar / deneyler yapmaktır, bu da çok fazla veri anlamına gelir. işleme ve istatistiksel analiz. Ancak, fizikçilerin verilerle ilgilenme şekli ile …

3
Verilerle pratik PCA eğitimi
İnternette PCA eğitimi için arama yapmak binlerce sonuç (hatta videolar) verir. Eğiticilerin çoğu çok iyi. Ancak, PCA'nın gösterim için kullanabileceğim bazı veri kümeleri kullanılarak açıklandığı pratik bir örnek bulamıyorum. PCA analizi öncesi ve sonrası (100s boyutu ile veri satırları 10000s değil) çizmek kolay bazı küçük veri seti sağlayan bir öğretici …

14
Bir isimden ne kadar bilgi çıkarabilirsiniz?
Bir isim: ilk olarak, muhtemelen bir orta ve soyadı. Herkese açık veri kümelerini kullanarak bir addan ne kadar bilgi çıkarabileceğinizi merak ediyorum. ABD nüfus sayımı verilerini kullanarak düşük bir olasılık (girişe bağlı olarak) arasında herhangi bir yerde aşağıdakileri elde edebileceğinizi biliyorum: 1) Cinsiyet. 2) Yarış. Örneğin, Facebook, kullanıcıların sitelerinin kullanıcılarının …

3
Büyük bir ikili veri kümesini birkaç kategoriye kümelemek için hangi algoritmayı kullanmalıyım?
Büyük (650K satır * 62 sütun) ikili veri matrisi (yalnızca 0-1 girişleri) var. Matris çoğunlukla seyrek: yaklaşık% 8 doldurulur. Bunu 5 gruba ayırmak istiyorum - 1'den 5'e kadar adlandırın. Hiyerarşik kümelemeyi denedim ve boyutu işleyemedim. Ayrıca 62 uzunluk 650K bit vektörleri göz önünde bulundurarak çekiçleme mesafesine dayalı k-ortalama kümeleme algoritması …

3
Veri önişleme ve aykırı algılama tekniklerini kapsayan iyi kitaplar
Başlık ilerledikçe, genel olarak veri önişlemini ve özellikle aykırı algılama tekniklerini kapsayan iyi, güncel bir kitap biliyor mu? Kitabın sadece buna odaklanması gerekmiyor, ancak yukarıda belirtilen konularla kapsamlı bir şekilde ilgilenmeli - bir başlangıç ​​noktası olan ve kağıtların bir listesini alıntılayan bir şeyden memnun olmazdım, çeşitli tekniklerin açıklamaları görünmelidir kitabın …


1
Veri işleme hataları istatistiksel analize zaten 'fiyatlandırılmıştır' mi?
Tamam, adil uyarı - bu sayı içermeyen felsefi bir sorudur. Hataların zaman içinde veri kümelerine nasıl girdiğini ve bunun analistler tarafından nasıl ele alınması gerektiğini ya da gerçekten önemli olup olmadığını çok düşündüm. Arka plan için, analizi 7-8 yıl içinde muhtemelen 25 kişi tarafından toplanan birçok veri kümesini içeren uzun …
10 dataset  error 

2
Veri türleri (nominal / sıralı / aralık / oran) gerçekten değişken türleri olarak mı düşünülmeli?
Örneğin, standart ders kitaplarından aldığım tanımlar Değişken - popülasyonun veya örneğin karakteristiği. ex. Testteki hisse senedi veya kalitenin fiyatı Veri - gerçek gözlemlenen değerler İki sütunluk bir rapor için [Ad | Gelir] sütun adları değişkenler ve gerçek gözlemlenen değerler olacaktır {dave | 100K}, {jim | 200K} veri olurdu Yani [Ad] …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.