«sample» etiketlenmiş sorular

Örnek, bir popülasyonun alt kümesidir. İstatistikler, genel olarak, daha büyük (muhtemelen sonsuz) bir popülasyonu yöneten parametreler hakkında çıkarım yapmak için örneklerin kullanılmasıyla ilgilidir.

25
Serbestçe kullanılabilir veri örneklerini bulma
Herhangi bir alt grubun özelliklerini bilmeden bir popülasyonun alt gruplarını tanımlamak ve izole etmek için veri setlerini analiz etmek ve ayrıştırmak için yeni bir yöntem üzerinde çalışıyorum. Yöntem yapay veri örnekleriyle (yani, popülasyonun alt kümelerini tanımlamak ve ayırmak amacıyla özel olarak oluşturulmuş veri kümeleri) yeterince iyi çalışsa da, onu canlı …


3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

3
Ya rastgele numaranız açıkça temsili değilse?
Ne rastgele bir örnek alırsanız ve son bir soruda olduğu gibi açıkça temsili olmadığını görebilirsiniz . Örneğin, popülasyon dağılımının 0 civarında simetrik olması gerekiyorsa ve rastgele çizdiğiniz örnek dengesiz pozitif ve negatif gözlemlere sahipse ve dengesizlik istatistiksel olarak önemliyse, sizi nereye bırakır? Önyargılı bir örneği temel alan nüfus hakkında ne …

1
Bir lmer modelden etkilerin tekrarlanabilirliğinin hesaplanması
Bu yazıda , karışık etki modellemesi ile bir ölçümün tekrarlanabilirliğini (diğer bir deyişle güvenilirlik, sınıf içi korelasyon) nasıl hesaplayacağımı anladım . R kodu şöyle olurdu: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Serbestlik dereceleri tam sayı olmayan bir sayı olabilir mi?
GAM kullandığımda, artık DF (kodun son satırı) olduğunu gösteriyor. Bu ne anlama geliyor? GAM örneğinin ötesine geçmek, Genel olarak, serbestlik derecelerinin sayısı tam sayı olmayan bir sayı olabilir mi?26,626,626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

9
Ping yanıtı sürelerinde bu verileri nasıl bir dağılım gösterdiğini nasıl bulabilirim?
Ağ ping sürelerini gerçek bir dünya sürecinden örnekledim. "Gidiş-dönüş süresi" milisaniye cinsinden ölçülür. Sonuçlar bir histogramda çizilmiştir: Ping süreleri minimum bir değere sahiptir, ancak uzun bir üst kuyruk. Bunun ne kadar istatistiksel dağılım olduğunu ve parametrelerinin nasıl tahmin edileceğini bilmek istiyorum. Dağılım normal bir dağılım olmasa da, ne elde etmeye …


3
Bootstrap: aşırı uyum sorunu
Çizerek bir gerçekleştirir sözde parametrik olmayan önyükleme varsayalım boyutu örnekleri , n orijinal her n yerine gözlemler. Bu yordamın ampirik cdf tarafından kümülatif dağılım işlevini tahmin etmeye eşdeğer olduğuna inanıyorum:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function ve daha sonra arka arkaya tahmini cdf B sürelerinden gözlemleri simüle ederek bootstrap örneklerinin elde edilmesi .nnnBBB Eğer bu …


4
Nüfusun herhangi bir niceliksel özelliği “parametre” midir?
İstatistik ve parametre terimleri arasındaki farkı çok iyi biliyorum. Bir istatistiği örnek verilere bir işlev uygulanmasından elde edilen değer olarak görüyorum. Bununla birlikte, çoğu parametre örneği bir parametrik dağılımın tanımlanması ile ilgilidir. Yaygın bir örnek, normal dağılımı veya doğrusal bir regresyonu parametreleştirmek için katsayıları ve hata varyansını parametreleştirmek için ortalama …

1
Büyük örnek asimtotik / teori - Neden ilgilenmeliyim?
Umarım bu soru "çok genel" olarak işaretlenmez ve umarım herkese yarar sağlayan bir tartışma başlar. İstatistiklerde, büyük örnek teorilerini öğrenmek için çok zaman harcıyoruz. Tahmincilerimizin asimptotik olarak tarafsız, asimptotik olarak verimli olmaları, asimptotik dağılımları vb. Asimptotik kelimesi, olduğu varsayımı ile güçlü bir şekilde bağlantılıdır .n→∞n→∞n \rightarrow \infty Ancak gerçekte her …

1
Kement için LARS ve koordinat inişi
L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …


2
Kaggle müsabakaları şans eseri mi kazanıldı?
Kaggle müsabakaları, kalıcı bir test setine göre son sıralamaları belirler. Bekletilen bir test seti bir örnektir; modellenen popülasyonu temsil etmeyebilir. Her sunum bir hipotez gibi olduğundan, rekabeti kazanan algoritma, toplam şans eseri, test setini diğerlerinden daha iyi eşleştirebilir. Başka bir deyişle, farklı bir test seti seçildiyse ve yarışma tekrarlandıysa, sıralama …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.