«binning» etiketlenmiş sorular

Bölme, sürekli bir değişkeni ayrı kategoriler halinde gruplamak anlamına gelir. Özellikle histogramlara atıfta bulunmak için kullanılır, ancak aynı zamanda daha genel olarak kabalaştırma anlamında da kullanılabilir.

4
Histograma dayalı verilerin yaklaşık dağılımını değerlendirme
Verilerimin histograma dayalı olarak üstel olup olmadığını görmek istediğimi varsayalım (yani sağa çarpık). Verileri nasıl gruplandırdığım veya böldiğime bağlı olarak, çok farklı histogramlar elde edebilirim. Histogramlardan oluşan bir set verinin üstel olduğu görülüyor. Başka bir set, verilerin üssel olmadığını gösterir. Histogramlardan iyi tanımlanmış dağılımları nasıl tanımlayabilirim?

7
Sürekli bir tahmin değişkeninden ayrılmanın faydası nedir?
Bir modelde kullanmadan önce, sürekli bir yordayıcı değişkenini almanın ve onu parçalara ayırmanın (örn. Quintiles) ne olduğunu merak ediyorum. Bana öyle geliyor ki değişkeni binerek bilgiyi kaybediyoruz. Bu sadece doğrusal olmayan etkileri modelleyebilmemiz için mi? Değişkeni sürekli tutsak ve gerçekten düz bir doğrusal ilişki olmasaydı verilere en iyi şekilde uyacak …

3
Q-grafiklerini histogramlar üzerinde kullanmanın faydaları
In Bu yoruma Nick Cox yazdı: Sınıflara girmek eski bir yöntemdir. Histogramlar kullanışlı olsa da, modern istatistiksel yazılım, ham verilere dağılımları sığdırmanın yanı sıra tavsiye edilmesini de kolaylaştırır. Binning sadece hangi dağılımın uygun olduğunu belirlemede çok önemli olan detaylardan vazgeçer. Bu yorumun içeriği, QQ alanlarının uygunluğu değerlendirmek için alternatif bir …

2
Sürekli bağımsız değişkenleri / özellikleri ne zaman ayrılmalı / atmalıyız ve ne zaman yapmamalıyız?
Bağımsız değişkenleri / özellikleri ne zaman ayrılmalı / atmalıyız ve ne zaman yapmamalıyız? Soruma cevap verme girişimlerim: Genelde, binmemeliyiz çünkü binicilik bilgi kaybeder. Çekme aslında modelin serbestlik derecesini arttırıyor, bu nedenle çekmeden sonra aşırı sığmaya neden olmak mümkündür. Eğer bir "yüksek önyargı" modelimiz varsa, kırma kötü olmayabilir, fakat "yüksek sapma" …

2
Veri tabanlı çöp kutusu sınırlarının ki-kare uyum iyiliği testi üzerindeki etkisi?
Bu tür durumlarda ki-kare düşük gücünün bariz sorununu bir kenara bırakarak, verileri ikiye ayırarak, belirtilmemiş parametrelerle bazı yoğunluk için ki-kare testi iyiliği yaptığınızı hayal edin. Somutluk için, diyelim ki ortalaması bilinmeyen üstel dağılım ve örnek büyüklüğü 100 diyelim. Bölme başına makul sayıda beklenen gözlem elde etmek için verilerin bir kısmının …

3
İki histogramı aynı ölçekte koymanın en iyi yolu?
Diyelim ki ayrıntılı olarak karşılaştırmak istediğim iki dağılımım var, yani şekil, ölçek ve kaydırmayı kolayca görünür hale getirecek şekilde. Bunu yapmanın iyi bir yolu, her dağıtım için bir histogram çizmek, aynı X ölçeğine koymak ve birini diğerinin altına istiflemektir. Bunu yaparken, binning nasıl yapılmalıdır? Aşağıdaki Şekil 1'deki gibi bir dağılım …

2
Belirli bir yanıt değişkenine göre Optimal Binning
Belirli bir yanıt (hedef) ikili değişken ve sürekli olarak parametre olarak aralıkların maksimum sayısı ile sürekli değişken en iyi binning yöntemi (ayrıklaştırma) arıyorum. örnek: "yükseklik" (sürekli sayısal) ve "has_back_pains" (ikili) değişkenleri olan insanların gözlemleri bir dizi var. Yüksekliği en fazla 3 aralıkta (grup) ayrıştırmak istiyorum, bu yüzden algoritma gruplar arasındaki …

5
Pozitif mamografi sonuçlarına uygulanan Bayes Teoreminin yorumlanması
Klasik mamogram örneğine uygulanan Bayes Teoreminin sonucunu kafamı sarmaya çalışıyorum, mamogramın bükülmesi mükemmel. Yani, Kanser insidansı:.01.01.01 Hastanın kanseri olduğu göz önüne alındığında, pozitif bir mamogram olasılığı:111 Hastanın kanseri yoksa, pozitif bir mamogram olasılığı:.01.01.01 Bayes Tarafından: P (kanser | mammogram +) =1 ⋅ .01( 1 ⋅ .01 ) + ( .091 …

2
Sıralı verilerden oluşan bir koleksiyon nasıl 'akıllıca' depolanır?
Akıllı bir şekilde sıralanmış bir koleksiyon bin çalışıyorum. adet veri koleksiyonum var . Ama içine bu veri uyan biliyoruz eşit olmayan bidonları büyüklüğünde. Verilere tam olarak uyacak şekilde uç noktaları akıllıca nasıl seçeceğimi bilmiyorum. Örneğin:mnnnmmm Koleksiyonumda 12 ürün olduğunu ve verilerin 3 kutuya sığacağını biliyorum: Index: 1 2 3 4 …

5
Binning her ne pahasına olursa olsun kaçınılmalıdır?
Bu yüzden binning neden her zaman kaçınılması gerektiği hakkında birkaç yazı okudum . Bu iddia için popüler bir referans bu bağlantıdır . Ana kaçamak, binleşme noktalarının (veya kesme noktalarının) ve sonuçta ortaya çıkan bilgi kaybının oldukça keyfi olması ve spline'ların tercih edilmesidir. Bununla birlikte, şu anda birçok özelliği için bir …

2
Karşılıklı bilgi hesaplanırken çöp kutusu sayısı
Karşılıklı bilgiler kullanarak A ve B değişkenleri arasındaki ilişkiyi ölçmek istiyorum. Bunu hesaplamanın yolu gözlemleri bölmektir (aşağıdaki örnek Python koduna bakınız). Ancak, hangi sayıda kutunun makul olduğunu hangi faktörler belirler? Hızlı olmak için hesaplamaya ihtiyacım var, bu yüzden güvenli tarafta olmak için çok fazla kutu kullanamıyorum. from sklearn.metrics import mutual_info_score …

1
R doğrusal regresyon kategorik değişkeni “gizli” değer
Bu sadece birkaç kez karşılaştığım bir örnektir, bu yüzden örnek verilerim yok. R'de doğrusal regresyon modeli çalıştırmak: a.lm = lm(Y ~ x1 + x2) x1sürekli bir değişkendir. x2kategoriktir ve üç değeri vardır, örneğin "Düşük", "Orta" ve "Yüksek". Bununla birlikte, R tarafından verilen çıktı aşağıdaki gibi olacaktır: summary(a.lm) Estimate Std. Error …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Doane'nin histogram bölmesi için formülü
Histogramlar için kullanılacak en iyi kutu sayısını tahmin etmek için çeşitli algoritmalar uyguluyorum. Uyguladığımların çoğu, "Kutu sayısı ve genişlik " * bölümündeki Wikipedia "Histogram" sayfasında açıklanmaktadır . Doane'nin formülü ile ilgili bir soruna takılı kaldım: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) nveri boyutu nerede . …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.