«binary-data» etiketlenmiş sorular

İkili değişken, tipik olarak "0" ve "1" olarak kodlanan iki değerden birini alır.

4
Degrade artırıcı makine doğruluğu, yineleme sayısı arttıkça azalır
Gradyan arttırıcı makine algoritmasını caretR'deki paket üzerinden deniyorum. Küçük bir kolej veri kümesi kullanarak, aşağıdaki kodu koştu: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
Bir sınıf metin sınıflandırması nasıl yapılır?
Bir metin sınıflandırma problemiyle uğraşmak zorundayım. Bir web tarayıcısı, belirli bir alanın web sayfalarını tarar ve yalnızca bir belirli sınıfa ait olup olmadığını öğrenmek istediğim her web sayfası için. Yani, bu sınıfı Pozitif olarak adlandırırsam , taranan her web sayfası Pozitif sınıfına veya Pozitif Olmayan sınıfına aittir . Pozitif sınıfı …

1
R kullanarak ikilik veriler (ikili değişkenler) üzerinde bir faktör analizi örneği üzerinden bir adım aramak
Bazı ikili verilerim var, sadece ikili değişkenler var ve patronum tetraforik korelasyon matrisi kullanarak bir faktör analizi yapmamı istedi. Daha önce kendime buradaki örneklere ve UCLA'nın istatistik sitesine ve bunun gibi diğer sitelere göre farklı analizleri nasıl çalıştıracağımı öğretebildim , ancak dikotom üzerine bir faktör analizi örneğine bir adım bulamıyorum …



2
Sürekli uzunlamasına ikili yanıtlar için bir R paketi var mı?
bildPaket seri ikili yanıtlar için mükemmel bir paket olarak görünmektedir. Ama ayrık bir zamandır. Geçerli yanıtın Y'nin daha erken zamanlarda ölçülen ikili yanıtlarla oran oranı bağlantısı veya bunun en azından birinci dereceden bir Markov versiyonu için yumuşak bir zaman fonksiyonu belirtmek istiyorum. Buna alternatif lojistik regresyon denir. Sürekli süreyi işleyen …

1
Kement için LARS ve koordinat inişi
L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …

2
Olasılık modellerini kalibre ederken optimum hazne genişliği nasıl seçilir?
Arka plan: Burada, bir sonucun gerçekleşme olasılığını tahmin eden modellerin nasıl kalibre edileceğine dair bazı harika sorular / cevaplar bulunmaktadır. Örneğin Brier puanı ve çözüm, belirsizlik ve güvenilirliğe ayrışması . Kalibrasyon grafikleri ve izotonik regresyon . Bu yöntemler genellikle öngörülen olasılıklar üzerinde bir binning yönteminin kullanılmasını gerektirir, böylece sonucun (0, …

4
İkili zaman serilerini tahmin etme
Araba hareket etmiyorken 1, araba hareket ettiğinde 0 olan bir ikili zaman serim var. 36 saat ileri ve her saat için bir zaman ufku tahmin etmek istiyorum. İlk yaklaşımım şu girişleri kullanarak bir Naive Bayes kullanmaktı: t-24 (günlük mevsimsel), t-48 (haftalık mevsimsel), günün saati. Ancak, sonuçlar çok iyi değil. Bu …

2
ikili sınıflandırma problemlerinde auc ve logloss optimizasyonu
Sonuç olasılığının oldukça düşük olduğu bir ikili sınıflandırma görevi yapıyorum (yaklaşık% 3). AUC veya log-loss ile optimize olup olmadığına karar vermeye çalışıyorum. Anladığım kadarıyla, AUC, modelin sınıflar arasında ayrım yapma yeteneğini en üst düzeye çıkarırken, mantık gerçek ve tahmini olasılıklar arasındaki farklılığı cezalandırıyor. Benim görevimde hassas doğruluğu kalibre etmek son …


3
İkili veri kümelememin önemli olup olmadığını nasıl test edebilirim
Alışveriş sepeti analizleri veri setim, satın alınan ürünlerle işlem vektörleri kümesi yapıyorum. İşlemlere k-ortalamaları uygularken, her zaman bir sonuç alacağım . Rastgele bir matris muhtemelen bazı kümeler de gösterir. Bulduğum kümelenmenin önemli olup olmadığını test etmenin bir yolu var mı, yoksa bu bir tesadüf olabilir. Evet ise, bunu nasıl yapabilirim.

4
Lojistik Regresyon ve Çekme Noktası
İkili sonuç ve bazı ortak değişkenler içeren verilerimiz var. Verileri modellemek için lojistik regresyon kullandım. Sadece basit bir analiz, olağanüstü bir şey değil. Nihai çıktının, belirli bir eş değişken için olasılığın nasıl değiştiğini gösterdiğimiz bir doz-yanıt eğrisi olması gerekiyordu. Bunun gibi bir şey: Lojistik regresyonu seçmek için dahili bir gözden …

1
R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?
mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Büyük bir ikili veri kümesini birkaç kategoriye kümelemek için hangi algoritmayı kullanmalıyım?
Büyük (650K satır * 62 sütun) ikili veri matrisi (yalnızca 0-1 girişleri) var. Matris çoğunlukla seyrek: yaklaşık% 8 doldurulur. Bunu 5 gruba ayırmak istiyorum - 1'den 5'e kadar adlandırın. Hiyerarşik kümelemeyi denedim ve boyutu işleyemedim. Ayrıca 62 uzunluk 650K bit vektörleri göz önünde bulundurarak çekiçleme mesafesine dayalı k-ortalama kümeleme algoritması …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.