«outliers» etiketlenmiş sorular

Bir aykırı değer, bir veri kümesinin basit bir karakterizasyonuna göre olağandışı veya iyi tanımlanmayan bir gözlemdir. Rahatsız edici bir olasılık, bu verilerin araştırılması amaçlanandan farklı bir popülasyondan gelmesidir.

13
Çok değişkenli verilerde aykırı değerleri belirlemenin en iyi yolu nedir?
En az üç değişkenli çok değişkenli büyük bir veri setim olduğunu varsayalım. Aykırı olanları nasıl bulabilirim? İkili saçılım grafikleri, 2 boyutlu alt alanların herhangi birinde bir ana hat olmayan bir boyutta bir 3 boyutlu varlığın mümkün olması nedeniyle çalışmaz. Bir regresyon problemini değil, gerçek çok değişkenli verileri düşünüyorum. Dolayısıyla, güçlü …

6
Temel veri kontrol testleri
Görevimde sık sık başkalarının veri kümeleriyle çalışıyorum, uzman olmayanlar bana klinik veriler getiriyor, özetlemelerine ve istatistiksel testler yapmalarına yardımcı oluyorum. Karşılaştığım sorun şu ki, getirdiğim veri kümelerinin neredeyse her zaman yazım hataları, tutarsızlıklar ve diğer her türlü sorunla karşılaşılması. Diğer kişilerin, gelen tüm veri kümelerini kontrol etmek için standart testler …

1
Yorumlama plot.lm ()
R'de arsa (lm) tarafından oluşturulan grafikleri yorumlamakla ilgili bir sorum vardı. Ölçek konumunu ve kaldıraç arsalarını nasıl yorumlayacağımı söyleyebilir misiniz? Herhangi bir yorum takdir edilecektir. Temel istatistik, regresyon ve ekonometri bilgisini alır.

14
Genel bir zaman serisinin çevrimiçi farkını tespit etmek için basit bir algoritma
Çok fazla zaman serileriyle çalışıyorum. Bu zaman serileri temelde her 10 dakikada bir gelen ağ ölçümleridir ve bazıları periyodiktir (ör. Bant genişliği), bazıları ise değildir (yani yönlendirme trafiği miktarı). Çevrimiçi "outlier" için basit bir algoritma istiyorum. Temel olarak, her bir zaman serisinin tüm geçmiş verilerini hafızada (veya diskte) tutmak istiyorum …

14
Neden sağlam (ve dirençli) istatistikler klasik tekniklerin yerine geçmedi?
Verileri kullanarak iş sorunlarını çözerken, klasik istatistiklerin altını çizdiği en az bir anahtar varsayımın yaygın olduğu yaygındır. Çoğu zaman, hiç kimse bu varsayımları kontrol etmekte hiçbir sıkıntı çekmez. Örneğin, ortak web metriklerinin çoğunun "uzun kuyruklu" olduğu (normal dağılıma göre) şimdiye dek çok iyi belgelendirildiği anlaşılmaktadır. Diğer bir örnek olarak, çevrimiçi …

3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
Aykırı değerler doğrusal regresyon analizinde nasıl ele alınmalıdır?
Çoğu zaman istatistiksel bir analiste set veri kümesi verilir ve doğrusal regresyon gibi bir teknik kullanılarak bir modele uyması istenir. Veri setine sıklıkla "Ah evet, bu veri noktalarının bir kısmını topladık - yapabileceklerinizi yapın" gibi bir feragatname eşlik eder. Bu durum hatalı veri olabilecek aykırı değerlerin varlığından büyük ölçüde etkilenen …

8
Mevcut bir değişken (ler) ile tanımlanmış bir korelasyon ile rastgele bir değişken oluşturun
Bir simülasyon çalışması için, mevcut bir değişkenine önceden tanımlanmış (popülasyon) bir korelasyon gösteren rastgele değişkenler oluşturmalıyım .YYY RPaketlere baktım copulave CDVinebelirli bir bağımlılık yapısına sahip rastgele çok değişkenli dağılımlar üretebiliyorum. Bununla birlikte, ortaya çıkan değişkenlerden birini mevcut bir değişkene sabitlemek mümkün değildir. Herhangi bir fikir ve mevcut fonksiyonlara bağlantılar takdir …

4
Aykırılıklara dayanıklı hızlı doğrusal regresyon
Aykırı değerlere sahip doğrusal verilerle uğraşıyorum, bunlardan bazıları tahmini regresyon çizgisinden 5 standart sapmadan daha uzak. Bu noktaların etkisini azaltan lineer bir regresyon tekniği arıyorum. Şimdiye dek yaptığım, bütün verileri içeren regresyon çizgisini tahmin etmek, ardından veri noktasını çok büyük kare artıkları ile atmak (ilk% 10'u söyleyin) ve regresyonu bu …

8
Bir aykırı titiz tanımı?
İnsanlar genellikle istatistiklerle aykırı davranmaktan bahseder. Bu konuda beni rahatsız eden şey, söyleyebildiğim kadarıyla bir aykırı tanımının tamamen öznel olmasıdır. Örneğin, bazı rasgele değişkenlerin gerçek dağılımı çok kuyruklu veya iki modlu ise, aykırı değerlerin tespiti için herhangi bir standart görselleştirme veya özet istatistiği, örneklemek istediğiniz dağıtımın parçalarını hatalı şekilde kaldıracaktır. …

1
Ayk dizilerini (LS / AO / TC) R'deki tsoutliers paketini kullanarak tespit etmek. Aykırı değerlerin denklem biçiminde nasıl gösterilmesi gerekir?
Yorumlar: Öncelikle , 1993'te Amerikan İstatistik Kurumu Dergisi’nde Açık Kaynak kodlu yazılımda R’de yayınlanan Chen ve Liu’nun zaman çizelgesi aykırı tespitini uygulayan yeni tsoutliers paketinin yazarına çok teşekkür etmek istiyorum .R,R,R Paket, zaman serisi verilerinde yinelenerek 5 farklı aykırı türü algılar: Ekstra Aykırı (AO) İnovasyon Uzatıcı (IO) Seviye Değişimi (LS) …

8
Aykırı verileri veriden kaldırmak uygun mudur?
Aykırı verileri bir veri kümesinden kaldırmak için bir yol aradım ve bu soruyu buldum . Bununla birlikte, bu soruya yapılan yorum ve cevapların bazılarında, insanlar aykırı verileri verilerden kaldırmanın kötü bir uygulama olduğunu belirtti. Veri setimde, büyük olasılıkla sadece ölçüm hataları nedeniyle ortaya çıkan birkaç aykırı var. Bazıları olmasa bile, …
33 outliers 

3
Rastgele ormanlar aykırı değerlere nasıl duyarlı değildir?
Ben dahil olmak üzere birkaç kaynaklardan okudum bu bir Rastgele Ormanlar (örneğin, Lojistik Regresyon ve diğer ML yöntemlerdir bu şekilde) uçlara karşı duyarlıdır olmadığını. Ancak iki sezgi bana aksini söylüyor: Bir karar ağacı ne zaman yapılırsa, bütün puanların sınıflandırılması gerekir. Bu, aykırıların bile sınıflandırılacağı ve dolayısıyla yükseltme sırasında seçildikleri karar …

1
Geçici Ağda Link Anomalisi Tespiti
Trend konularını tahmin etmek için link anomalisi tespitini kullanan bu makaleyle karşılaştım ve inanılmaz derecede ilgi çekici buldum: “Sosyal Bağlantılarda Yeni Gelişen Konuları Link Anomalisi Tespiti ile Keşfetmek” . Farklı bir veri setinde çoğaltmayı çok isterdim, ama onları nasıl kullanacaklarını bilecek yöntemlere yeterince aşina değilim. Diyelim ki altı aylık bir …

8
Aykırı değerlerin ortalama ile değiştirilmesi
Bu soru internet meraklısı olmayan arkadaşım tarafından soruldu. İstatistik geçmişim yok ve bu soru için internette arama yapıyorum. Soru şudur: aykırı değerlerin ortalama değerle değiştirilmesi mümkün müdür? mümkünse, bu bildirimi yedeklemek için kitap referansı / dergi var mı?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.