Winsorizing vs Trimming verilerinin göreceli faydaları nelerdir?


31

Winsorizing verileri , her bir uçtan belli bir yüzde değerine sahip bir veri kümesinin aşırı değerlerini değiştirmek anlamına gelirken, Kırpma veya Kesme, bu aşırı değerlerin kaldırılmasını içerir .

Ortalama veya standart sapma gibi istatistikleri hesaplarken aykırı değerlerin etkisini azaltmak için her iki yöntemin de tartışmalı bir seçenek olduğunu her zaman görüyorum, ancak birinin neden birini diğerinden seçebileceğini görmedim .

Winsorizing veya Trimming kullanmanın herhangi bir göreceli avantaj veya dezavantajı var mı? Bir yöntemin tercih edilebileceği bazı durumlar var mı? Biri pratikte daha sık mı kullanılıyor yoksa temel olarak değiştirilebilir mi?


2
Buradaki terminoloji yanıltıcıdır. Kırpma, her kuyruğunda bazı kesirleri, aşırı değerleri görmezden gelir. Bu, kuyruklardaki değerlerin silinmesi veya düşmesi anlamına gelmez, çünkü bunları diğer analizlere dahil etmeniz ve eklemeniz gerekir. Kısaltma terimi en iyi diğer anlamlara ayrılmıştır. Bakınız en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Yanıtlar:


11

Karşılaştığım kesim ile ilgili farklı, ancak ilgili bir soruda, bir cevap neden birinin neden şaraplama ya da süsleme kullanabileceği konusunda şu yararlı fikirlere sahipti :

Kesilmiş dağıtımı alırsanız, açıkça belirtirsiniz: Aykırı değerlere / dağıtım kuyruklarına ilgi duymuyorum. Eğer "aykırı" nın gerçekten aykırı olduğuna inanıyorsanız (yani, dağılıma ait değil, "başka bir tür" tür), o zaman düzeltme yapın. Dağılıma ait olduklarını düşünüyorsanız, ancak daha az çarpık bir dağılım elde etmek istiyorsanız, winsorising hakkında düşünebilirsiniz.

Daha kesin bir yaklaşım olup olmadığını merak ediyorum, ancak yukarıdaki mantık mantıklı geliyor.


4

Tüm alanlarda çok sık karşılaşılan iyi bir soru! Her iki durumda da bunları teknik olarak veri setinden kaldırıyorsunuz.

Bir kesme şeklini kullanmak için grafiksel bir eğilim bulmaya çalışırken bunun yaygın bir uygulama olduğunu biliyorum: Tüm veri setini çizim amacıyla kullanın, ancak yorumlama için aşırı değerleri hariç tutun.

'Winsorizing' ile ilgili sorun, eklediğiniz parçaların kendiliğinden dolması, yani veri setinin kendisinden gelmesi ve bu yüzden onu desteklemesi. Eğitim ve test veri setlerinin nasıl kullanılacağına karar verirken, makine öğreniminde çapraz doğrulama / sınıflandırma çalışmasına bakarsanız, bazı problemler vardır.

Hiçbir durumda standart bir yaklaşımla karşılaşmadım - her zaman verilere özgüdür. Verilerinizin yüzde kaçının (aykırı değerlerin) belirli bir volatilite / st yüzdesine neden olduğunu bulmayı deneyebilirsiniz. sapma ve bu oynaklığı azaltmak arasında mümkün olduğunca fazla veri tutmak arasında bir denge bulmak.


6
Yukarıdaki yorumumda olduğu gibi, "onları veri kümesinden kaldırmak" burada çok güçlü. Kırpma veya Winsorizing, belli bir hesaplama için, yaptığı gibi, görmezden gelmek ya da değiştirmektir. Çürük meyveler atıyormuşçasına kuyruk değerlerini veri kümesinden çıkarmak zorunda değilsiniz . Örneğin, olası aykırı değerlerle karşı karşıya kaldıklarında, geldikleri sırada verilerin analizini yapabilir ve düzeltmeye dayalı bir analizi yapabilir ve ne gibi bir fark yarattığını görebilirsiniz.
Nick Cox

-1

Bu iyi bir soru ve karşılaştığım bir soru. Büyük bir veri kümesine sahip olduğunuz veya daha doğru bir şekilde büyük ölçüde değişken bir veri kümesine sahip olduğunuz durumlarda, veri değerlerinin azınlığının geniş bir ölçekte (ancak yine de gösterilmesi zorunludur) değişmektedir ve veri kümesinin çoğunluğu dar bir bant içindedir. Veriler olduğu gibi çizilirse, verilerin büyük çoğunluğunun kaybolduğu ve normalleştirilmesi veya standartlaştırılması, (en azından görsel olarak) yeterli bir farklılaşma göstermez veya bunun yerine ham verileri gerekli kılar. aşırı veri değerleri daha iyi veri görselleştirmesi için yardımcı olur.


Güzel bir soru, ama cevap vermiyorsun. Sadece kesmenin veya Winsorizing'ın görselleştirmeye yardımcı olabileceğini söylüyorsunuz.
Nick Cox,

-2

Winsorizing'ın bir avantajı, hesaplamanın daha verimli olabileceğidir. Gerçek bir kesilmiş ortalamayı hesaplamak için, tüm veri öğelerini sıralamanız gerekir ve bu genellikle . Bununla birlikte, tipik olarak olan hızlı bir seçim algoritması kullanarak yalnızca% 25 ve% 75 yüzdeliklerini çözmenin etkili yolları vardır . Bu uç noktaları biliyorsanız, tekrar hızlı bir şekilde veriyi dönüştürebilir ve% 25'den düşük değerleri% 25 ve% 75'den fazlasını% 75 ve ortalama ile değiştirebilirsiniz. Bu Winsor ortalaması ile aynıdır. Ancak veri üzerinden döngü ve sadece% 25 değer ile% 75 değer arasında ortalama veri kesik ortalama ile aynı değildir, çünkü% 25 veya% 75 değerler benzersiz bir değer olmayabilir. Veri sırasını göz önünde bulundurunO(nlogn)O(n)(1,2,3,4,4). Winsor ortalaması . Doğru kesilmiş ortalama . "Hızlı seçim" optimize edilmiş kesilmiş ortalama .(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
Bir medyanı hesaplamak için tüm verileri sıralamanız gerekmemektedir (istediğiniz gibi bir medyan) ya da bulmanın bir hesaplaması olduğu da doğru değildir. Medyanı bulmak için (en kötü durum) olan algoritmalar vardır . [Dahası, eğer hızlı seçim dediğiniz gibi O (n) 'deki 25'inci ve 75'inci yüzdeleri bulabilirse, neden hızlı seçim neden 50'nci O(nlogn)O(n)
yüzdeyi

Haklısın. Orijinal yayınımı yanlış yazdım. Bazen parmak yazarak parmakla beyin senkronize değildir. Doğru bir kesilmiş ortalama doğru hesaplamak demek istedim, tüm veri öğelerini sıralamanız gerekir. Bunun hala doğru olduğuna inanıyorum. Cevapla güncelleştirdim.
Mark Lakata

2
Bu, Winsorizing'in her kuyrukta% 25 Winsorizing anlamına geldiği anlamına geliyor. Winsorize olabilir ya da uygun göründüğü kadar az.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.