Bootstrapping - önce aykırı değerleri çıkarmam gerekir mi?


19

Yeni bir ürün özelliği için ayrı bir test yaptık ve gelirdeki artışın önemli olup olmadığını ölçmek istiyoruz. Gözlemlerimiz kesinlikle normal olarak dağıtılmamıştır (kullanıcılarımızın çoğu harcama yapmaz ve bunu yapanların içinde çok sayıda küçük harcayan ve birkaç çok büyük harcayan kişiye doğru eğilir).

Araçları karşılaştırmak, normal olarak dağıtılmayan verilerin konusunu ele almak için önyükleme kullanmaya karar verdik (yan soru: bu önyüklemenin meşru bir kullanımı mı?)

Benim sorum, önyüklemeyi çalıştırmadan önce veri kümesindeki aykırı değerleri kesmem gerekiyor mu (örn. Çok az sayıda harcama yapan kişi), ya da bu önemli değil mi?


1
İyi soru: Muhtemelen pro ve aykırı değerlerin kaldırılmasına karşı tartışabilirim. Aykırı değerlerden endişe ediyorsanız ve aradığınız şey sadece "merkezi bir eğilim" ise neden medyan kullanmıyorsunuz? Parayla ilgili değişkenlerin genellikle ilk etapta mantıksız olmayabilecek yüksek eğri dağılımına (ör. Pareto) sahip olduğu göz önüne alındığında.
usεr11852 diyor Reinstate Monic

1
@ user11852 Medyacılar ortalama gelir hakkında çok az şey söyler, bu gelirle ilgilidir. Argümanınızı, özellikle de toplam gelire büyük katkıda bulunanlar olduğunda, "aykırı değerlerin" kaldırılması lehine görmek ilginç olacaktır.
whuber

1
Ne yazık ki medyan her zaman sıfır olur, çünkü kullanıcıların <% 10'u hiç harcar
user31228

2
@ user11852 Aykırı değerlerin meşru olduğu konusundaki genel argümanınız yardımcı olur. Ancak, amplifikasyon olasılığı ile ilgili olarak, bana göre tam tersi: önyükleme sadece tam örnek kullanılırsa çalışma şansına sahiptir. Aksi takdirde, aykırı değerler olmasaydı olayların nasıl olacağını bize söyleyen bir masal sunar - ama belli ki öyle. Daha büyük sorun, önyüklemenin küçük örneklere uygulandığında çok az teorik gerekçeye sahip olmasıdır: teori asimtotik bir teoridir .
whuber

2
Bu önemli bir soru (+1). Veri kümenizin küçük bir örneğini veya soruya benzeyen simüle edilmiş bir örneği ekleyebilir misiniz? Bence bu örnekte bir örnek vermek daha verimli olacaktır.
user603

Yanıtlar:


6

Bunu ele almadan önce, "aykırı değerlerin giderilmesi" nin istatistiksel yanlış uygulamasının, uygulanan istatistiksel pedagojinin çoğunda yanlış bir şekilde yayınlandığını kabul etmek önemlidir. Geleneksel olarak aykırı değerler, yüksek kaldıraç, yüksek etkili gözlemler olarak tanımlanır. Verilerin analizinde bu tür gözlemler tanımlanabilir ve tanımlanmalıdır, ancak bu koşullar tek başına bu gözlemlerin kaldırılmasını gerektirmez. "Gerçek bir aykırı değer", deneysel tasarımın kopyalarıyla tutarsız olan yüksek kaldıraç / yüksek etki gözlemidir. Bir gözlemi bu şekilde değerlendirmek, o nüfus ve "veri oluşturma mekanizması" nın arkasındaki bilim hakkında uzmanlık bilgisi gerektirir. En önemli yönü, potansiyel aykırı apriori tanımlayabilmenizdir .

Şeylerin önyükleme yönüne gelince, önyükleme örnekleme popülasyonundan bağımsız, tekrarlanan çekimleri simüle etmek içindir. Analiz planınızda hariç tutma ölçütlerini önceden belirtirseniz, yine de referans önyükleme örnekleme dağılımında hariç tutulan değerleri bırakmanız gerekir . Bunun nedeni, verilerinizi örnekledikten sonra hariç tutma uygulamalarından kaynaklanan güç kaybını hesaba katacağınızdır. Ancak, önceden belirlenmiş bir hariç tutma ölçütü yoksa ve aykırı değerler, açıkça karşı karşıya olduğum için, post hoc yargılama kullanılarak kaldırılırsa , bu değerlerin kaldırılması, aykırı değerlerin çıkarılmasından kaynaklanan çıkarımlarda aynı hataları yayar.

100 kişinin sınıflandırılmamış basit rastgele bir örneğinde zenginlik ve mutluluk üzerine bir çalışma düşünün. Eğer "nüfusun% 1'i dünya servetinin% 90'ına sahiptir" ifadesini alırsak, o zaman ortalama olarak çok etkili bir değer gözlemlerdik. Ayrıca, temel bir yaşam kalitesi sağlamanın ötesinde, daha büyük gelire (sabit olmayan doğrusal eğilim) atfedilebilecek fazla mutluluk olmadığını da varsayalım. Yani bu birey de yüksek kaldıraçtır.

Katıştırılmamış verilere uyan en küçük kareler regresyon katsayısı, bu verilerdeki popülasyon ortalamasının birinci derece eğilimini tahmin etmektedir. Mutluluğu ortalama gelir düzeyine yakın olanlarla tutarlı olan örneklemdeki 1 bireyimiz tarafından yoğun bir şekilde zayıflatılır. Bu bireyi çıkarırsak, en küçük kareler regresyon eğimi çok daha büyüktür, ancak regresörün varyansı azalır, bu nedenle ilişki hakkındaki çıkarım yaklaşık olarak aynıdır. Bunu yapmanın zorluğu, bireylerin hariç tutulacağı koşulları önceden belirtmememdi. Başka bir araştırmacı bu çalışma tasarımını çoğaltırsa, ortalama bir yüksek gelirli, orta derecede mutlu bir birey örnekleyecek ve "kırpılmış" sonuçlarımla tutarsız sonuçlar elde edeceklerdi.

Eğer ılımlı gelir mutluluğu derneğiyle ilgilenen apriori olsaydık, o zaman, örneğin "yıllık 100.000 $ 'dan az hane halkı geliri elde eden bireyleri karşılaştırırız". Bu yüzden aykırı değerlerin kaldırılması tarif edemeyeceğimiz bir ilişkiyi tahmin etmemize neden olur, dolayısıyla p değerleri anlamsızdır.

Öte yandan, yanlış kalibre edilmiş tıbbi ekipman ve yüz ifadeleriyle kendini gösteren anket yalanları kaldırılabilir. Dışlama ölçütleri, gerçek analiz yapılmadan önce ne kadar doğru bir şekilde tanımlanabilirse, böyle bir analizin üreteceği sonuçlar o kadar geçerli ve tutarlı olur.


Nedenini anladığımdan emin değilim " Analiz planınızda hariç tutma ölçütlerini önceden belirlerseniz, yine de referans önyükleme örnekleme dağıtımında hariç tutulan değerleri bırakmalısınız. " Bunun olduğunu "söylüyorsunuz çünkü verilerinizi örnekledikten sonra hariç tutma uygulamak. "Örneklemeden sonra hariç tutma ölçütlerini uygulamanın neden güç kaybına yol açtığını veya hariç tutulan örneklerin" neden hesaplar "(?) ayrıca bunun neden açık bir şekilde "açıklanması" gereken bir şey olduğu da açıktır. Belki burada yoğun oluyorum.
Jake Westfall

Peki bu sizin örnekleme kuralınıza bağlıdır. 100 birey üzerinde veri toplamak ve bunların 5'i uygun olmayan ve dışlanmış iseniz, olabilir 95 hak katılımcılardan 95 gözlemleri yeniden örnekleme bootstrap, ama bu potansiyel, nüfus rastgele 10 100 bireyleri resampled eğer gerçeğini yansıtır olmaz veya 8 veya 4 veya 0'ı çalışma özelliklerinize göre uygun değildir. Bu tür bir belirsizlik , sıfır hipotezi altında değerinin dağılımını ve yorumunu etkiler . Unutmayın, bootstrap bu tür bir örneklemeyi simüle etmeyi amaçlamaktadır. p
AdamO

Hmm, benim düşüncem, eğer hariç tutma kriterlerini önceden belirtmiş olsaydı - belli tip vakalarla açıkça ilgilenmiyoruz ve muhtemelen gelecekteki çalışma kopyaları aynı hariç tutma kriterlerini kullanacaktı - o zaman ayrılmak mantıklı olurdu Bu vakalar bootstrap örneğinden çıkar, çünkü bunlar hakkında herhangi bir çıkarımda bulunmak istemediğimiz nüfusun bir bölümüdür. Geleceğin çoğaltmaları vakaların farklı bir oranda hariç sonunda nasıl görüyorsunuz, ama oldukça bağlantı yapamazsınız neden açıkça bu durumlar için bu konularda edilir .. ilgilenen
Jake Westfall

1
diyerek şöyle devam etti: "o zaman bu davaları bootstrap örneğinin dışında bırakmak mantıklı olurdu, çünkü bunlar herhangi bir çıkarım yapmak istemediğimiz bir nüfus bölümüdür." Bootstrap'in bu vakaları örneklemesine izin verin, onları bootstrap örneklenmiş popülasyona uygun modelden çıkarın diyorum. Bunu yapmak, her BS yinelemesinin etkili numune boyutunun değişmesine izin verir. Bu şekilde, değerinin altındaki dağılımı , örnek büyüklüğü belirsizliğine bağlıdır (yani, kusurlu bir popülasyondan gelen sabit bir numunedeki kaç vakanın atılması gerekeceğini H 0pH0
bilmemek

0

Buna aykırı bir sorun olarak bakmak benim için yanlış görünüyor. "Kullanıcıların <% 10'u hiç harcama yapmıyorsa", bu yönü modellemeniz gerekir. Tobit veya Heckman regresyonu iki olasılık olabilir.


2
Şu anda, bu bir cevaptan çok bir yorumdur. Daha fazla cevap vermek için biraz genişletmeyi düşünür müsünüz?
gung - Monica'yı eski durumuna getirin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.