Yaptığınız tek şey ampirik dağılımdan yeniden örneklemekse, neden sadece ampirik dağılımı incelemek değil? Örneğin, değişkenliği tekrarlı örnekleme yoluyla incelemek yerine, neden sadece ampirik dağılımdaki değişkenliği ölçmüyoruz?
Yaptığınız tek şey ampirik dağılımdan yeniden örneklemekse, neden sadece ampirik dağılımı incelemek değil? Örneğin, değişkenliği tekrarlı örnekleme yoluyla incelemek yerine, neden sadece ampirik dağılımdaki değişkenliği ölçmüyoruz?
Yanıtlar:
Önyükleme (veya başka bir yeniden örnekleme), bir istatistiğin dağılımını tahmin etmek için deneysel bir yöntemdir.
Çok basit ve kolay bir yöntemdir (sadece istatistiğin istenen dağılımını elde etmek, tahmin etmek için örnek verilerin birçok rastgele varyantı ile hesapladığınız anlamına gelir).
Büyük olasılıkla, 'teorik / analitik' ifadeyi elde etmek / hesaplamak çok zor olduğunda kullanırsınız (veya aksakal'ın bazen bilinmediği gibi).
Örnek 1: Bir pca analizi yaparsanız ve değişkenlerde korelasyon olmadığı hipotezi göz önüne alındığında sonuçları 'özdeğerlerin sapma tahminleri' ile karşılaştırmak isterseniz .
Verileri defalarca karıştırabilir ve özdeğerler için bir dağılım (örnek verilerle rastgele testlere dayalı olarak) elde edeceğiniz şekilde pca özdeğerlerini yeniden hesaplayabilirsiniz.
Mevcut uygulamaların bir dağınıklık planına baktığını ve belirli bir öz değerin önemli / önemli olup olmadığına 'karar vermek' için başparmak kurallarını uyguladığını unutmayın.
Örnek 2: f işlevi için bir grup parametre tahmini sağlayan doğrusal olmayan bir regresyon y ~ f (x) yaptınız. Şimdi bu parametreler için standart hatayı bilmek istiyorsunuz .
OLS'de olduğu gibi artıklara ve doğrusal cebire bazı basit bakışlar burada mümkün değildir. Bununla birlikte, parametrelerin nasıl değişeceği hakkında bir fikir edinmek için aynı regresyonu birçok kez kalıntılar / hatalar ile birçok kez hesaplamaktır (hata terimi için dağılım gözlenen artıklar tarafından modellenebilir).
Yazan: StackExchangeStrike
Önemli olan, önyüklemenin gerçekten verilerin dağıtımının özelliklerini bulmak değil , verilere uygulanan bir tahmincinin özelliklerini bulmaktır .
Ampirik dağıtım işlevi gibi bir şey, verilerin geldiği CDF hakkında oldukça iyi bir tahmin söyleyecektir ... ancak izole ederek, bu verilerden oluşturduğumuz tahmin edicilerin ne kadar güvenilir olacağı konusunda size hiçbir şey söylemez. Bu, bootstrap kullanılarak cevaplanan sorudur.
Altta yatan dağılımın tam olarak ne olduğunu biliyorsanız, o zaman çalışmanıza gerek yoktur. Bazen, doğal bilimlerde dağılımı tam olarak bilirsiniz.
Dağıtımın türünü biliyorsanız, sadece parametrelerini tahmin etmeniz ve kastedilen anlamda çalışmanız gerekir. Örneğin, bazen altta yatan dağılımın normal olduğu bir önsez bilirsiniz. Bazı durumlarda bunun ne anlama geldiğini bile biliyorsunuz. Yani, normal olarak, keşfedilecek tek şey standart sapmadır. Örnek standart sapmayı örnekten alırsınız, ve çalışma için dağıtımı elde edersiniz.
Dağıtımın ne olduğunu bilmiyorsanız, ancak listedeki birkaç taneden biri olduğunu düşünüyorsanız, bu dağıtımı verilere sığdırmaya ve en uygun olanı seçmeye çalışabilirsiniz. O zaman bu dağılımı inceliyorsunuz.
Nihayet, genellikle uğraştığınız dağıtım türünü bilmiyorsunuz. Ve bunun R'nin verilerinize uyabileceği 20 dağıtımdan birine ait olduğuna inanmak için bir nedeniniz yok. Ne yapacaksın? Tamam, ortalama ve standart sapmalara bakıyorsunuz, güzel. Ama ya çok çarpıksa? Ya basıklığı çok büyükse? ve bunun gibi. Bilmek ve incelemek için dağıtımın tüm anlarını gerçekten bilmeniz gerekir. Yani, bu durumda parametrik olmayan önyükleme kullanışlı olur. Ondan çok ve basit bir örnek almazsınız, sonra anlarını ve diğer özelliklerini inceleyin.
Parametrik olmayan önyükleme büyülü bir araç olmasa da sorunları var. Örneğin, önyargılı olabilir. Parametrik önyüklemenin tarafsız olduğunu düşünüyorum