İstatistikçiler, (n-1) 'i simülasyon olmadan popülasyon varyansı için tarafsız tahmin edici olarak kullanmayı tam olarak nasıl anladılar?


67

Hesaplama varyansının formülünde payda :(n1)

s2=i=1N(xix¯)2n1

Nedenini hep merak etmişimdir. Ancak, "neden" hakkında birkaç iyi video okumak ve izlemek, öyle görünüyor ki, , nüfus varyansının iyi ve tarafsız bir tahmincisidir. Oysaki hafızayı küçük düşürmekte ve popülasyon varyansını abartmaktadır.n ( n - 2 )(n1)n(n2)

Bilmek istediğim şey şu ki, bilgisayarsızlık çağında bu seçim tam olarak nasıl yapıldı? Bunu kanıtlayan gerçek bir matematik kanıtı var mı, yoksa bu tamamen deneysel ve istatistikçiler, o zaman “en iyi açıklama” ile ortaya çıkacak bir sürü hesaplama yaptılar mı?

İstatistikçiler bu formülle 19. yüzyılın başlarında bilgisayar yardımıyla nasıl ortaya çıktılar? Manuel mi yoksa göründüğünden daha mı fazla?


13
" Bilgisayarların yardımı olmadan " demek istediğinizi varsayıyorum . Cevap - belki de şaşırtıcı olmayan bir şekilde - cebir kullanımıdır. Türetme oldukça basittir ve birçok yerde, istatistik öğrencilerinin onu alıştırma olarak türetmesi / düşük lisans olarak öğrenmesi yaygındır.
Glen_b

Bunun oldukça iyi bir açıklama yaptığını düşünüyorum: en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


Kullanmak için formül düzenledikten ve olarak payda olarak içindir örnek varyans (Latince semboller) olup nüfus varyans (Yunanca semboller). ˉ x n - 1s2x¯n1
Alexis

Yanıtlar:


40

Düzeltme Bessel'in düzeltmesi olarak adlandırılır ve matematiksel bir kanıtı vardır. Şahsen, bana kolay yoldan öğretildi: kullanarak , önyargısını nasıl düzelttiğinizdir ( buraya bakın ).E [ 1n1E[1n1n(xix¯)2]

Ayrıca, serbestlik dereceleri kavramına dayanan düzeltmeyi de açıklayabilirsiniz, simülasyon kesinlikle gerekli değildir.


15
Prova alternatifi # 3, sakin bir kişinin bile anlayabileceği güzel ve sezgisel bir açıklamaya sahiptir. Temel fikir, örnek ortalamasının nüfus ortalamasının aynı olmadığıdır. Gözlemleriniz doğal olarak popülasyon ortalamasından örnek ortalamasına daha yakın olacak ve bu da terimlerini terimleriyle küçümseyebilir . Bu muhtemelen çoğu insan için açıktır ancak önyargılı örneklem varyansının neden şimdiye kadar önyargılı olduğu konusunda "sezgiyi" hiç düşünmedim. Sadece resmi delilleri öğrendim. ( x i - ˉ x ) 2(xiμ)2(xix¯)2
WetlabStudent

2
Ayrıca n-1 ile düzeltmenin neden bir geometrik yaklaşımı vardır (Saville ve Wood'da çok iyi açıklanmıştır: İstatistiksel Yöntemler: Geometrik Yaklaşım). Kısaca söylemek gerekirse: n örneği, n boyutlu veri alanı olarak kabul edilebilir. Örnek nokta vektörleri, p parametresine karşılık gelen p boyutuna ve np boyutuna sahip bir hata vektörüne sahip olan bir model vektörüne ayrıştırılabilen gözlenen bir vektöre eklenir. Hata vektörünün karşılık gelen Pisagor dağılması, ortalama değişim için bir ölçü olan np karelere sahiptir.
giordano

Size kısa bir açıklama içeren güzel bir link vereceğim: en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

İspat (alternatif 3) biz kullanarak hem gerçek ve yanlı sapmalar hesaplanmış varsayıyorum neden açıklayabilir 'ler? Farklı varyans problemi bir popülasyona (gerçek varyanslı) ve bir örneğe (önyargılı varyansa sahip) sahip olduğumuzda ortaya çıkar. Fakat aynı verilerde, yani gibi farklılıkları hesaplarsak , neden farklı olsunlar ki? 'nin, önyargılı tamamen aynı ' ler kullanılarak hesaplanan gerçek bir varyans olduğunu düşünüyoruz . Bu ispat ile aynı fikirdeyim. Lütfen yardım edin, neyi özlüyorum? x x 1 , x 2 , . . . , x n σ 2 x s 2 yanlın xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

Gördüğüm kanıtların çoğu, Gauss'un (ancak yaptığını) muhtemelen kanıtlamanın oldukça kolay olduğunu bulduğu kadar basit.

Özgeçmiş üzerinde sizi bağlayabileceğim bir türev arıyordum (buradaki cevaplardan en az biri de dahil olmak üzere, site dışındaki kanıtlarla ilgili birkaç bağlantı var), birkaç arama, bu yüzden tamamlık uğruna, basit bir tane vereceğim. Sadeliği göz önüne alındığında, insanların genellikle Bessel’in düzeltme adı verilen şeyi kullanmaya nasıl başlayacağını görmek kolaydır .

Bu, varsayılan bilgi olarak alır ve ilk birkaç temel varyans özelliğinin bilindiğini varsayar .E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
hangi özellik ortadan ? 2x¯i=1nxi
Ciprian Tomoiagă

3
Ortadan kaybolmuyor. Son terimin işaretinin değiştiğini fark ettiniz mi?
Glen_b 28:16

1
(+1) Geçenlerde şahsen daha sezgisel bulduğuma dair harika bir kanıt duydum. faktörlü örneklem varyansı, tüm çift noktaları arasındaki tüm kare farklarının ortalaması olarak yeniden ifade edilebilir. Şimdi, aynı noktanın iki kez girdiği çiftlerin hepsinin sıfır olduğunu fark edin ve bu ifadeyi önyargılı hale getirir. Tüm bu çiftleri çifte toplamdan dışlayarak ve sadece geri kalanının ortalamalarını alarak önyargının düzeltilmesi makul görünüyor. Bu, Bessel'in düzeltmesini sağlar. 1/n
amip diyor Reinstate Monica

1
Hayır, boşver, anladım. , yani yukarıda bahsettiğiniz aynı kimliği 3. satırdaki her iki terime de uyguladınız.V[x¯]=V[x]n
tel

1
Farklı değişkenlerin herhangi biri aynı ikinci ana sahiptir. Hepsinden bahsetmekten sadece birini tartışmaya gidiyoruz. Sen gibi kolayca alabilirdi (ve bazı insanların yaptığı) ya da veya ... ama almış -incix1x2xni
Glen_b

37

Matematik Weisstein Dünyası göre, ilk referans okunabilir Gauss' Werke, hacmi 4'tür 1823 yılında Gauss tarafından ispat edildi https://archive.org/details/werkecarlf04gausrich . İlgili sayfalar 47-49 gibi görünüyor. Görünüşe göre Gauss soruyu araştırdı ve bir kanıt buldu. Latince okumam, ama metinde bir Alman özeti var. Sayfa 103-104 ne yaptığını açıklıyor (Düzenle: Kaba bir çeviri ekledim):

Allein da man nert berechtigt ist, sichersten die werthe fuer die wahren Werthe selbst zu halten, bu yüzden ueberzeugt man sich leicht, dach man düren diyetleri. als sie wirklich besitzen. [Ancak en muhtemel değerleri gerçek değerlermiş gibi ele alma hakkı bulunmadığı için, kişi kendini her zaman en olası hatanın ve ortalama hatanın çok küçük olduğunu ve bu nedenle verilen sonuçların bulunması gerektiğine ikna edebilir. gerçekten sahip olduklarından daha büyük bir doğruluğa sahip.]

bunlardan örneklem varyansının popülasyon varyansının önyargılı bir tahmini olduğu bilinen bir şeydi. Makale, ikisi arasındaki farkın genellikle göz ardı edildiğini söylemeye devam ediyor çünkü numune büyüklüğünün yeterince büyük olması önemli değil. Sonra diyor ki:

Der Verfasser Şapkası Şapkası Ölüler ve Eine Besondere Untersuchung Unterworfen, Zer einem Sehr Merkwuerdigen hoechst einfachen. Resultate gefuehrt hat. Man braucht nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler, ölmek üzere richtigen zu verwandeln, nur mit

πρπ

zu multiplicieren, wo Anzahl der beobachtungen (gözlem sayısı) und die die Anzahl der unbekannten Groessen (bilinmeyen sayısı) bedeutet. [Yazar bu nedenle, çok garip ve oldukça basit bir sonuca yol açan bu konu hakkında özel bir çalışma yaptı. Yani, bir (Verilen ifade) tarafından yukarıdaki hatalı işlem tarafından bulundu ortalama hatayı sağ birine içine değiştirmek için çoğalmaya sadece ihtiyacı gözlem ve sayısıdır bilinmeyen miktarlarda sayısıdır.]πρπρ

Yani, bu gerçekten düzeltmenin ilk kez bulunması halinde, Gauss tarafından yapılan zekice bir hesaplama tarafından bulundu, ancak insanlar zaten bazı düzeltmelerin gerekli olduğunun farkındaydı, belki de başka birisi bunu daha önce ampirik olarak bulabilirdi. . Ya da muhtemelen önceki yazarlar kesin cevap türetmekle ilgilenmedi çünkü zaten oldukça büyük veri kümeleriyle çalışıyorlardı.

Özet: el kitabı, ancak insanlar zaten payda oldukça doğru olmadığını biliyordu .n


Birisi Almanca çevirisini sağlayabilirse, iyi olurdu. Birincisi Almanca okumuyorum.
Faheem Mitha

2
Evet, Google Translate, yazım hatalarım nedeniyle çok iyi çalışmıyor! Çeviri girişimi ekleyeceğim; Almancamı pratik yapmanın iyi bir yolu olacak.
Flounderer

14

Benim için bir sezgi parçası

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

Yani,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

Aslında yukarıdaki denklemi kanıtlamak biraz cebir alır (bu cebir yukarıdaki @ Glen_b'in cevabına çok benzer). Ancak bunun doğru olduğunu varsayarak, aşağıdakileri yeniden ayarlayabiliriz:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

Benim için, bir başka sezginin parçası , yerine kullanmanın önyargıya yol açmasıdır. Ve bu önyargı tam olarak eşittir . μE[ ( ˉ X -μ ) 2]=σ2X¯μE[(X¯μ)2]=σ2n


12

Cevapların çoğu, bunu ayrıntılı bir şekilde ayrıntılı bir şekilde açıkladı, ancak bunlardan başka, birinin yararlı bulabileceği basit bir örnek var:

Diyelim ki ve ilk üç sayının:n=4

8,4,6 , _

Şimdi dördüncü sayı hiçbir kısıtlama olmadığı için olabilir. Şimdi ve olduğu zaman durumu düşünün , o zaman ilk üç sayı: ise dördüncü sayı .ˉ x = 6 8 , 4 , 6 6n=4x¯=68,4,66

Bu, eğer değerlerini ve olduğunu biliyorsanız , değerinin özgürlüğü yoktur. Böylece bize tarafsız bir tahmin edici verir.ˉ x n t s n - 1n1x¯nthn1

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.