Bir tahminci ile istatistik arasındaki fark nedir?


30

Bir istatistiğin örneklerden elde edebileceğiniz bir nitelik olduğunu öğrendim. Aynı büyüklükte birçok örnek alarak, bu özniteliği hepsi için hesaplayarak ve pdf'yi çizerek, ilgili özniteliğin dağılımını veya ilgili istatistiklerin dağılımını elde ettik.

İstatistiğin tahmin ediciler için yapıldığını da duydum, bu iki kavram nasıl farklılık gösteriyor?


2
Tüm cevaplar için teşekkürler ... Konsept artık benim için çok daha net ...
gutto

Yanıtlar:


17

Tanım

Wikipedia'dan:

Bir istatistik [...] bir numunenin bazı niteliklerinin tek bir ölçüsüdür (örneğin, aritmetik ortalama değeri).

Ve

[A] n tahmincisi , gözlenen verilere dayanarak verilen bir miktarın [temel dağılımın] bir tahminini hesaplamak için bir kuraldır.

Önemli fark:

  • Bir istatistik , bir numunenin bir fonksiyonudur.
  • Bir tahminci , bir örneğin işlevidir dağılımın bir miktarıyla ilgili .

("Miktar" ın anlamı için aşağıdaki bölüme bakın.)

Bir istatistik bir tahmin edici değildir

Bir tahmincisi bir olan istatistik eklenmiş şey içeren . Bir istatistiği tahmin ediciye dönüştürmek için, hangi hedef miktarı tahmin etmek istediğinizi açıklamanız yeterlidir. Bu kafa karıştırıcı, çünkü istatistiklere "gerçek" bir şey eklemiyorsunuz, sadece bir niyeti var.

Farkın önemli olduğunu görmek için, sadece bir istatistik için tahmin edicinin özelliklerini (örn. Önyargı , varyans vb.) Hesaplayamadığınızı anlamalısınız . Hesapla için önyargı , size istatistik sizi ve gerçek değeri verir değeri arasındaki farkı bulmak zorunda. Sadece bir tahminci, önyargıyı hesaplamaya yarayan "gerçek değer" ile gelir. Bir istatistik yalnızca verinin bir işlevidir ve ne doğru ne de yanlıştır.

Aynı istatistiği temel alan farklı tahminciler

Aynı istatistik için farklı hedef miktarları yazabilirsiniz, böylece farklı tahmin ediciler ortaya çıkabilir. Bu tür tahmin edicilerin her birinin kendi önyargısı vardır, ancak hepsi aynı değere, aynı istatistike dayanır.

  • Örnek ortalamasını , dağıtım ortalaması için bir tahmin edici olarak kullanabilirsiniz . Bu tahmin edicinin sıfır önyargısı var .
  • Örnek ortalamasını , dağıtım varyansı için bir tahmin edici olarak da kullanabilirsiniz . Bu tahminci çoğu dağıtım için önyargılıdır .

Yani "örnek ortalama tarafsızdır" demek mantıklı değil. Dağılım ortalamasını tahmin etmek için kullandığınızda örnek ortalama tarafsızdır. Ancak aynı zamanda, dağıtım varyansını tahmin etmek için kullanırken yanlılığı vardır.

Dağılım miktarları ve örneklem miktarları

Buradaki miktar , dağılımın genellikle bilinmeyen ve dolayısıyla tahmin edilmesi gereken bazı özelliklerine atıfta bulunur. Bu, bir numunenin özelliği olan bir istatistiğin aksine , örneğin, dağıtım ortalaması dağıtımınızın bir miktarıdır, örnek ortalamanın ise bir istatistiği olduğu (numune miktarınız).


1
Bu alıntılarda açıkça yanlış bir şey yok, ancak beni tam olarak "miktar" ile ne kastedildiği konusunda şaşırtıyorlar. Örneğin, alıntıların bir "niceliğin" aynı verilere dayanan başka bir istatistik olması veya belki de ayrı bir benzer verilere dayanan başka bir istatistik olması olasılığını dışladığı görülmemektedir. (İkinci durumda, ilk istatistik bir tahmin aracı olarak kullanılabilir . Eski durumda bunun için bir isim olduğunu sanmıyorum, ancak kesinlikle "tahmin edici" değil.)
whuber

@whuber Bkz. düzenleme. Başlangıçta kısa bir cevap vermek istedim ... :(
ziggystar

Muhtemelen, örnek ortalama ve örnek medyan, yalnızca dağılımın ortanca = ortalama olduğu bir
değerse

Benim eleştirim, düzenlemenin ışığında daha az anlamlı. Sadece birçok dağılımda medyan! = Demek olduğunu söylüyordum, bu nedenle örnek medyan ve örnek ortalaması bu gibi durumlarda aynı değere yakın olmayacak (yani aynı şeyi tahmin etmeyin).
Stumpy Joe Pete

1
@ Stumpy Burada hafif bir yanılgı olduğunu düşünüyorum. Ortanca ve kastın aynı şeye (veya herhangi bir şeye) "yakınsama" olması önemli değildir. Bunu açıklığa kavuşturmak için biraz saçmalanmama izin verin: İstersem , ortalamayı tahmin etmek için örneklem varyansını kullanabilirim. Kesinlikle teorik bir kısıtlama yoktur - bu da olamaz - bunu yapamayacağımı söylüyor. Prosedürüm tanımın tüm kısımlarını yerine getiriyor: örneklem varyansı gerçekten bir istatistik ve ortalama gerçekten de temel dağılımın bir özelliği. Tanımlar için, bunun (çoğu zaman) korkunç bir prosedür olduğu konu dışıdır.
whuber

15

Bu konu biraz eski, ancak Vikipedi'nin tanımını değiştirmiş olabileceği açık ve doğru ise, bana daha açık bir şekilde anlatıyor:

Bir "tahmin edici" veya "nokta tahmini", istatistiksel bir modelde bilinmeyen bir parametrenin değerini ortaya çıkarmak için kullanılan bir istatistiktir (verilerin bir işlevidir).

Dolayısıyla bir istatistik, verinin kendisine ve bu verilerle yapılan bir hesaplamaya işaret eder. Bir tahminci modeldeki bir parametreyi ifade ederken.

Doğru anlarsam, o zaman, ortalama bir istatistik ve aynı zamanda bir tahminci olabilir. Numunenin ortalaması bir istatistiktir (numunenin boyutuna bölünen numunenin toplamı). Bir örneğin ortalaması, normal dağıldığı varsayılarak, nüfusun ortalamasının bir tahmincisidir.

@Whuber'a ve (yeni?) Wikipedia'daki alıntıların doğru olup olmadığını gerçekten bilen başkalarına sorardım.


6
+1 Temelde doğru olduğunu düşünüyorum. Bir tahmin edicinin hedefinin mutlaka bir modelin belirli bir "parametresi" olması gerekmediğini bilmek ilginizi çekebilir: Bu , modelin parametrelerinin bir işlevi gibi herhangi bir özelliği olabilir . Örneğin, Normal ( μ , σ 2 ) modeli için bir parametre değildir , ancak tahmin edilebilir. μ2(μ,σ2)
whuber

5

Aynı olduklarını söyleyen diğer cevaplar yetkili referans vermez, size Casella ve Berger'in İstatistiksel çıkarım el kitabından iki alıntı vereyim :

Tanım 5.2.1 Let , bir rastgele boyutta numune olabilir , n bir popülasyondan ve izin T ( X 1 , ... , x , n ) , etki alanı örnek uzay içeren bir gerçek değerli veya vektör değerli fonksiyonu arasında ( X 1 , ... , XX1,,XnnT(x1,,xn) . Sonra rastgele değişken veya rastgele vektör Y = T ( X 1 , , X n )(X1,,Xn)Y=T(X1,,Xn) olarak adlandırılır.istatistik .. İstatistik olasılık dağılımı adlandırılan örnek dağılımı YYY

ve

Tanım 7.1.1 Bir nokta tahmincisi herhangi bir fonksiyondur W(X1,,Xn) ; yani, herhangi bir istatistik bir nokta tahmincisidir.

Ben am değil sadece vurgulamak ters bu olmadığını söylüyor bir referans vererek, bir fark olduğunu düşündürmektedir iki en upvoted yanıtlarla kabul görünüyor, çünkü bu soruya kesin bir cevap olduğunu burada söyleyerek Kesilmiş dava.


4

"6" bir tahmin edici örneğidir. Sorunuzun "en iyi doğrusal işlev eşlemesinin x ile y arasındaki eğimi nedir?" Deyin. Cevabınız "6" olabilir. Veya . Her ikisi de tahmin edicilerdir. Hangisinin daha iyi olduğuna karar vermek için bırakılmıştır. (XX)1XY

Gerçekten iyi bir TA bir zamanlar bir tahminci kavramını bana bu şekilde açıkladı.

Temel olarak, bir tahminci, değerini bilmediğiniz bir miktar elde etmek için verilere uyguladığınız bir şeydir. İstatistiğin değerini biliyorsunuz - bu, onun hakkında "en iyi" veya "optimal" olmayan verilerin bir fonksiyonudur. "En iyi" demek yok. Sadece bir anlamı var.

Kişi başına düşen keçi sayısı ve her birinin mutluluğu hakkında bir veri kümeniz olduğunu varsayalım. İnsanların mutluluğunun sahip oldukları keçi sayısı ile nasıl değiştiğiyle ilgileniyorsunuz. Bir tahminci, bu ilişkiyi verilerinizden tahmin etmenize yardımcı olabilir. İstatistikler, sahip olduğunuz verilerin işlevleridir. Örneğin, keçi mülkiyetinin varyansı 7'ye eşit olabilir. Varyansı hesaplamak için kullanılan form, keçiler ve kızartma makineleri arasında veya kanser almak için mutluluk ya da eğilimle ilgilenmek isteyip istemediğinizle aynı olacaktır. Bu anlamda, tüm mantıklı tahmin ediciler istatistiktir.


3

İlginç soru. Tahmin ediciler ve istatistiklerin farklı şeyler olması gerekmez. Onlar farklı kavramlar.

Bir istatistik, girişin (istatistiksel) veri olduğu bir fonksiyondur (geniş anlamda). Sonuç, bu istatistikten genellikle bir sayı elde edersiniz. Daha soyut bir terimde, bir istatistik birden fazla sayı verebilir. İstatistik, verilere bağlıdır, ancak prosedür belirleyicidir. Bu yüzden istatistik şu şekilde olabilir: "Tüm sayıları topla ve sayıya göre böl" ya da daha geniş anlamda "gdp verilerini al ve rapor hazırla".
İstatistiksel anlamda, elbette istatistik olarak matematiksel bir işlevden bahsediyoruz.

Bunun önemi, girdiğiniz verilerin özelliklerini biliyorsanız (örneğin rasgele bir değişkene neden oluyorsa), o zaman gerçekten ampirik veriler vermeden istatistiğinizin özelliklerini hesaplayabilirsiniz.

Tahminciler, sizin amacınız olan tahmincilerdir: bir mülkü tahmin etmek. Anlaşıldığı üzere, bazı istatistikler iyi tahmin edicilerdir.
Örneğin, veri noktalarını bir iid değişken havuzundan çıkarırsanız, aritmetik ortalama - çektiğiniz verilere dayalı bir istatistik, muhtemelen bu dağılımın beklenen değeri için iyi bir tahminci olacaktır. Ama sonra yine bir tahmin üreten herhangi bir şey bir tahmin edicidir.

Uygulamada, kullandığınız tahmin ediciler istatistik olacaktır, ancak tahmin ediciler olmayan istatistikler de vardır. Örneğin test istatistikleri - bir kişi bu ifadenin anlamını tartışabilir ve sorunları daha da kötüleştirecek olsa da, bir test istatistiği yalnızca tahmin edicileri değil, aynı zamanda tahmin edicileri de içerebilir. Kavramsal olarak bu durum böyle olmak zorunda değil.

Ve tabii ki, tahmin edilemeyecek kadar iyi olmasa da, istatistik olmayan tahmin edicilere sahip olabilirsiniz.


1
2nnn+1

Evet, “bir değer seçmenin” deterministik bir istatistik olduğunu ve önceden olan her şeyin, seçtiğiniz numunenin değiştirilmesiyle ilgili olduğunu iddia ediyorum. O zaman yine “prosedür” den sonra yapacaksınız - determinist ise, istatistikî tanımımda benim stokastik unsurlara izin verebilirim ... İstatistiksel olmayan tahmin edicilerin en azından herhangi bir veriden bağımsız olanlar olabileceğine işaret edin. Örneğin, aşağıdaki cevabın numarası "6" dır. Lütfen istatistik dışı tahmin edicilerin mutlaka kötü olduğunu söylemediğimi unutmayın .
IMA

1
Bence belki de gereksiz olan ve sonunda açıklamalarınızı zorlaştıran çok fazla ince ayrım yapıyorsunuz. Örneğin, "1/2", bir Bernoulli değişkeninin parametresinin büyük bir tahmincisidir (kuadratik kayıp için minimaxtır), bu nedenle, yalnızca verilerden bağımsız olduğu için bunu ekarte etmek utanç verici olur. (Bu, Öklid geometrisindeki dikdörtgenlerin örnekleri olarak kareleri dışlamakla aynı olacaktır: bunu yapabilirdiniz, ancak bu daha sonra dikdörtgenlerin özellikleriyle ilgili çoğu ifadenin uzunluğunu ikiye katlardı.) Benzer şekilde randomize istatistiklerin ekarte edilmemesine yardımcı olur.
whuber

Aynı şeyden gerçekten bahsettiğimizi sanmıyorum. Nerede herhangi bir şeyi ekarte edebilirim? Eğer yarısı harika bir tahminci ise, o zaman olduğu bir durumdur. Sadece tahminci olmama olasılığının tahmin edicilerin çoğunun oldukça iyi olduğunu sanmıyorum. Bernoulli değişkeni için "1/2" iyidir. -Aslında- “Gerçek sayı” sınıfından diğer birkaç tahminci pek iyi değil, aynı fikirde değil misiniz? Halen verilere dayanan randomize istatistikler konusunda hala belirleyici bir prosedür gerektireceğini söyleyeceğim için ekarte etmedim. Ama bunu yukarıda eklemem gerektiğini kabul ediyorum.
IMA

2

Bir örneğin neye yardımcı olduğunu daha iyi anlayacağımı düşünüyorum .

[Güncelleme: Örnek çok geniş bir kavram, "rastgele örnek" den bahsediyordum. Bir tahmin edicinin, örnek rastgele olmadığı zamanlarda bir anlam ifade edip etmediğini bilmiyorum .]

dan wikipedia :

Rastgele bir örnek, popülasyonun her bir üyesinin, numunenin bir parçası olarak seçilmiş, sıfır olmayan bir şansa sahip olduğu bir örnek olarak tanımlanır.

nnnnn numunesi.

Tahmin edicideki örneği, numunenin değeriyle değiştiririz. Tahmin edicinin değerini alırız, bu özel bir önlemdir. Ve bu özel ölçü bir istatistiktir.

( Tahmin edicinin tanımı için bu bağlantıyı kontrol edin , son cümle neden hep kafamızın karıştığını ortaya koymaktadır.)


1

Bu Yazı Yazısının Amacı:

Burada yapmak istediğim, "istatistik" ve "tahmin edici" olarak adlandırılan, birbiriyle yakından ilişkili iki kavram arasındaki benzerlik ve farklılıkları sağlamak. Ancak, bir istatistik ve tahminci arasındaki farklarla mücadele eden herkes için yeterince açık olduğunu düşündüğüm bir parametre ile istatistik arasındaki farklardan geçmek istemiyorum. Sizin için durum böyle değilse, önce daha önce yayınları okumanız, sonra da bu yayını incelemeye başlamanız gerekir.

İlişki:

Temel olarak, bir örnekteki gözlemlenebilir rastgele değişkenlerin gerçek değerli fonksiyonlarına istatistik denir. Eğer iyi tasarlanmışlarsa ve bazı iyi özelliklere sahiplerse (örneğin tutarlılık, ...), nüfusun altta yatan dağılımının parametrelerini tahmin etmede kullanılabilecekleri bazı istatistikler vardır. Bu nedenle, istatistikler büyük bir kümedir ve tahminciler, istatistik kümesinin içinde bir alt kümedir. Dolayısıyla, her tahmin edici bir istatistiktir, ancak her istatistik bir tahmin edici değildir.

benzerlikler:

Benzerliklerden bahsetmek, daha önce de belirtildiği gibi, her ikisi de rastgele değişkenlerin işlevleridir. Ayrıca, her ikisi de "örnekleme dağılımları" olarak adlandırılan dağıtımlara sahiptir.

farklılıklar:

Farklılıklardan bahsetmişken, hedefleri ve görevleri bakımından farklıdırlar. Bir istatistiğin hedefleri ve görevleri bir örnekteki bilgileri özetliyor olabilir (yeterli istatistik kullanarak) ve bazen hipotez testi yapıyor olabilir. Buna karşılık, bir tahmincinin adının da belirttiği gibi temel amacı ve görevi tahmin etmektir. çalışılan popülasyonun parametreleri. MOME'lar, MLE'ler, OLS tahmin edicileri vb. Gibi her birinin arkasında kendi hesaplama mantığına sahip olan çok çeşitli tahmin ediciler bulunduğundan bahsetmek önemlidir. Bu iki kavram arasındaki bir başka fark da istenen özellikleri ile ilgilidir. Bir istatistiğin en çok istenen özelliklerinden biri "yeterlilik" olmakla birlikte, bir tahmin edicinin istenen özellikleri "tutarlılık", "tarafsızlık", "kesinlik" vb.

Dikkat:

Bu nedenle, istatistik ve tahmincilerle ilgilenirken terminolojiyi doğru kullanmak konusunda dikkatli olmanız gerekir. Örneğin, salt bir istatistiğin yanlılığı hakkında konuşmak pek bir anlam ifade etmiyor; bu, hiçbir şekilde bir tahmin edici değil çünkü önyargıyı hesaplayabilmemiz için böyle bir bağlamda yer alan herhangi bir parametre yoktur ve Bunun hakkında konuşmak. Bu nedenle, terminoloji konusunda dikkatli olmanız gerekir!

Alt çizgi:

Özetlemek gerekirse, bir numunedeki gözlemlenebilir rastgele değişkenlerin herhangi bir fonksiyonu bir istatistiktir. Eğer bir istatistik bir popülasyonun parametresini tahmin etme yeteneğine sahipse, biz buna bir tahminci olarak adlandırırız (ilgilenilen parametrenin). Bununla birlikte, parametreleri tahmin etmek için tasarlanmamış bazı istatistikler vardır, bu yüzden bu istatistikler tahmin ediciler değildir ve burada bizlere "sadece istatistik" diyoruz.

Yukarıda sunduğum şey, bu iki kavramı görüp düşünme biçimim ve basit sözlerle anlatmak için elimden geleni yaptım. Umut ediyorum bu yardım eder!


0

Eski bir soruya yeni cevap:

Tanım 1. Bir istatistik gerçek sayıya her numuneyi eşleştiren bir fonksiyondur.

Her tahmin edici bir istatistiktir.

Ancak, yalnızca tahminler ("tahminler") tahmincisi oluşturmak için kullanılan istatistiklerin bazılarını tahmin edici olarak adlandırmaya meyilliyiz.

Örneğin, t istatistiği ve örnekleme ortalaması BOTH istatistiğidir. Örnek ortalama aynı zamanda bir tahmin edicidir (çünkü gerçek popülasyon ortalamasını tahmin etmek için sıklıkla kullanırız).

Buna karşılık, nadiren / hiç bir zaman t-istatistiğine bir tahminci diyoruz, çünkü nadiren / asla herhangi bir parametreyi tahmin etmek için kullanmıyoruz.

Aşağıdaki örnekte, Pbir istatistik, ancak bir tahmin edici değil. SüreS hem istatistik hem de tahmin edicidir.

Örnek_

İlgi parametremizin ortalama sonuç olduğunu varsayalım θ bir die-roll.

θ is some fixed real number that is perhaps known only to God. Nonetheless, we can try to estimate it.

Here's one possible method. We roll a die 3 times.

A sample is any s=(x1,x2,x3), where x1 is the outcome of the first roll, x2 that of the second, and x3 that of the third.

Here are three examples of samples: s1=(5,4,1), s2=(4,1,6), and s3=(6,3,2).

Here are two examples of statistics P and Q (remember that a statistic is simply a function). Define P and Q by: For any s=(x1,x2,x3),

P(s)=x1ln(x2+x3),
Q(s)=x1+x2+x33.

The statistic P is a rather-bizarre statistic and is probably not very useful for anything. Nonetheless, it is a statistic all the same, simply because it satisfies the definition of a statistic (it is a function that maps each sample to a real number).

Q is also a statistic. But in addition, it is also an estimator for the parameter θ.

(We could, of course, claim that P is also an estimator for θ. But it would be a very poor estimator that no one would want to use.)


1
This answer is headed in a good direction. "Definition 2," though, does not appear to be a valid definition, because of its circularity (it defines "estimator" in terms of "estimate" without explaining the latter). For it to be effective you need to explain what an "estimate of a parameter" is in sufficient detail and clarity that people can formulate quantitative measurements of how well an estimator works.
whuber

@whuber: I'm trying to keep it simple. A parameter is any real number (e.g. the average outcome θ of a die roll). Informally, an estimate for a parameter is simply a "guess" of what a parameter is. An estimate is thus simply also a real number. (E.g., an estimate of θ is 5.) // The question of "how to formulate quantitative measurements of how well an estimator works" is entirely distinct from the simpler and more basic question of the distinction between a statistic and an estimator. Which is the question here.
Kenny LJ

2
Unfortunately, as I was trying to suggest, something essential seems to have been lost in the simplification, because your second definition does not distinguish an estimator from any other statistic at all.
whuber

@whuber: That's right. Formally, an estimator is simply a statistic. But we tend to use the word "estimator" to refer to a statistic if that statistic is used to estimate some parameter-of-interest. I have edited my answer to clarify this point.
Kenny LJ

-3

In hypothesis testing :

A test-statistic is about hypothesis testing. A test-statistic is a random variable given/under the null hypothesis. Now, some may call a statistic the value/measure of the test-statistic given the sample.

With these two you can get the p-value which is a measure that helps to reject or not reject the null hypothesis. All in all, a statistic is an estimation of how far/close to your hypothesis.

This link may be useful.


2
You seem to be addressing a different question, something related to hypothesis tests rather than estimation. Your definition of "statistic" is much more restricted in scope than standard definitions are: statistics apply to all forms of decision making, not just the very limited cases of hypothesis testing and null hypotheses. Moreover, hypothesis tests are not the same as estimators and most statistics are not used as estimators of nearness to some hypothesis.
whuber

I wouldn't say it's a different question. It gives a picture about what it is in the context of hypothesis testing at least!
dfhgfh

2
Because this answer focuses on a limited and specialized version of the question and uses the key terms "estimator" and "statistic" in unconventional ways, without alerting the reader to that fact, I worry that it may mislead or confuse people.
whuber

I thought Hypothesis testing was far to be a limited and specialized field of statistics.
dfhgfh
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.