Nüfusun herhangi bir niceliksel özelliği “parametre” midir?


13

İstatistik ve parametre terimleri arasındaki farkı çok iyi biliyorum. Bir istatistiği örnek verilere bir işlev uygulanmasından elde edilen değer olarak görüyorum. Bununla birlikte, çoğu parametre örneği bir parametrik dağılımın tanımlanması ile ilgilidir. Yaygın bir örnek, normal dağılımı veya doğrusal bir regresyonu parametreleştirmek için katsayıları ve hata varyansını parametreleştirmek için ortalama ve standart sapmadır.

Bununla birlikte, popülasyon dağılımının daha az prototipik olan (örneğin, minimum regresyonda minimum, maksimum, r-kare, .25 kantil, medyan, sıfır olmayan katsayıya sahip öngörücülerin sayısı, çarpıklık, sayı) başka birçok değeri vardır. .3'ten daha büyük bir korelasyon matrisindeki korelasyonların oranı).

Böylece, sorularım :

  • Bir popülasyonun herhangi bir niceliksel özelliği "parametre" olarak etiketlenmeli mi?
  • Evet ise, neden?
  • Hayırsa, hangi özellikler parametre olarak etiketlenmemelidir? Ne etiketlenmeli? Ve neden?

Karışıklık konusunda detaylandırma

Tahminciler hakkındaki Wikipedia makalesinde şunlar belirtiliyor:

Bir "tahmin edici" veya "nokta tahmini", istatistiksel modelde bilinmeyen bir parametrenin değerini çıkarmak için kullanılan bir istatistiktir (yani verilerin bir işlevi).

Ama bilinmeyen değeri .25 kantil olarak tanımlayabilirim ve o bilinmeyen için bir tahminci geliştirebilirim. Yani, bir popülasyonun tüm niceliksel özellikleri, ortalama ve sd'nin normal bir dağılımın parametreleri olduğu gibi parametreler değildir, ancak herhangi bir nicel popülasyon özelliğini tahmin etmeye çalışmak meşrudur.

Yanıtlar:


15

Bu soru, istatistiklerin ne olduğu ve iyi bir istatistiksel analizin nasıl yapılacağı ile ilgilidir. Bazıları terminoloji ve diğerleri de teori gibi birçok konuyu gündeme getiriyor. Onları açıklığa kavuşturmak için, sorunun örtük bağlamına dikkat ederek başlayalım ve oradan devam ederek "parametre," "özellik" ve "tahmincisi" anahtar terimlerini tanımlayın. Sorunun birkaç kısmı tartışmada ortaya çıktıkça cevaplanır. Son sonuç bölümü temel fikirleri özetler.

Durum uzayları

Exp ile orantılı PDF ile Normal dağılım "dağıtım," yaygın bir istatistiksel kullanımı ( - 1"aslında İngilizce'nin (ciddi) kötüye kullanılmasıdır, çünkü açıkçası bu tek bir dağılım değildir:μveσsembolleri ileparametreleştirilmişbütün bir dağılım ailesi. bu "durum alanı"Ω, birdiziexp(12(xμ)/σ)2)dxμσΩdağılımları. (Burada fuar uğruna biraz sadeleştiriyorum ve ilerledikçe sadeleştirmeye devam ederken, mümkün olduğunca titiz kalmaya devam ediyorum.) Rolü, istatistiksel prosedürlerimizin olası hedeflerini tanımlamaktır: bir şeyi tahmin ettiğimizde, bir (ya da bazen daha fazla) unsurları çekme .Ω

Bazen durum uzayları . Bu açıklamada , üst yarım düzlemdeki tuples kümesi { ( μ , σ ) } ile verilerimizi modellemek için kullanacağımız dağılımlar kümesi arasında bire bir yazışma bulunmaktadır . Böyle bir parametreleştirmenin bir değeri, şimdi düzenli bir şekilde bir çift gerçek sayı vasıtasıyla Ω cinsinden dağılımlara atıfta bulunabilmemizdir .Ω={N(μ,σ2)|μR,σ>0}{(μ,σ)}Ω

Diğer durumlarda durum uzayları açıkça parametrelendirilmez. Bir örnek, tüm tek-modlu sürekli dağılımların kümesidir. Aşağıda, bu gibi durumlarda yeterli bir parametrelendirmenin bulunup bulunamayacağı sorusunu ele alacağız.

parametrizasyonlari

Genel olarak, bir parametreleştirme bir bir yazışma (matematiksel bir işlevi bir alt kümesinden) R, d ile ( d için sonlu) Q . Yani, dağıtımları etiketlemek için sıralı d- kümeleri kullanır . Ama bu sadece bir yazışma değil: “iyi davranılması” gerekiyor. Bunu anlamak için, PDF'leri sınırlı beklentileri olan tüm sürekli dağılımları düşünün. Bu, bu seti parametreleştirmek için herhangi bir "doğal" girişimin gerçek sayıların sayılabilir bir sekansını içereceği anlamında (parametrik olmayan bir genişleme kullanarak) yaygın olarak "parametrik olmayan" olarak kabul edilecektir. Bununla birlikte, bu setin kardinalitesi olduğu için ΩRddΩd , gerçeklerin temel özelliği olan bu dağılımlar ve R arasında birebir yazışmalar olmalıdır. Paradoksal olarak, bu bunutek birgerçek parametreyleparametreli birdurum alanı yapıyorgibi görünüyor!1R

Paradoks, tek bir gerçek sayının dağılımlarla "hoş" bir ilişkiden yararlanamayacağına dikkat çekerek çözülür: bu sayının değerini değiştirdiğimizde, karşılık gelen dağılım bazı durumlarda radikal yollarla değişmelidir. Bu tür "patolojik" parametreleştirmeleri, parametrelerinin yakın değerlerine karşılık gelen dağılımların kendilerinin "yakın" olmasını zorunlu kılarak ortadan kaldırıyoruz. "Kapat" ın uygun tanımlarını tartışmak bizi çok uzağa götürür, ancak umarım bu açıklama bir parametre olmak için belirli bir dağılımı adlandırmaktan çok daha fazlası olduğunu göstermek için yeterlidir.

Dağılımların özellikleri

ΩΩΩΩt1Ω

Özellikler her zaman parametre değildir

Bir özellik, parametre olarak işlev görmeyecek kadar karmaşık bir işlev olabilir. "Normal dağılım" durumunu düşünün. En yakın tam sayıya yuvarlandığında gerçek dağılımın ortalamasının eşit olup olmadığını bilmek isteyebiliriz. Bu bir özellik. Ancak parametre olarak işlev görmez.

Parametreler mutlaka özellik değildir

Parametreler ve dağılımlar bire bir yazışma olduğunda, açıkçası herhangi bir parametre ve bu konudaki parametrelerin herhangi bir işlevi, tanımımıza göre bir özelliktir. Ancak parametreler ve dağılımlar arasında birebir yazışmalara gerek yoktur: bazen birkaç dağılım, parametrelerin iki veya daha fazla farklı farklı değerleri ile tanımlanmalıdır. Örneğin, küre üzerindeki noktalar için bir konum parametresi doğal olarak enlem ve boylam kullanır. Bu iyi - verilen bir enlem ve herhangi bir geçerli boylama karşılık gelen iki kutup hariç . konum(küre üzerindeki nokta) gerçekten bir özelliktir, ancak boylamı mutlaka bir özellik değildir. Her ne kadar çeşitli kaçışlar olsa da (örneğin yalnızca bir kutbun boylamını sıfır olarak bildirin), bu sorun bir özellik (bir dağıtımla benzersiz bir şekilde ilişkilidir) ve bir parametre (bir etiketleme yolu ) arasındaki önemli kavramsal farkı vurgular. ve benzersiz olmayabilir).

İstatistiksel prosedürler

Bir tahmin hedef bir denir estimand . Sadece bir özelliktir. İstatistikçi tahmini seçmekte özgür değildir : müşterinin ilidir. Birisi size bir nüfus örneği ile geldiğinde ve nüfusun 99. yüzdelik dilimini tahmin etmenizi istediğinde, bunun yerine muhtemelen ortalamanın bir tahmincisini sağlamanızdan memnun olacaksınız! İstatistikçi olarak işiniz, size verilen tahmini tahmin etmek için iyi bir prosedür belirlemektir . (Bazen işiniz, müşterinizi bilimsel hedefleri için yanlış tahmin seçtiği konusunda ikna etmektir, ancak bu farklı bir konudur ...)

Ω

Kestirimciler

ΩΩ

tθ FΩFst(s)θ(F)Ft(s)θ(F)FΩ

FΩt1tt

(Bir "Bayesci" istatistikçi her zaman olası durumların (genellikle müşteri tarafından sağlanır) "önceki" dağılımı üzerinden ortalamaları karşılaştırarak riskleri karşılaştıracaktır. riskleri Bayeslilerden kaçınmak.

Sonuçlar

tθθtθθ

Ωt


2
Ω

11

Tanımlarla ilgili birçok soruda olduğu gibi, cevapların hem temel prensipleri hem de uygulamada kullanılan terimleri göz önünde bulundurması gerekir; bu da iyi bilgilendirilmiş kişiler tarafından bile en azından biraz gevşek veya tutarsız olabilir. en önemlisi, topluluktan topluma değişken.

Ortak bir ilke, bir istatistiğin bir numunenin bir özelliği ve bilinen bir sabit olmasıdır ve bir parametre popülasyonun karşılık gelen özelliğidir ve bu nedenle bilinmeyen bir sabittir. "Karşılık gelen" kelimesi burada oldukça esnek olarak anlaşılmalıdır. Bu arada, tam olarak bu ayrım ve tam olarak bu terminoloji, RA Fisher tarafından tanıtılan bir asırdan daha eski.

Fakat

  1. Örneklem ve nüfusun oluşturulması, tüm sorunlarımızı karakterize etmez. Zaman serileri, fikrin altta yatan bir üretim süreci olduğu önemli bir örnek sınıftır ve böyle bir şey muhtemelen daha derin ve daha genel bir fikirdir.

  2. Parametrelerin değiştiği ayarlar var. Yine, zaman serisi analizi örnekler vermektedir.

  3. Buradaki ana nokta, pratikte bir popülasyonun veya sürecin tüm özelliklerini parametre olarak düşünmüyoruz. Bazı prosedürler normal dağılım modelini varsayarsa, minimum ve maksimum parametreler değildir. (Gerçekten de, modele göre, minimum ve maksimum, herhangi bir şekilde keyfi olarak büyük negatif ve pozitif sayılardır, bu bizi endişelendirmemelidir.)

Bir keresinde Wikipedia'nın doğru yönü gösterdiğini ve tahmin ettiğimiz her hangi bir parametrenin olduğunu söylersek uygulamaya ve ilkeye saygı duyulduğunu söyleyebilirim .

Bu, şaşkınlığa neden olan diğer sorulara da yardımcı olur. Örneğin,% 25 kesilmiş bir ortalama hesaplarsak, neyi tahmin ediyoruz? Makul bir cevap, gerçekte tahmin yöntemi ile tanımlanan nüfusun karşılık gelen özelliğidir. Bir terminoloji, bir tahmincinin tahmin ettiği her neyse bir tahminine sahip olmasıdır. Platonik bir fikrin "dışarıda" (dağıtım şeklini söyleyin) ile başlayarak ve bunun nasıl tahmin edileceğini düşünerek, verileri analiz etmek ve çıkarım olarak kabul edildiğinde ima ettikleri şeyleri düşünmek için iyi tarifler düşünmek gibi.

Uygulamalı matematik veya bilimde sıklıkla, bir parametrenin iki yönlü bir yönü vardır. Bunu genellikle dışarıda keşfettiğimiz gerçek bir şey olarak düşünüyoruz, ancak bunun süreç modelimiz tarafından tanımlanan bir şey olduğu da doğrudur, böylece modelin bağlamı dışında bir anlamı yoktur.

İki farklı nokta:

  1. Birçok bilim adamı, "parametre" kelimesini istatistikçilerin değişken kullanma biçiminde kullanır. Bir bilim adamının yanı sıra istatistiksel bir kişiliğim var ve bunun talihsiz olduğunu söyleyebilirim. Değişkenler ve özellikler daha iyi kelimelerdir.

  2. Geniş İngilizce kullanımında, parametrenin "parametre" ve "çevre" arasındaki orijinal karışıklıktan kaynaklanabilecek sınırlar veya sınırlar anlamına geldiği düşünülmektedir.

Tahmin ve bakış açısı üzerine bir not

Klasik pozisyon, bir parametreyi önceden tanımlayıp daha sonra nasıl tahmin edeceğimize karar vermemizdir ve bu çoğunluk pratiğidir, ancak süreci tersine çevirmek saçma değildir ve bazı sorunlara yardımcı olabilir. Ben buna tahmin bakış açısı diyorum. En az 50 yıldır literatürde yer almaktadır. Tukey (1962, s.60)

"Bir tahmin ediciyle başlayıp makul bir tahminin ne olduğunu keşfetmeye, tahmin ediciyi tahmin olarak düşünmenin neyin makul olduğunu keşfetmeye daha fazla dikkat etmeliyiz."

Benzer bir bakış açısı, Bickel ve Lehmann (1975) tarafından resmi olarak hatırı sayılır bir ayrıntı ve derinlikte ve Mosteller ve Tukey (1977, s.32-34) tarafından gayri resmi açıklıklarla ele alınmıştır.

Ayrıca temel bir versiyonu da var. Karşılık gelen popülasyon parametresini tahmin etmek için örnek medyan veya geometrik ortalama kullanmak, temel dağılımın simetrik olup olmadığına bakılmaksızın mantıklıdır ve aynı şerefiye, (örn.) Nüfus muadillerinin tahmincisi olarak kabul edilen numune kesilmiş araçlara genişletilebilir. .

Bickel, PJ ve EL Lehmann. 1975. Parametrik olmayan modeller için tanımlayıcı istatistikler. II. Yer . Yıllık İstatistikler 3: 1045-1069.

Mosteller, F. ve JW Tukey. 1977. Veri Analizi ve Regresyon. Reading, MA: Addison-Wesley.

Tukey, JW 1962. Veri analizinin geleceği . Yıllık Matematik İstatistikleri 33: 1-67.


Bunun çoğu standart istatistik literatürüyle, özellikle de parametre tanımınızla çelişiyor. Bir tahminin hesaplanması ve neyin hesaplanacağının belirlenmesi için bir prosedür bulma süreçlerini karıştırmaktadır . İkincisi - tahminin seçilmesi - bilim adamı veya araştırmacının belirlemesi gereken bir konudur. Birincisi, istatistikçi tarafından, tahmini tahmin etmek için olası tüm prosedürler arasında arzu edilen özelliklere sahip olacak şekilde seçilir. Teknik sorunlar da var; bir parametrenin keyfi bir tahminden daha kısıtlı olduğunu söylemeye yeter.
whuber

Bunu ele almak için cevabımı genişleteceğim.
Nick Cox

1
Bu konudaki cevabımdan, meydan okuduğu "kemikleşmiş" istatistikçilerden biri olduğumu düşünebilmenize rağmen, Tukey ile hemfikirim. Sorun onun alıntısını bağlam dışına çıkarmış olmanızdır. Tukey özellikle “özel olarak geliştirildikleri hipotezler geçerli olmadığında” prosedürlerin özelliklerinin nasıl değerlendirileceği sorusunu ele almaktadır. Bu hiçbir şekilde parametreler, tahminciler ve tahminler gibi şeylerin tanımlarını değiştirmez . Özellikle, bir parametre hala "tahmin ettiğimiz her şey" değildir .
whuber

3
Burada düşünce için çok yiyecek. Hızlı bir cevap olarak: Cevabım, bir şeylerin gittiği Liberty Hall'da olduğumuzu ima etmek değildi. Benim görüşüme göre, Tukey alıntısının bağlamı , tüm modellerin verilerle tam olarak eşleşmediği yaklaşımlar olduğu sürece, geleneksel hipotezlerin tutamadığı olağan olmasıdır. Isırmaktan uzak, bu madde farklı bakış açısının değerinin altını çiziyor. Genel olarak, daha soyut ve daha matematiksel olarak rafine edilmiş resmi tanımları yapmaya çalışmıyorum ya da üretmeye kalifiye değilim.
Nick Cox

6


pdf=12πσ2e12(xiμ)2σ2
12π3.1415926e2.718281828Xxiμσ2X25th%μσ2μσ2


Y=β0+β1X1+β2X2+εwhere εN(0,σ2)
β0β1β2σ225th%YX=xiβ0β1β2σ2β0β1β2σ2

(Tüm bunlar, elbette, nüfus dağılımı veya veri oluşturma sürecimin modelinin doğru olduğunu varsayar. Her zaman olduğu gibi, "tüm modeller yanlış, ancak bazıları yararlıdır" - George Box .)

Sorularınızı daha açık bir şekilde cevaplamak için şunu söyleyebilirim:

  • Hayır, uygun herhangi bir eski nicel "parametre" olarak etiketlenmemelidir.
  • n / a
  • "Parametre" olarak etiketlenmesi gereken özellikler model spesifikasyonuna bağlıdır. Diğer niceliksel özellikler için özel bir ismim yok, ancak onlara özellik veya özellik veya sonuç vb. Demenin iyi olacağını düşünüyorum .

Teşekkürler. Ancak, bir parametrik modelden türetilebilen ancak bu modeli temsil etmek için uygun parametreler kümesinde olmayan tüm popülasyon değerlerini tanımlamak için hangi terminolojiyi kullanıyorsunuz? Alternatif olarak, nüfus modelini bilmediğiniz ve özellikle ilgilenmediğiniz, ancak nüfus modelinin standart olmayan belirli bir yönüyle ilgilenen bir durum olabilir.
Jeromy Anglim

Genel olarak uygulanabilir özel bir adım yok, ancak bazı belirli değerler için adlar var. Gerçekten nüfus yeterince yakın herhangi iyice çalışılan dağılımına olduğuna inanmıyorsan Ör, vb onun ortanca, çeyrek, menteşe noktaları ile belirlenmesidir girişimi olabilir
eski durumuna Monica - dediklerinin

3
β0,β1,β2,σθβ0θθθ
whuber

3

Bu soruya bazı harika cevaplar oldu, tahmin edicilerin oldukça titiz bir şekilde tartışılmasını sağlayan ilginç bir referansı özetleyeceğimi düşündüm.

Sanal laboratuvarlar tahmincileri sayfa tanımlayıp

  • "sonuç değişkeninin gözlemlenebilir fonksiyonu" olarak bir istatistik .
  • θ

Bir dağıtımın işlevi kavramı çok genel bir fikirdir. Dolayısıyla, yukarıda verilen her örnek belirli bir dağılımın bir fonksiyonu olarak görülebilir.

  • Min, ortanca, 25. kuantil dahil olmak üzere her kantil, bir dağılımın fonksiyonu olabilir.
  • Çarpıklık dağılımın bir fonksiyonudur. Bu popülasyon dağılımı normalse, bunlar sıfır olacaktır, ancak bu, bu değerlerin hesaplanmasını durdurmaz.
  • Belirli bir değerden daha büyük korelasyonların sayılması, kovaryans matrisinin bir fonksiyonudur ve bu da çok değişkenli bir dağılımın bir fonksiyonudur.
  • R-kare dağılımın bir fonksiyonudur.

1
Daha ayrıntılı bir cevap sunmamın bir nedeni de bu "parametre" tanımının yeterince iyi olmamasıdır. Bir karşı örnek için @ gung'un cevabı hakkındaki yorumuma bakın . Sezgisel olarak, bir dizi parametreli dağılım sınırlı sonlu boyutlu bir topolojik manifold oluşturur; bir parametrenin manifoldda tanımlanan sürekli bir fonksiyon olması gerekir . Bu sadece teknik bir gereklilik değildir, çünkü tahminlerin örnekleme dağılımları ile ilgilidir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.