ML tahmincisinin değişmez özelliği Bayesci bir bakış açısından saçma mıdır?

Casella ve Berger , ML tahmincisinin değişmez özelliğini şu şekilde belirtir:

Ancak bana öyle geliyor ki "olasılığını" tamamen ad hoc ve saçma bir şekilde tanımlıyorlar : $\eta$

olan basit durum için temel olasılık teorisi kurallarını uygularsam , bunun yerine şunu elde ederim: Şimdi Bayes teoremini uyguluyor, sonra ve toplamı uygulayabilmemiz için birbirini dışlar: $\eta=\tau(\theta)=\theta^2$

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$

A

$A$

B

$B$

p (x | bir \lor B) = p (x) \frac{p (bir \lor B | x)}{p (bir \lor B)} = p (x | bir \lor B) = p (x) \frac{p (bir | x) + p (B | x)}{p (bir) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Şimdi Bayes teoremini paydaki terimlere tekrar uyguluyoruz:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Biz bu wrt maksimize etmek istiyorsanız maksimum olabilirlik tahmin almak için , biz maksimize etmek zorunda: $\eta$ $\eta$

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Bayes tekrar saldırıyor mu? Casella & Berger yanlış mı? Yoksa yanılıyor muyum?

— user56834
kaynak

Maksimum olabilirlik tahmincisinin Değişmezlik özelliğinin

— Sextus Empiricus

Sonra resmi parçası "Ben basit davaya olasılık teorisinin temel kuralları uygularsanız wheter " $\eta=\tau(\theta)=\theta^2$ sorusunu değiştirmez. Mesele, Samuel Benidt'in mükemmel cevabı ile tamamen kaplıdır. Olasılık değerleri (ve sonuç olarak maksimum) eşleme nedeniyle değişmez. Evet, eşleme bire bir değilse özel bir dikkat göstermeniz gerekir. Ancak bu, bir dönüşüm uyguladığınızda olasılık dağılımları nedeniyle meydana gelen değişikliklerden tamamen farklı bir konudur.

— Sextus Empiricus

Hayal kırıklığınızı anlıyorum, Programmer2134 (& @MartijnWeterings). Ancak, yorumlarınızda tonunuza dikkat edin. Verimli sohbetler, ancak iyi olma politikamız takip edildiğinde mümkündür . Verimli sohbetler yapmak istemiyorsanız, bu soruları başka bir yere göndermeniz gerekir.

— gung - Monica'yı eski durumuna döndürün

@gung, Tamamen haklısın. Ve bu tonla tepki gösterdiğime pişmanım. Bundan böyle yapmayı bırakacağım. Bunun için üzgünüm. Konuşmayla ilgili olarak, üretken olanları takip etmekle ilgileniyorum, ancak sorduğum birkaç sorudaki insanların tepkilerinin çoğunlukla verimsiz olduğunu hissettim. Yine de, bir dahaki sefere farklı cevap vereceğim.

— user56834 16:17

Teşekkür ederim. İnsanların iyi niyetle yanıt verdiğini varsaymak en iyisidir. Buradaki insanların olmadığı (nispeten az, IMHO) durumlar vardır, ancak o zaman bile, bazen etrafta dolaşmak için koaksiyel olabilirler.

— gung - Monica'yı eski durumuna döndürün

Xi'an'ın dediği gibi, soru tartışmalı, ancak bence birçok insan, bazı edebiyatlarda ve internette ortaya çıkan bir açıklama nedeniyle maksimum olasılık tahminini Bayesci bir perspektiften düşünmeye yönlendiriliyor: " maksimum olabilirlik" tahmin, önceki dağılım tekdüze olduğunda Bayes maksimumu posteriori bir tahminin özel bir durumudur ".

Bayesci bir perspektiften, maksimum olabilirlik tahmin edicisinin ve değişmezlik özelliğinin mantıklı olabileceğini söyleyebilirim , ancak Bayes teorisindeki tahmincilerin rolü ve anlamı, frekansçı teoriden çok farklıdır. Ve bu özel tahminci genellikle Bayes perspektifinden pek mantıklı değildir. İşte nedeni. Basitlik için, tek boyutlu bir parametreyi ve bir-bir dönüşümleri ele alalım.

Her şeyden önce:

Bir parametrenin, farklı koordinat sistemleri veya ölçüm birimleri seçebileceğimiz genel bir manifoldda yaşayan bir miktar olarak düşünülmesi yararlı olabilir. Bu bakış açısından, yeniden parametrelendirme sadece koordinatların değişmesidir. Örneğin, suyun üçlü noktasının sıcaklığı, (K), (° C), (° F) veya (a logaritmik ölçek). Çıkarımlarımız ve kararlarımız koordinat değişimleri açısından değişmez olmalıdır. Bazı koordinat sistemleri elbette diğerlerinden daha doğal olabilir. $T=273.16$ $t=0.01$ $\theta=32.01$ $\eta=5.61$
Sürekli miktarlar için olasılıklar her zaman bu tür miktarların değer aralıklarını (daha kesin olarak ifade eder ) belirtir, asla belirli değerlere değinmez; tekil durumlarda, örneğin sadece bir değer içeren kümeleri düşünebiliriz. Olasılık-yoğunluk gösterimi $\mathrm{p}(x)\,\mathrm{d}x$ Riemann-integral tarzında, bize
(a) bir koordinat sistemi seçtiğimizi söylüyor $x$ parametre manifoldunda,
(b) bu koordinat sistemi eşit genişlikteki aralıklardan bahsetmemize izin verir,
(c) değerin küçük bir aralıkta olma olasılığı $\Delta x$ yaklaşık olarak $\mathrm{p}(x)\,\Delta x$ , nerede $x$ aralık içindeki bir noktadır.
(Alternatif olarak bir Lebesgue ölçüsünden bahsedebiliriz $\mathrm{d}x$ ve eşit ölçülü aralıklarla, ancak öz aynıdır.)

Bu nedenle, " $\mathrm{p}(x_1) > \mathrm{p}(x_2)$ "demek, $x_1$ için daha büyük $x_2$ , ama bu olasılık $x$ etrafında küçük bir aralıkta yatıyor $x_1$ bir aralıkta bu yatıyor olasılığı daha büyük olan eşit genişliği civarını $x_2$ . Bu ifade koordinatlara bağlıdır.

(Sıklık) maksimum olabilirlik bakış açısını görelim
Bu bakış açısından, bir parametre değeri olasılığı hakkında konuşalım $x$ anlamsızdır. Tam durak. Gerçek parametre değerinin ve değerin ne olduğunu bilmek istiyoruz. $\tilde{x}$ verilere en yüksek olasılığı veren $D$ sezgisel olarak işaretin çok dışında olmamalıdır:

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$ Bu maksimum olabilirlik tahmin edicisidir.

Bu tahmin edici , parametre manifoldu üzerinde bir nokta seçer ve bu nedenle herhangi bir koordinat sistemine bağlı değildir. Aksi belirtilen: Parametre manifoldundaki her nokta bir sayı ile ilişkilidir: veri olasılığı $D$ ; en yüksek ilişkili numaraya sahip noktayı seçiyoruz. Bu seçim bir koordinat sistemi veya temel önlem gerektirmez. Bu nedenle, bu tahmin edici parametrelendirme değişmezidir ve bu özellik, bize bunun bir olasılık olmadığını söyler - istendiği gibi. Bu değişmezlik, daha karmaşık parametre dönüşümlerini düşünürsek kalır ve Xi'an'ın bahsettiği profil olasılığı bu açıdan tam anlamıyla mantıklıdır.

Bayesci bakış açısına bakalım
Bu bakış açısından, sürekli bir parametre olasılığından bahsetmek her zaman mantıklıdır, eğer bundan emin değilseniz, veriler ve diğer kanıtlara bağlı olarak $D$ . Bunu şöyle yazıyoruz

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$ Başlangıçta belirtildiği gibi, bu olasılık, parametre manifoldu üzerindeki aralıklara karşılık gelir, tek noktalara değil.

İdeal olarak, tam olasılık dağılımını belirterek belirsizliğimizi rapor etmeliyiz $\mathrm{p}(x \mid D)\,\mathrm{d}x$ parametre için. Dolayısıyla, tahminci kavramı Bayesci bir perspektiften ikincildir.

Bu fikir , gerçek nokta bilinmese de, parametre manifoldunda belirli bir amaç veya nedenden dolayı bir nokta seçmemiz gerektiğinde ortaya çıkar . Bu seçim karar teorisi alanıdır [1] ve seçilen değer Bayes kuramında "tahmin edicinin" doğru tanımıdır. Karar teorisi, öncelikle bir faydalı fonksiyon getirmemiz gerektiğini söylüyor $(P_0,P)\mapsto G(P_0; P)$ bu da noktayı seçerek ne kadar kazandığımızı söyler $P_0$ parametre manifoldunda, gerçek nokta $P$ (alternatif olarak kötümser olarak bir kayıp fonksiyonundan bahsedebiliriz). Bu işlev, her bir koordinat sisteminde farklı bir ifadeye sahip olacaktır, ör. $(x_0,x)\mapsto G_x(x_0; x)$ , ve $(y_0,y)\mapsto G_y(y_0; y)$ ; koordinat dönüşümü $y=f(x)$ , iki ifade $G_x(x_0;x) = G_y[f(x_0); f(x)]$ [2].

Bir kerede, diyelim ki, ikinci dereceden bir fayda fonksiyonundan bahsederken, dolaylı olarak belirli bir koordinat sistemini, genellikle parametre için doğal bir sistemi seçtiğimizi vurgulayayım. Başka bir koordinat sisteminde yardımcı fonksiyon için ifade genel olarak uygulanan değil dörtgen olmak, ama yine de parametre manifold üzerindeki aynı elektrik fonksiyon.

Tahminci $\hat{P}$ bir yardımcı program işleviyle ilişkili $G$ verilerimiz göz önüne alındığında beklenen faydayı en üst düzeye çıkaran noktadır $D$ . Bir koordinat sisteminde $x$ , koordinatı

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$ Bu tanım koordinat değişikliklerinden bağımsızdır: yeni koordinatlarda

y = f (x)

$y=f(x)$ kestiricinin koordinatı

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$ . Bu, koordinat-bağımsızlığından

G

$G$ ve integralin.

Bu tür değişmezliğin Bayes kestiricilerinin yerleşik bir özelliği olduğunu görüyorsunuz.

Şimdi şu soruyu sorabiliriz: Maksimum olabilirlik oranına eşit bir tahmin ediciye yol açan bir fayda işlevi var mı? Maksimum olabilirlik tahmincisi değişmez olduğundan, böyle bir işlev var olabilir. Öyle olsaydı Bu bakış itibaren, maksimum olabilirlik görüş Bayes açıdan anlamsız olurdu değil değişmez!

Belirli bir koordinat sisteminde bir yardımcı program işlevi $x$ Dirac deltasına eşittir, $G_x(x_0; x) = \delta(x_0-x)$ , işi yapıyor gibi görünüyor [3]. Denklem $\eqref{UF}$ verim $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ ve eğer önceki $\eqref{PD}$ koordinatta aynıdır $x$ , maksimum olabilirlik tahminini elde ederiz $\eqref{ML}$ . Alternatif olarak, gittikçe daha küçük desteğe sahip bir dizi faydalı işlevi düşünebiliriz, ör. $G_x(x_0; x) = 1$ Eğer $\lvert x_0-x \rvert<\epsilon$ ve $G_x(x_0; x) = 0$ başka yerde, için $\epsilon\to 0$ [4].

Evet, eğer matematiksel olarak cömert ve genelleştirilmiş fonksiyonları kabul edersek, maksimum olabilirlik tahmincisi ve değişmezliği Bayesci bir perspektiften mantıklı olabilir. Ancak bir kestiricinin Bayesci bir perspektifteki anlamı, rolü ve kullanımı, sık görülen bir perspektiften tamamen farklıdır.

Ayrıca, yukarıda tanımlanan fayda fonksiyonunun matematiksel mantıklı olup olmadığı konusunda literatürde çekinceler olduğunu da ekleyeyim [5]. Her durumda, böyle bir fayda fonksiyonunun faydası oldukça sınırlıdır: Jaynes [3] 'ün belirttiği gibi, "sadece tam olarak doğru olma şansını önemsiyoruz; ve eğer yanılırsak, umursamıyoruz ne kadar yanıldık ".

Şimdi "maksimum olabilirlik, daha önce tekdüze bir maksimum-posterior özel bir durumdur" ifadesini düşünün. Genel koordinat değişikliği altında neler olduğunu not etmek önemlidir $y=f(x)$ :
1. yukarıdaki yardımcı program işlevi farklı bir ifadeyi varsayar, $G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$ ;
2. koordinattaki önceki yoğunluk $y$ Jacobian belirleyicisi sayesinde tekdüze değildir ;
3. tahmin arka yoğunluğunun en fazla değildir içinde $y$ çünkü Dirac deltası ekstra bir çarpma faktörü edinmiştir;
4. kestirimci hâlâ yenideki olasılığın maksimumu ile verilir, $y$ koordinatlar.
Bu değişiklikler, tahminci noktası parametre manifoldunda hala aynı olacak şekilde birleştirilir.

Dolayısıyla, yukarıdaki ifade dolaylı olarak özel bir koordinat sistemi varsaymaktadır. Belirsiz, daha açık bir ifade şöyle olabilir: "maksimum olabilirlik tahmincisi sayısal olarak Bayesian tahmincisine eşittir , bazı koordinat sistemlerinde bir delta fayda fonksiyonu ve daha önce tekdüze bir işlev vardır".

Son yorumlar
Yukarıdaki tartışma gayri resmi olmakla birlikte, ölçüm teorisi ve Stieltjes entegrasyonu kullanılarak kesinleştirilebilir.

Bayes edebiyatında daha gayri resmi bir tahminci kavramı da bulabiliriz: bir olasılık dağılımını bir şekilde "özetleyen", özellikle de tam yoğunluğunu belirtmek elverişsiz veya imkansız olduğunda $\mathrm{p}(x \mid D)\,\mathrm{d}x$ ; bakınız örneğin Murphy [6] veya MacKay [7]. Bu kavram genellikle karar teorisinden ayrılır ve bu nedenle koordinat bağımlı olabilir ya da belirli bir koordinat sistemini zımnen kabul edebilir. Ancak kestiricinin karar-kuramsal tanımında değişmez olmayan bir şey kestirimci olamaz.

[1] Örneğin, H. Raiffa, R. Schlaifer: Uygulamalı İstatistiksel Karar Teorisi (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analiz, Manifoldlar ve Fizik. Bölüm I: Temel Bilgiler (Elsevier 1996) veya diferansiyel geometri hakkında başka iyi bir kitap.
[3] ET Jaynes: Olasılık Teorisi: Bilim Mantığı (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayes Teorisi (Wiley 2000), §5.1.5.
[5] IH Jermyn: Manifoldlar üzerinde değişmez Bayes kestirimi https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Bayes tahmincilerinin limiti olarak maksimum posteriori tahmin ediciler https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Makine Öğrenmesi: Olasılıksal Bir Bakış (MIT Press 2012), özellikle bölüm. 5.
[7] DJC MacKay: Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

— pglpm
kaynak

Yukarıdaki anlamda değişmez Bayes tahmincilerini, örneğin iki yoğunluk arasındaki Kullback-Leibler sapması gibi fonksiyonel bir kayıp fonksiyonu oluşturarak tanımlamanın yolları vardır. Bu kayıpları 1996 tarihli bir makalede içsel kayıplar olarak adlandırdım .

— Xi'an

Bayesci olmayan bir bakış açısından, aşağıdaki gibi niceliklerin tanımı yoktur

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$ Çünkü

θ

$\theta$ o zaman sabit bir parametredir ve koşullandırma notasyonu anlamlı değildir. Önerdiğiniz alternatif, Casella ve Berger tarafından önerilen gibi bir yaklaşımın tam olarak kaçınmak istediği önceki bir dağıtıma dayanır . Daha fazla giriş için anahtar kelime profili olasılığını kontrol edebilirsiniz . (Ve hayır anlamı yoktur rightya wrongorada.)

— Xi'an
kaynak

Söylediklerimle nasıl çelişiyor? Demek istediğim, bayes perspektifinden saçmalık olmasıydı . Casella ve Berger'in çözümü ile ilgili sorunum, temel olarak, istenen sonuçlara ulaşılacak şekilde tamamen yeni bir geçici olasılık tanımı bulmalarıdır. Eğer biri, yukarıda verdiğim gibi tutarlı bir olasılık tanımı yaparsa, sonuç farklı olacaktır. Tabii ki Casella ve Berger, öncelikleri getirmekten kaçınmak isteyebilirler, ancak bunu yapmanın tek yolu, olasılık tanımında geçici bir değişiklik yapmaktır.

— user56834

Bayesci bir perspektifi korumak istiyorsanız, Bayesci olmayan sonuçların çoğu mantıklı olmayacağı veya Bayesci ilkelerle "tutarlı" olmayacağı için soru tartışmalıdır.

— Xi'an