Xi'an'ın dediği gibi, soru tartışmalı, ancak bence birçok insan, bazı edebiyatlarda ve internette ortaya çıkan bir açıklama nedeniyle maksimum olasılık tahminini Bayesci bir perspektiften düşünmeye yönlendiriliyor: " maksimum olabilirlik" tahmin, önceki dağılım tekdüze olduğunda Bayes maksimumu posteriori bir tahminin özel bir durumudur ".
Bayesci bir perspektiften, maksimum olabilirlik tahmin edicisinin ve değişmezlik özelliğinin mantıklı olabileceğini söyleyebilirim , ancak Bayes teorisindeki tahmincilerin rolü ve anlamı, frekansçı teoriden çok farklıdır. Ve bu özel tahminci genellikle Bayes perspektifinden pek mantıklı değildir. İşte nedeni. Basitlik için, tek boyutlu bir parametreyi ve bir-bir dönüşümleri ele alalım.
Her şeyden önce:
Bir parametrenin, farklı koordinat sistemleri veya ölçüm birimleri seçebileceğimiz genel bir manifoldda yaşayan bir miktar olarak düşünülmesi yararlı olabilir. Bu bakış açısından, yeniden parametrelendirme sadece koordinatların değişmesidir. Örneğin, suyun üçlü noktasının sıcaklığı, (K), (° C), (° F) veya (a logaritmik ölçek). Çıkarımlarımız ve kararlarımız koordinat değişimleri açısından değişmez olmalıdır. Bazı koordinat sistemleri elbette diğerlerinden daha doğal olabilir.T=273.16t=0.01θ=32.01η=5.61
Sürekli miktarlar için olasılıklar her zaman bu tür miktarların değer aralıklarını (daha kesin olarak ifade eder ) belirtir, asla belirli değerlere değinmez; tekil durumlarda, örneğin sadece bir değer içeren kümeleri düşünebiliriz. Olasılık-yoğunluk gösterimip(x)dxRiemann-integral tarzında, bize
(a) bir koordinat sistemi seçtiğimizi söylüyorxparametre manifoldunda,
(b) bu koordinat sistemi eşit genişlikteki aralıklardan bahsetmemize izin verir,
(c) değerin küçük bir aralıkta olma olasılığıΔx yaklaşık olarak p(x)Δx, nerede xaralık içindeki bir noktadır.
(Alternatif olarak bir Lebesgue ölçüsünden bahsedebilirizdx ve eşit ölçülü aralıklarla, ancak öz aynıdır.)
Bu nedenle, "p(x1)>p(x2)"demek, x1 için daha büyük x2, ama bu olasılıkx etrafında küçük bir aralıkta yatıyor x1bir aralıkta bu yatıyor olasılığı daha büyük olan eşit genişliği civarınıx2. Bu ifade koordinatlara bağlıdır.
(Sıklık) maksimum olabilirlik bakış açısını görelim
Bu bakış açısından, bir parametre değeri olasılığı hakkında konuşalımxanlamsızdır. Tam durak. Gerçek parametre değerinin ve değerin ne olduğunu bilmek istiyoruz.x~ verilere en yüksek olasılığı veren D sezgisel olarak işaretin çok dışında olmamalıdır:
x~:=argmaxxp(D∣x).(*)
Bu maksimum olabilirlik tahmin edicisidir.
Bu tahmin edici , parametre manifoldu üzerinde bir nokta seçer ve bu nedenle herhangi bir koordinat sistemine bağlı değildir. Aksi belirtilen: Parametre manifoldundaki her nokta bir sayı ile ilişkilidir: veri olasılığıD; en yüksek ilişkili numaraya sahip noktayı seçiyoruz. Bu seçim bir koordinat sistemi veya temel önlem gerektirmez. Bu nedenle, bu tahmin edici parametrelendirme değişmezidir ve bu özellik, bize bunun bir olasılık olmadığını söyler - istendiği gibi. Bu değişmezlik, daha karmaşık parametre dönüşümlerini düşünürsek kalır ve Xi'an'ın bahsettiği profil olasılığı bu açıdan tam anlamıyla mantıklıdır.
Bayesci bakış açısına bakalım
Bu bakış açısından, sürekli bir parametre olasılığından bahsetmek her zaman mantıklıdır, eğer bundan emin değilseniz, veriler ve diğer kanıtlara bağlı olarakD. Bunu şöyle yazıyoruz
p(x∣D)dx∝p(D∣x)p(x)dx.(**)
Başlangıçta belirtildiği gibi, bu olasılık, parametre manifoldu üzerindeki aralıklara karşılık gelir, tek noktalara değil.
İdeal olarak, tam olasılık dağılımını belirterek belirsizliğimizi rapor etmeliyiz p(x∣D)dxparametre için. Dolayısıyla, tahminci kavramı Bayesci bir perspektiften ikincildir.
Bu fikir , gerçek nokta bilinmese de, parametre manifoldunda belirli bir amaç veya nedenden dolayı bir nokta seçmemiz gerektiğinde ortaya çıkar . Bu seçim karar teorisi alanıdır [1] ve seçilen değer Bayes kuramında "tahmin edicinin" doğru tanımıdır. Karar teorisi, öncelikle bir faydalı fonksiyon getirmemiz gerektiğini söylüyor (P0,P)↦G(P0;P) bu da noktayı seçerek ne kadar kazandığımızı söyler P0 parametre manifoldunda, gerçek nokta P(alternatif olarak kötümser olarak bir kayıp fonksiyonundan bahsedebiliriz). Bu işlev, her bir koordinat sisteminde farklı bir ifadeye sahip olacaktır, ör.(x0,x)↦Gx(x0;x), ve (y0,y)↦Gy(y0;y); koordinat dönüşümüy=f(x), iki ifade Gx(x0;x)=Gy[f(x0);f(x)] [2].
Bir kerede, diyelim ki, ikinci dereceden bir fayda fonksiyonundan bahsederken, dolaylı olarak belirli bir koordinat sistemini, genellikle parametre için doğal bir sistemi seçtiğimizi vurgulayayım. Başka bir koordinat sisteminde yardımcı fonksiyon için ifade genel olarak uygulanan değil dörtgen olmak, ama yine de parametre manifold üzerindeki aynı elektrik fonksiyon.
Tahminci P^ bir yardımcı program işleviyle ilişkili G verilerimiz göz önüne alındığında beklenen faydayı en üst düzeye çıkaran noktadır D. Bir koordinat sistemindex, koordinatı
x^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
Bu tanım koordinat değişikliklerinden bağımsızdır: yeni koordinatlarda y=f(x) kestiricinin koordinatı y^=f(x^). Bu, koordinat-bağımsızlığındanG ve integralin.
Bu tür değişmezliğin Bayes kestiricilerinin yerleşik bir özelliği olduğunu görüyorsunuz.
Şimdi şu soruyu sorabiliriz: Maksimum olabilirlik oranına eşit bir tahmin ediciye yol açan bir fayda işlevi var mı? Maksimum olabilirlik tahmincisi değişmez olduğundan, böyle bir işlev var olabilir. Öyle olsaydı Bu bakış itibaren, maksimum olabilirlik görüş Bayes açıdan anlamsız olurdu değil değişmez!
Belirli bir koordinat sisteminde bir yardımcı program işlevi x Dirac deltasına eşittir, Gx(x0;x)=δ(x0- x ), işi yapıyor gibi görünüyor [3]. Denklem(***) verim x^= argmaksimumxp (x∣D)ve eğer önceki (**) koordinatta aynıdır x, maksimum olabilirlik tahminini elde ederiz (*). Alternatif olarak, gittikçe daha küçük desteğe sahip bir dizi faydalı işlevi düşünebiliriz, ör.G,x(x0; x ) = 1 Eğer |x0- x | < ϵ ve G,x(x0; x ) = 0 başka yerde, için ϵ → 0 [4].
Evet, eğer matematiksel olarak cömert ve genelleştirilmiş fonksiyonları kabul edersek, maksimum olabilirlik tahmincisi ve değişmezliği Bayesci bir perspektiften mantıklı olabilir. Ancak bir kestiricinin Bayesci bir perspektifteki anlamı, rolü ve kullanımı, sık görülen bir perspektiften tamamen farklıdır.
Ayrıca, yukarıda tanımlanan fayda fonksiyonunun matematiksel mantıklı olup olmadığı konusunda literatürde çekinceler olduğunu da ekleyeyim [5]. Her durumda, böyle bir fayda fonksiyonunun faydası oldukça sınırlıdır: Jaynes [3] 'ün belirttiği gibi, "sadece tam olarak doğru olma şansını önemsiyoruz; ve eğer yanılırsak, umursamıyoruz ne kadar yanıldık ".
Şimdi "maksimum olabilirlik, daha önce tekdüze bir maksimum-posterior özel bir durumdur" ifadesini düşünün. Genel koordinat değişikliği altında neler olduğunu not etmek önemlidiry= f( x ):
1. yukarıdaki yardımcı program işlevi farklı bir ifadeyi varsayar,G,y(y0; y) = δ[f- 1(y0) -f- 1( y) ] ≡ δ(y0- y)|f'[f- 1(y0) ] |;
2. koordinattaki önceki yoğunluky Jacobian belirleyicisi sayesinde tekdüze değildir ;
3. tahmin arka yoğunluğunun en fazla değildir içindeyçünkü Dirac deltası ekstra bir çarpma faktörü edinmiştir;
4. kestirimci hâlâ yenideki olasılığın maksimumu ile verilir,ykoordinatlar.
Bu değişiklikler, tahminci noktası parametre manifoldunda hala aynı olacak şekilde birleştirilir.
Dolayısıyla, yukarıdaki ifade dolaylı olarak özel bir koordinat sistemi varsaymaktadır. Belirsiz, daha açık bir ifade şöyle olabilir: "maksimum olabilirlik tahmincisi sayısal olarak Bayesian tahmincisine eşittir , bazı koordinat sistemlerinde bir delta fayda fonksiyonu ve daha önce tekdüze bir işlev vardır".
Son yorumlar
Yukarıdaki tartışma gayri resmi olmakla birlikte, ölçüm teorisi ve Stieltjes entegrasyonu kullanılarak kesinleştirilebilir.
Bayes edebiyatında daha gayri resmi bir tahminci kavramı da bulabiliriz: bir olasılık dağılımını bir şekilde "özetleyen", özellikle de tam yoğunluğunu belirtmek elverişsiz veya imkansız olduğunda p (x∣D)g x; bakınız örneğin Murphy [6] veya MacKay [7]. Bu kavram genellikle karar teorisinden ayrılır ve bu nedenle koordinat bağımlı olabilir ya da belirli bir koordinat sistemini zımnen kabul edebilir. Ancak kestiricinin karar-kuramsal tanımında değişmez olmayan bir şey kestirimci olamaz.
[1] Örneğin, H. Raiffa, R. Schlaifer: Uygulamalı İstatistiksel Karar Teorisi (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analiz, Manifoldlar ve Fizik. Bölüm I: Temel Bilgiler (Elsevier 1996) veya diferansiyel geometri hakkında başka iyi bir kitap.
[3] ET Jaynes: Olasılık Teorisi: Bilim Mantığı (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayes Teorisi (Wiley 2000), §5.1.5.
[5] IH Jermyn: Manifoldlar üzerinde değişmez Bayes kestirimi https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: Bayes tahmincilerinin limiti olarak maksimum posteriori tahmin ediciler https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Makine Öğrenmesi: Olasılıksal Bir Bakış (MIT Press 2012), özellikle bölüm. 5.
[7] DJC MacKay: Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .