MaxEnt, ML, Bayes ve diğer istatistiksel çıkarım yöntemleri arasındaki karşılaştırma


21

Ben bir istatistikçiyim (matematiksel istatistikte bir dersim vardı ama bundan daha fazlası yok) ve son zamanlarda bilgi teorisi ve istatistik mekaniği okurken "belirsizlik ölçüsü" / "entropi" denilen bir şeyle tanıştım. Bunun için Khinchin türevini bir belirsizlik ölçüsü olarak okudum ve bana anlamlı geldi. Mantıklıydı bir veya daha fazla fonksiyon aritmetik ortalamasını bildiğinizde bir istatistik elde etmek MAXENT arasında Jaynes açıklaması olduğunu başka bir şey / numunede s (Kabul varsayarak tabii belirsizlik bir ölçüsü olarak). -Σpbenlnpben

Böylece diğer istatistiksel çıkarım yöntemleriyle olan ilişkiyi bulmak için interneti araştırdım ve Tanrı'nın kafası karışmıştı. Örneğin, bu makale, doğru anladığımı varsayarak, problemin uygun bir şekilde yeniden yapılandırılması altında bir ML tahmincisi aldığınızı varsayar; MacKey, kitabında MaxEnt'in size tuhaf şeyler verebileceğini ve bunu bir Bayesian çıkarımında başlangıç ​​tahminde bile kullanmamalısınız; vb .. iyi karşılaştırmalar bulmakta sorun yaşıyorum.

Sorum şu, diğer yöntemlerle (örneğin oyuncak modellerine uygulandığında) niceliksel karşılaştırmalar yaparak istatistiksel bir çıkarım yöntemi olarak MaxEnt'in zayıf ve güçlü noktalarının açıklamasını ve / veya iyi referanslarını sunabilir misiniz?

Yanıtlar:


19

MaxEnt ve Bayesian çıkarım yöntemleri, modelleme prosedürünüze bilgi eklemenin farklı yollarına karşılık gelir. Her ikisi de aksiyomatik zemine yerleştirilebilir (John Skilling'in "Maksimum Entropi Aksiyomları" ve Cox'un "Olası Çıkarım Cebiri" ).

Bayesian yaklaşımı, eğer önceki bilginiz "önce" olarak adlandırılan hipotez alanınız üzerinde ölçülebilir gerçek değerli bir işlev biçiminde gelirse, uygulanması basittir. Bilgiler, hipotez alanınızdaki bir dizi zor kısıtlama olarak geldiğinde MaxEnt basittir. Gerçek hayatta, bilgi ne “önceki” biçiminde ne de “kısıt” biçiminde gelir, bu nedenle yönteminizin başarısı bilginizi karşılık gelen biçimde gösterme yeteneğinize bağlıdır.

Bir oyuncak probleminde, Bayesian model ortalaması , önceki hipotezlerin gerçek dağılımına uyduğunda size en düşük ortalama log kaybı (birçok model çizimlerine göre) verecektir . MaxEnt yaklaşımı size en düşük değeri verecek , kısıtlamaları yerine durumda durumda log kaybını sağlayacaktır (en kötü olası tüm )

"MaxEnt" yöntemlerinin babası olarak kabul edilen ETJaynes de Bayesian yöntemlerine güveniyordu. On sayfa 1412 onun içinde kitabında , o Bayes yaklaşımı MaxEnt yaklaşımı daha doğal olduğu bir örnekle ardından iyi bir çözüm sonuçlandı bir örnek verir.

Maksimum ihtimal, temel olarak modeli önceden belirlenmiş bir model alanı içinde yatmaya ve bu modelle sınırlı olan tüm model toplama yöntemlerinden elde edilen verilere en yüksek hassasiyete sahip olacak şekilde "mümkün olduğunca zor" olarak yerleştirmeye çalışmayı gerektirir. alanı. MaxEnt ve Bayesian çerçeveler olsa da, ML somut bir model uygulama yöntemidir ve bazı özel tasarım seçimleri için ML, Bayesian veya MaxEnt yaklaşımından çıkan yöntemi sona erdirebilir. Örneğin, eşitlik kısıtlamaları olan MaxEnt, belli bir üstel ailenin Maksimum Olabilirlik uyumu ile eşdeğerdir. Benzer şekilde, Bayesian Çıkarımına bir yaklaşım düzenlileştirilmiş bir Maksimum Olabilirlik çözümüne yol açabilir. Sonuçlarınızı verilere maksimum derecede duyarlı hale getirmek için önceliğinizi seçerseniz, Bayesian çıkarımının sonucu Maksimum Olabilirlik uyumu ile aynı olacaktır. Örneğin,pBernoulli denemelerine göre, böyle bir önceliğin sınırlayıcı dağılımı Beta olurdu (0,0).

Gerçek Hayat Makine Öğrenmesi başarıları çoğu zaman çeşitli felsefelerin bir karışımıdır. Örneğin, "Rastgele Alanlar" , MaxEnt ilkelerinden türetilmiştir . Düzenlemeli CRF fikrinin en popüler uygulaması, parametrelere "öncelik" eklemeyi içerir. Sonuç olarak, yöntem gerçekten MaxEnt veya Bayesian değildir, ancak her iki düşünce okulundan da etkilenir.

Burada ve burada , Bayesian ve MaxEnt yaklaşımlarının felsefi temelleri üzerine bazı bağlantılar topladım .

Terminolojiye Not: Bazen insanlar kendi yöntemini Bayes çağrı basitçe eğer bir noktada Bayes kuralını kullanır. Aynı şekilde, "MaxEnt" bazen yüksek entropi çözümlerini destekleyen bazı yöntemler için kullanılır. Bu, yukarıda açıklandığı gibi "MaxEnt çıkarım" veya "Bayesian çıkarım" ile aynı değildir.


1
Teşekkürler. "Bilim mantığı" nın da bu konuda konuştuğunu düşünmedim, kesinlikle o kitabı okuyacağım.
Francesco

19

Maksimum entropi yöntemlerinin eğlenceli bir eleştirisi için, bazı eski haber grubu yayınlarını sci.stat.math ve sci.stat.cons, özellikle Radford Neal'ın yazdıklarında okumanızı tavsiye ederim:

Maxent ve diğer yöntemler arasındaki karşılaştırmaların farkında değilim: Sorunun bir kısmı, Max'in gerçekten bir çerçeve olmadığı, (“bilinmeyen bir durumla karşılaştığında, entropiyi basitçe en üst düzeye çıkar”) belirsiz bir direktif gibi görünüyor. farklı insanlar tarafından farklı şekillerde yorumlanır.


4
(+1) 2002'deki konu, bir fikir alışverişi cehennemidir.
whuber

1
Olasılık Teorisinde Edwin Jaynes tarafından verilen maksimum değerin “wallis türevinin” entropiyi maksimize etmek için “Mantık Bilimi” nin “deneysel” bir gerekçe sağladığına dikkat edin. Kesikli dağılımlarda, kayıtsızlık prensibinden (PID) başlıyorsak ve temelde olasılıklar üzerinde reddetme örneklemesi yaparsak, rastgele tek tip örnekleri kabul etmek veya reddetmek için kısıtlamaları kullanırız. Elde edilen olasılık daha sonra (ayrık) maksimum dağılıma keyfi olarak yakındır.
olasılık

3

Geçmişte, MaxEnt ve Bayes'in farklı bilgi türleri ya da biçimleriyle uğraştıkları doğrudur. Bayes'in "zor" kısıtlamaları da kullanabileceğini söyleyebilirim.

Her durumda, artık Bayes Kuralı (ürün kuralı değil) Maksimum bağıl Entropi'den (MrE) elde edilebileceği ve belirsiz bir şekilde elde edilemeyeceği için bir sorun değildir:

Bu yeni bir dünya ...

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.