Tahmin için ne zaman birden fazla model kullanılır?


13

Bu oldukça genel bir soru:

Tipik olarak, birden fazla farklı model kullanmanın bir örnek seriden zaman serisini tahmin etmeye çalışırken bir modelden daha iyi performans gösterdiğini gördüm. Model kombinasyonunun tek bir modelden daha iyi performans göstereceğini gösteren iyi makaleler var mı? Birden fazla modeli birleştirme konusunda en iyi uygulamalar var mı?

Bazı referanslar:


benim cevap aşağıda yorum / soru ışığında, oldukça iyi bir kaynak (ne yazık ki bir Ders Kitabı) w / ek açıklama olduğunu düşünüyorum ekledi. Orijinal cevabımı düzenledim, sonunda görünüyor.
Doug

Yanıtlar:


8

Bazen bu tür modellere topluluk denir. Örneğin, bu sayfa nasıl çalıştığını gösteren güzel bir genel bakış sunar. Ayrıca burada adı geçen referanslar çok faydalıdır.


3
Gerçekten de karıştırma, olası topluluk tekniklerinden biridir. Özellikle, aynı sınıflandırıcıyı birleştirdiğinizde, (sınıflandırıcı (Adaboost gibi) ve torbalama (Rastgele Orman gibi) ve farklı sınıflandırıcıları (Shane'in sorusuyla ilgili olan) birleştirdiğiniz harmanlamayı birleştirdiğinizde iki tane vardır.

3
Karıştırma için, netflix yarışmasının bu makalesi okumaya değer: the-ensemble.com/content/feature-weighted-linear-stacking .
Shane

2
Meteorologun "topluluk" kelimesini de kullanması eğlenceli ama kombinasyon için değil: sayısal modelin başlangıç ​​koşullarının bozulmasıyla elde edilen bir tahmin topluluğu (senaryo gibi) için kullanıyorlar.
robin girard

1
@mbq aslında kendilerini tahminci olarak adlandırıyorlar ve istatistiği oldukça kullanıyorlar ...
Robin Girard

1
@robin Biliyorum, bu yüzden buna "topluluk" denilen bir set ya da bunun gibi bir şey değil.

10

NetFlix Ödül yarışmasının (2009) son yılı, birden fazla öğrenme algoritmasını birleştirmeye karşı topluluk genelindeki genel varsayımı keskin bir şekilde değiştirmiş gibi görünüyordu.

Örneğin, resmi eğitimim (üniversite kursları) ve daha sonra iş başında gözetim / rehberlik, bunu yapmak için açık bir nedenimiz olmadıkça ve "mevcut algoritmamın çözünürlüğünü iyileştirmek için" algoritma kombinasyonundan kaçınmamızı öğretti. Gerçekten iyi bir neden saymadım. (Diğerlerinin farklı bir deneyimi olabilir - elbette, yalnızca kendi deneyimime dayanarak topluluk çapında bir görüş çıkarım, ancak düşük performans gösteren ML algoritmalarını kodlama deneyimim önemli.)

Yine de, algoritmaları bir şekilde birleştirmenin kabul edildiği ve aslında performansı geliştirdiği birkaç "desen" vardı. Benim için en sık örnek, makine modunda yapılandırılmış (her veri noktasına bir sınıf etiketi atama) ve ikiden fazla sınıfın (genellikle çok daha fazlası) olduğu bazı ML algoritmalarını içeriyordu. Kullanırken örneğin bir Çözmek, dört sınıf öğrenme algoritması-denetimli ve biz mükemmel ayırma görecekti hariç diyelim söz hakkından Sınıf IV karşı Sınıf III. Bu altı karar sınırından yalnızca biri gerekli eşiğin altında çözüldü. Özellikle III. Ve IV. Sınıflar birlikte verilerin küçük bir yüzdesini oluşturduğunda, bu iki sınıfın çözünürlüğüne göre optimize edilmiş ek bir algoritma eklediklerinde, bu analitik problem türünde oldukça yaygın bir çözümdü. (Genellikle 'kör nokta' birincil algoritmanın doğal bir sınırlamasıydı - örneğin, doğrusal bir sınıflandırıcıydı ve III / IV karar sınırı doğrusal değildi.

Başka bir deyişle, işleme ortamına uygun güvenilir bir algoritmaya sahip olduğumuzda (genellikle veri akışı yapıyorduk) ve açıklanan iki (veya daha fazla) sınıfı çözemediğine neden olan tek bir kör nokta hariç spesifikasyon dahilinde gerçekleştirilen verilerin küçük bir kısmı, ana algoritmanın sistematik olarak eksik olduğunu yakalamak için başka bir özel algoritmayı 'cıvatalamak' her zaman daha iyiydi.

Son olarak, bu konuda, ben son derece Bölüm 17 tavsiye etmek istiyorum Çoklu öğrencinin ilgisini birleştiren içinde, Makine Öğrenmesi için giriş Ethem Alpaydın, MİT Press tarafından, 2d, bu olduğunu 2010. Not ikinci baskı , birkaç ay önce yayınlanan; ilk baskı 2004 yılında yayınlandı ve bu konunun aynı kapsama sahip olduğundan şüpheliyim. (Aslında tüm metni tavsiye ederim, ancak özellikle Shane'in Sorusu ile ilgili olduğu için bu bölüm.)

Yazar, 25 sayfada, muhtemelen akademik literatürde veya uygulamada kullanımı gösterilen her ML algoritması kombinasyon şemasını özetler - örneğin, torbalama, artırma, uzmanların karışımı, yığılmış genelleme, basamaklı, oylama, hata düzeltme, .. ..


bu harika bir bilgi. Bunu kapsayan makaleler biliyor musunuz?
Shane

(Yorumunuz için SA'dan bir bildirim alamadım) Bunu yazdığımda, herhangi bir makaleye atıfta bulunmuyordum, sadece sorunuzla ilgili deneyimin parçalarını gayri resmi olarak özetliyorum. Dosyalarıma bakacağım ve bunun ne olduğunu göreceğim.
Doug

4

Peter'ın topluluk yöntemlerine tepkisini takip etmek:


2

Buna en çarpıcı örnek, harmanlama popülaritesini gerçekten artıran Netflix sorunudur.


1

Aşağıda, sorunuzun yalnızca "birden çok modeli birleştirme ile ilgili en iyi uygulamalar" kısmına değinen sol alanın biraz dışında bir cevap var . Kaos ve gürültü - iklim modelleri sergileyen karmaşık, oldukça doğrusal olmayan modellerle uğraşmam dışında, bu temelde onur tezim. Bunun pek çok alanda geniş çapta uygulanması mümkün değildir, ancak ekoloji veya ekonometride yararlı olabilir.

İklim modelleme topluluğunda oldukça yakın zamana kadar, modeller büyük ölçüde ağırlıksız bir ortalamada bir araya getirilmişti (genellikle örnek süresinin bir kısmı veya tamamı için model ortalamasının kaldırılmasını içeren önyargı düzeltmesinden sonra ). IPCC'nin 4. değerlendirme raporu (4AR) ve önceki raporlar için yaptığı şey budur.

Bu, gözlemsel serilerin (örn. Küresel sıcaklık, yerel yağış, vb.) Kesin ve açık bir şekilde varsayıldığı ve yeterince örnek alırsanız, topluluk gerçeğinin aşağı yukarı " doğruluk artı hata " okulunun bir örneğidir . (örn. model çalışır), modeldeki gürültü iptal edilir (bkz. (1)).

Daha yakın zamanlarda, performans ağırlıklandırmasına dayalı modelleri birleştirme yöntemleri kullanılmıştır. İklim modelleri çok gürültülü olduğu ve çok fazla değişken ve parametreye sahip olduğu için, performansı (bildiğim) değerlendirmenin tek yolu kovaryans almak veya model çıktısı ile gözlemlenen zaman serileri arasında MSE almaktır. Modeller daha sonra ortalamanın bu ölçüye göre ağırlıklandırılmasıyla birleştirilebilir. (2) 'de buna iyi bir genel bakış vardır.

Bu simülasyonları birleştirme yönteminin arkasındaki bir varsayım, modellerin hepsinin makul derecede bağımsız olduğu varsayımıdır - bazıları oldukça bağımlıysa, ortalamayı saptırırlardı. Bu varsayım, 4AR ( CMIP3) için kullanılan veri kümesi için oldukça adil idi , çünkü bu veri seti birçok modelleme grubundan birkaç model çalışmasından oluşuyordu (diğer yandan, kod modelleme topluluğunda paylaşılıyor, bu yüzden hala bazı bağımlılıklar olabilir. Buna ilginç bir bakış için, bkz. (3)) Bir sonraki değerlendirme raporu CMIP5 için veri seti, bu biraz tesadüfi bir özelliğe sahip değil - bazı modelleme ekipleri birkaç koşu sunarken, bazıları yüzlerce gönderecek. Farklı ekiplerden gelen topluluklar, başlangıçtaki durum denetimi veya model fiziği ve parametreleme değişiklikleri ile üretilebilir. Ayrıca, bu süper topluluk herhangi bir sistematik şekilde örneklenmemiştir - sadece veri getiren kimdir (akıl içinde). Bu alanda "bir fırsat topluluğu " olarak bilinir . Böyle bir toplulukta ağırlıksız bir ortalama kullanmanın, daha fazla koşuya sahip modellere doğru bazı büyük önyargılara gitmesi için adil bir şans var (yüzlerce koşu olmasına rağmen, muhtemelen çok daha az sayıda gerçekten bağımsız koşu var).

Yöneticimin şu anda, performans VE bağımsızlık ağırlıklandırmasını içeren bir model kombinasyonu sürecini tanımlayan bir makalesi var . Bir konferans bildirisi özeti var (4), yayınlandığında makalenin bağlantısını yayınlayacağım (yavaş süreç, nefesinizi tutmayın). Temel olarak, bu makale, model hatalarının (model-obs) kovaryansının alınmasını ve diğer tüm modellerle yüksek kovaryansa sahip modellerin (yani oldukça bağımlı hatalara sahip modellerin) ağırlıklandırılmasını içeren bir süreci açıklamaktadır. Model hatası sapması da hesaplanır ve performans ağırlıklandırma bileşeni olarak kullanılır.

İklim modellemenin, genel olarak sayısal modellemenin kaprislerinden açıkça etkilendiğini de belirtmek gerekir. "Gülme testi" denilen bir şey var - eğer küresel ortalama sıcaklıkların 2050 yılına kadar + 20 ° C olacağını ima eden bir model çalışmasıyla sonuçlandırırsınız, çünkü fiziksel olarak uygun değildir. Açıkçası bu tür testler oldukça özneldir. Henüz talep etmedim, ama yakın gelecekte olmasını bekliyorum.

Bu, şu anda kendi alanımdaki devlet modeli kombinasyonunu anlamam. Açıkçası hala öğreniyorum, bu yüzden özel bir şeye çarparsam, geri döneceğim ve bu cevabı güncelleyeceğim.

(1) Tebaldi, C. ve Knutti, R., 2007. Çok modelli topluluğun olasılıklı iklim projeksiyonlarında kullanımı. Kraliyet Toplumunun Felsefi İşlemleri A: Matematik, Fiziksel ve Mühendislik Bilimleri, 365 (1857), s.2053-2075.

(2) Knutti, R. ve ark., 2010. IPCC Çok Modelli İklim Projeksiyonlarının Değerlendirilmesi ve Birleştirilmesi Konusunda Uzmanlar Toplantısı.

(3) Masson, D. & Knutti, R., 2011. İklim modeli şecere. Kurultayı. Res. Leton, 38 (8), sayfa L08703.

(4) Abramowitz, G. ve Bishop, C., 2010. Topluluk tahmininde model bağımlılığının tanımlanması ve ağırlıklandırılması. AGÜ Güz Toplantısı Özetleri. s. 07.


ilk paragraf demek "karmaşık, yüksek doğrusal olmayan modeller" demek ? Çalışma alanım için (iklim dışı alan), genellikle farklı modeller kullanmanın genellikle çok farklı tahminlere yol açmadığını görüyorum. Ancak, modellerin geçici olmayan bir şekilde birleştirilmesi için hesaplamayı çalıştırmak ve çalıştırmak bizim için büyük bir engeldir. Daha doğru tahminler beklerdim, ancak modelleri birleştirmek ve bu tahminlerdeki hatayı doğru bir şekilde tahmin etmek için zamanım yok.
olasılık

Teşekkürler, düzeltildi. Bilgisayar kümelenmesine erişimim var, bu nedenle bilgisayar gücü çok büyük bir sorun değil, ama evet, düzgün bir şekilde kurduğum modeli almak bile bir acı ve zaten yazılmış. Bu yüzden CMIP var, bu yüzden insanlar her seferinde bu sıkıntıdan geçmek zorunda değiller. Eğer benzer şeyler yapıyorsanız, hangi alanda olduğunuzu bilirsiniz.
Naught101
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.