Öngörülü modeller: İstatistikler muhtemelen makine öğrenimini yenemez mi? [kapalı]


13

Şu anda istatistik / ekonometri üzerine yoğunlaşan bir yüksek lisans programını takip ediyorum. Ustamda, tüm öğrenciler 3 aylık araştırma yapmak zorunda kaldı. Geçen hafta, tüm gruplar araştırmalarını yüksek lisans öğrencilerinin geri kalanına sunmak zorunda kaldı.

Hemen hemen her grup araştırma konuları için bazı istatistiksel modelleme ve bazı makine öğrenme modellemesi yaptı ve her defasında örnek dışı tahminler, basit makine öğrenme modellerinin her biri için son derece çok çalıştığı çok karmaşık istatistiksel modelleri yendi. aydır. Herkesin istatistiksel modelleri ne kadar iyi olursa olsun, basit bir rastgele orman neredeyse her zaman daha düşük örnek dışı hatalara sahiptir.

Bunun genel kabul görmüş bir gözlem olup olmadığını merak ediyordum. Örnek dışı tahmin söz konusu olduğunda, basit bir rastgele ormanı veya aşırı degrade artırıcı modeli yenmenin bir yolu yoktur? Bu iki yöntemin R paketlerini kullanarak uygulanması son derece basitken, herkesin ortaya koyduğu tüm istatistiksel modeller tahmin etmek için oldukça fazla beceri, bilgi ve çaba gerektirir.

Bununla ilgili düşüncelerin neler? Yorumladığınız istatistiksel / ekonometrik modellerin tek yararı mı? Yoksa modellerimiz basit rastgele orman tahminlerinden önemli ölçüde daha iyi performans gösteremeyecek kadar iyi değil miydi? Bu konuyu ele alan herhangi bir makale var mı?


5
Bu "çok geniş" olarak kapatılabilir. (Umarım "fikir tabanlı" olarak değil!) Benim görüşüm: Evrensel bir cevap olduğunu sanmıyorum. Deneyimlerim, daha az gözlem varsa istatistiksel modellerin daha iyi olduğudur, çünkü o zaman bir tür yapının dayatılması büyük ölçüde modelsiz bir yaklaşımla gelişir. Tersine, çok fazla gözlem varsa RF'ler daha iyidir. ...
Stephan Kolassa

4
... Diğer soru ise tam olarak neyin nasıl değerlendirildiği. Nokta tahminleri uygun bir şekilde değerlendirildiyse (doğruluk ölçümleri şaşırtıcı derecede yanıltıcı olabilir), bu yoğunluk tahminlerinden farklı bir konudur. İstatistiksel modeller yoğunluk tahminlerinde daha iyi olabilir, çünkü daha fazla veriye ihtiyacınız var.
Stephan Kolassa

1
@StephanKolassa: Bence bu soruya iyi bir cevap (ya da birkaç cevap kümesi) evrensel bir cevabın olmamasının nedenlerini - teorik ve pratik olarak - öngörücü performansın nasıl değerlendirildiğini, istatistiksel ve makine arasında nasıl bir ayrım çizileceğini içerir. öğrenme yöntemleri, tahminin ötesinde hangi hedefler olabilir ve hiç düşünmediğim birkaç şey. Yani geniş bir kapsam; ama bence çok geniş değil, ve bunu sınırlamaya çalışmak, yararlı genel noktaların ortaya çıkmasını engelleyebilir.
Scortchi - Monica'yı eski durumuna döndürün

5
İstemediğimiz şey bir fıkra koleksiyonudur - Kullanıcıları, örneğin "Her zaman rastgele ormanların lojistik regresyonu yendiğini buldum" dan daha çok silme cevaplarını işaretlemeye çağırıyorum. Yorumlar hakkında biraz durgun olabiliriz, ancak uzun konular sohbete taşınır.
Scortchi - Monica'yı eski durumuna getirin

14
İstatistikler ve makine öğrenmesi arasında anlamlı bir ayrım olduğunu düşünmüyorum. Örneğin, önde gelen rastgele orman araştırmacısı Leo Breiman, UC Berkeley'de istatistik profesörüydü . Anekdotunuz bağlamında RF, insanların uyduğu diğer modellerden daha iyi oldu, ancak bunun genel olarak doğru olması için hiçbir neden göremiyorum (ayrıca bkz. Ücretsiz Öğle Yemeği Yok teoremi). Belki de bu, veri seti (veya öğrenciler) hakkında yöntemlerden daha fazla şey söylüyor.
Sycorax, Reinstate Monica'ya

Yanıtlar:


20

İstatistiksel modelleme, makine öğrenmesinden farklıdır. Örneğin, doğrusal regresyon hem istatistiksel bir model hem de bir makine öğrenme modelidir. Dolayısıyla, doğrusal bir regresyonu rastgele bir ormanla karşılaştırırsanız, daha basit bir makine öğrenme modelini daha karmaşık bir modelle karşılaştırırsınız. Sen ediyoruz değil bir makine öğrenme modeline istatistiksel bir model karşılaştırılması.

İstatistiksel modelleme yorumdan daha fazlasını sağlar; aslında bazı nüfus parametrelerinin bir modelini verir. Bu, katsayıların varyansı, tahminlerin varyansı ve hipotez testi gibi şeyler için formüller sağlayan geniş bir matematik ve teori çerçevesine bağlıdır. İstatistiksel modellemenin potansiyel verimi, makine öğreniminden çok daha büyüktür, çünkü sadece tutmadaki hatayı ölçmek yerine nüfus parametreleri hakkında güçlü açıklamalar yapabilirsiniz, ancak bir soruna istatistiksel modelle yaklaşmak oldukça daha zordur.


1
Anladığım kadarıyla istatistiklerle katsayıların varyansı, tahminlerin varyansı ve hipotez testi gibi daha fazla fayda elde edersiniz. Ancak, yalnızca öngörücü modellemeye gelince, yani bazı tepki değişkenlerinin nokta tahminlerini yapmak söz konusu olduğunda, istatistiksel modellerin makine öğrenme modellerini yenebileceğini düşünüyor musunuz?
dubvice

5
Bu cevap (1!). Benim görüşüme göre (ve belki de başkalarının da) birkaç tür istatistiksel analiz vardır: tanımlayıcı, çıkarımsal, öngörücü, keşifçi, vb. her şey "eldeki iş için doğru aracı kullanmak" için kaynar (doğrusal regresyon örneği göz önüne alındığında, tüm alanlarda kullanılabilir, örneğin tanımlayıcı bir görev olan koşullu beklentileri tahmin etmek).
Firebug

2
Bu, standart istatistiksel modellemenin, çıkarım için (öngörmenin aksine), makine öğreniminden daha iyi olabileceği iddiasına benziyor ve bu da modelin yorumlanmasına yardımcı olabilir. Orijinal sorunun özellikle rastgele ormana (çıkarım için iyi bir ML algoritması) atıfta bulunduğu göz önüne alındığında, sıradan bir en küçük kareler regresyonunu derin bir sinir ağıyla karşılaştırırsak kesinlikle doğru olsa da, böyle bir iddia biraz bulanıktır.
Greenstick

2
İstatistiksel modellerin sürekli olarak makine öğrenme yaklaşımlarını geçtiği zaman serisi alanından bazı sağlam kanıtlar: Makridakis "İstatistiksel ve Makine Öğrenimi tahmin yöntemleri: Endişeler ve ileriye yönelik yollar" .
Richard Hardy

1
Bu sadece mükemmel cevap. İşte bir örnek: Belirli bir hastalığı olan hastaların hayatta kalmasını öngören bir önleminiz olduğunu varsayalım. Bu önlemin klinik olarak geçerli olup olmadığının nasıl tanımlanacağına dair uluslararası standartlar vardır (temel olarak katsayı 0'dan farklıysa, tek değişkenli veya çok değişkenli bir modelde değeri% 5'in altındaysa). Her ne kadar zamanın% 99'unun yeterli veriye sahip rastgele bir ormanın daha iyi bir tahmin modeli olacağından eminim.
Rémy Nicolle

5

Soruyu ifade etme şeklinizi belirtmek yanlıştır. Örneğin, makine öğreniminin önemli bir kısmı istatistiksel öğrenme olarak adlandırılabilir . Yani, karşılaştırmanız elma ve meyve tartlarına benziyor.

Bununla birlikte, onu çerçevelediğiniz yolla gideceğim ve aşağıdakileri talep edeceğim: tahmin söz konusu olduğunda, hiçbir şey istatistik olmadan hiçbir şey yapılamaz çünkü tahmin, doğasında rasgele (belirsizlik) vardır. Bunu düşünün: bazı uygulamalarda makine öğreniminin büyük başarısına rağmen , varlık fiyat tahmininde gösterilecek hiçbir şey yoktur . Hiçbir şey. Neden? Çünkü çoğu gelişmiş likit piyasada varlık fiyatları doğal olarak stokastiktir.

Atomların radyoaktif bozunumunu gözlemlemek ve öğrenmek için gün boyu makine öğrenimi yapabilirsiniz ve bir sonraki atomun bozulma süresini asla tahmin edemez, çünkü bu rastgele.

Gelecekte bir istatistikçi olarak, makine öğreniminde ustalaşmamak sizin tarafınızdan aptal olacaktır, çünkü elbette, akademiye gideceğinizden emin olmadığınız sürece, istatistiklerin en sıcak uygulamalarından biridir. Endüstride çalışmaya gitmesi muhtemel herkes ML konusunda uzmanlaşmalıdır. İstatistikler ve ML kalabalıkları arasında hiç bir düşmanlık veya rekabet yoktur. Aslında, programlamayı seviyorsanız ML alanında kendinizi evinizde hissedeceksiniz


2

Genel olarak hayır, ancak potansiyel olarak evet yanlış ifade altında. Aradığınız konu kabul edilebilirlik olarak adlandırılıyor. Hesaplamak için daha az riskli bir yol yoksa bir karar kabul edilebilir.

Tüm Bayes çözeltileri kabul edilebilir ve Bayes olmayan çözeltiler, her örnekte veya sınırda bir Bayes çözeltisi ile eşleştikleri ölçüde kabul edilebilir. Kabul edilebilir bir Frequentist veya Bayesian çözümü, kabul edilebilir olmadığı sürece her zaman bir ML çözümünü yenecektir. Bununla birlikte, bu ifadeyi doğru ama boş yapan bazı pratik açıklamalar var.

Birincisi, Bayesian seçeneğinin önceliği sizin gerçek önceliğiniz olmalı ve bir dergide bir editörü mutlu etmek için kullanılan bir önceki dağıtım değil. İkincisi, birçok Frequentist çözüm kabul edilemez ve standart çözüm yerine bir büzülme tahmincisi kullanılmalıdır. Bir çok insan Stein'in lemmasının ve bunun örnek dışı hataya etkisinin farkında değildir. Son olarak, ML birçok durumda yanlış yazım hatasına karşı biraz daha sağlam olabilir.

Karar ağaçlarına ve onların kuzenlerine ormanlara taşındığınızda, aynı zamanda bir Bayes ağına benzer bir şey kullanmadığınız sürece benzer bir metodoloji kullanmıyorsunuzdur. Bir grafik çözümü, içinde önemli miktarda örtülü bilgi, özellikle de yönlendirilmiş bir grafik içerir. Olasılıklı veya istatistiksel bir sürece her bilgi eklediğinizde, sonucun değişkenliğini azaltır ve kabul edilebilir olarak kabul edilecek şeyi değiştirirsiniz.

Makine öğrenmesine işlevler perspektifinden bakarsanız, bu sadece istatistiksel bir çözüm haline gelir, ancak çözümü izlenebilir hale getirmek için yaklaşık değerleri kullanır. Bayesian çözümleri için MCMC, birçok ML problemi için gradyan inişinde olduğu gibi inanılmaz miktarda zaman tasarrufu sağlar. Birçok ML problemine entegre etmek veya kaba kuvvet kullanmak için kesin bir posterior yapmak zorunda olsaydınız, güneş sistemi bir cevap almadan önce ısı ölümüyle ölmüş olurdu.

Tahminimce, istatistik veya uygunsuz istatistik kullananlar için yanlış tanımlanmış bir modeliniz var. Yeni doğanların uygun bir şekilde kundaklanmadığı takdirde pencereleri yüzdüğünü ve Bayes yönteminin Frequentist yöntemin katılımcıların parasını ikiye katlarken çokuluslu bir seçimde bu kadar radikal bir şekilde daha iyi performans gösterdiğini kanıtladığım bir ders verdim. . Şimdi ilkinde istatistikleri kötüye kullandım ve Frequentist tahmincinin ikincisinde kabul edilemezliğinden yararlandım, ancak saf bir istatistik kullanıcısı yaptığımı kolayca yapabilirdi. Örnekleri açıklığa kavuşturmak için onları aşırı yaptım, ama kesinlikle gerçek veriler kullandım.

Rasgele ormanlar tutarlı tahmin edicilerdir ve bazı Bayes süreçlerine benziyor gibi görünmektedir. Çekirdek tahmin edicileriyle bağlantı nedeniyle oldukça yakın olabilirler. Çözüm türleri arasında performansta önemli bir fark görürseniz, altta yatan problemde yanlış anladığınız bir şey vardır ve sorun herhangi bir önem taşıyorsa, farkın kaynağını da aramanız gerekir. tüm modellerin yanlış tanımlanması durumunda.


1

Çoğu makine öğrenimi, en azından bazı amaçlar için p-hacklemeden farklı olmayabilir.

Olası her modeli, geçmiş verilere dayanarak en yüksek tahmin doğruluğuna (geçmiş tahmin veya grup dışı tahmin) sahip olduğunu bulmak için test ederseniz, sonuçların neler olup bittiğini anlamaya yardımcı olacağı anlamına gelmez. Ancak, muhtemelen bir hipotezi bildirebilecek olası ilişkiler bulacaktır.

Belirli hipotezleri motive etmek ve daha sonra bunları istatistiksel yöntemler kullanarak test etmek de benzer şekilde saldırıya uğramış (veya benzer) olabilir.

Ancak asıl nokta, eğer kriterler "tarihsel verilere dayalı en yüksek tahmin doğruluğu" ise, o zaman bu tarihsel sonuçları ve / ya da gelecek için bilgilendirici olup olmadıklarını.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.