Makine öğrenmesi nedensellik anlayışı için daha az faydalı, bu nedenle sosyal bilimler için daha az ilginç mi?


42

Makine öğrenimi / diğer istatistiksel öngörücü teknikler ile sosyal bilimcilerin (örneğin, ekonomistlerin) kullandıkları istatistiklerin arasındaki farkı anlamam, ekonomistlerin hem tek hem de çok değişkenli etkiyi anlamak için çok ilgilendikleri görünüyor. büyüklük ve ilişkinin nedensel olup olmadığını tespit etmek. Bunun için kendinize deneysel ve yarı deneysel yöntemler vb.

Tahmini olan makine öğrenmesi veya istatistiksel modelleme genellikle bu yönü tamamen ihmal eder ve çoğu durumda size bir değişkenin sonucu etkileyeceği belirli bir derece vermez (logit ve probit her ikisinin de yaptığı gibi).

İlgili bir soru, teorik olarak esinlendirilmiş ekonomik veya davranışsal modellerin, yeni etki alanlarını öngörürken, atletik modellere göre ne derece avantaj sağladığıdır? Makine öğrenmesi veya tahmin odaklı bir istatistikçi, ekonomik bir model olmadan, değişkenlerin çok farklı olduğu yeni örnekleri doğru bir şekilde tahmin edemeyeceğiniz eleştirisine ne söyler?

İnsanların bunu her açıdan ele aldıklarını duymaktan gerçekten mutlu olurum.


Soru. 'Atletik modeller' yazmayı mı demek istediniz ve öyleyse, bununla ne demek istediniz? VEYA az önce 'teorik' mi demek istediniz?
Faheem Mitha

2
Belki de üretken ve ayrımcı modellere mi bakıyorsunuz? Makine Öğrenimi, ayırt edici model ve tekniklere yönelir.
Wayne

@FaheemMitha: 'Athoretical': Teori olmadan.
naught101

Yanıtlar:


32

IMHO, makine öğrenimini ve istatistiklerini verilere uygun temel model seviyelerinde ayıran resmi bir fark yoktur. Modellerin seçiminde, modellerin verilere uydurma hedeflerinde ve bazılarında yorumları genişletmede kültürel farklılıklar olabilir.

Tipik örneklerde her zaman sahip olduğumuzu düşünebilirim

  • modellerin bir koleksiyon için i I bazı indeks set için I ,Mbenbenbenben
  • ve her biri için bir bilinmeyen bileşen θ i modeli (parametreler, sonsuz boyutlu olabilir) M i .benθbenMben

Montaj verilere hemen hemen her zaman bilinmeyen bileşenin optimum seçimi bulma oluşan matematiksel optimizasyon problemidir θ i yapmak için M i bazı favori fonksiyonu ile ölçülen verileri uygun.MbenθbenMben

Modeller arasında seçim az standarttır ve mevcut bir dizi teknik bulunmaktadır. Model takma işleminin amacı tamamen öngörücü ise, model seçimi iyi bir tahmin performansı elde etmek için yapılır, oysa temel amaç ortaya çıkan modelleri yorumlamaksa, diğer modellere göre daha kolay yorumlanabilen modeller seçilebilir. Tahmini gücün daha kötü olması bekleniyor.Mben

Eski okul istatistik modeli seçimi olarak adlandırılabilecek şey, belki de adım adım seçim stratejileriyle birleştirilen istatistiksel testlere dayanırken, makine öğrenme modeli seçimi genellikle, genellikle çapraz doğrulama kullanılarak tahmin edilen beklenen genelleme hatasına odaklanır. Bununla birlikte, model seçimindeki mevcut gelişmeler ve anlayışlar, daha yaygın bir zemine yakınlaşıyor gibi görünmektedir, örneğin, bkz . Model Seçimi ve Model Ortalaması .

Modellerden nedensellik çıkarımı

Maddenin konusu, bir modeli nasıl yorumlayabileceğimizdir? Elde edilen veriler dikkatlice tasarlanmış bir deneyden geliyorsa ve model yeterliyse, modeldeki bir değişkenin değişiminin nedensel bir etki olarak yorumlanması ve deneyi tekrarlayıp bu değişkene müdahale edersek mümkün olabilir. tahmini etkiyi gözlemlemeyi bekleyebiliriz. Bununla birlikte, veriler gözlemsel ise, modeldeki tahmini etkilerin gözlemlenebilir müdahale etkilerine karşılık gelmesini bekleyemeyiz. Bu, modelin bir "makine öğrenme modeli" veya "klasik istatistiksel model" olup olmadığına bakılmaksızın ek varsayımlar gerektirecektir.

Tek değişkenli parametre tahminlerine ve etki büyüklüğü yorumlarına odaklanan klasik istatistiksel modelleri kullanma konusunda eğitim almış insanlar olabilir, nedensel bir yorumlamanın bu çerçevede makine öğrenim çerçevesinden daha geçerli olduğu izlenimini uyandırıyor olabilirler. Öyle olmadığını söyleyebilirim.

İstatistiklerdeki nedensel çıkarım alanı sorunu gerçekten ortadan kaldırmaz, ancak nedensel sonuçların açık olduğu varsayımlarını yapar. Bunlar denenemez varsayımlar olarak adlandırılır . Makale İstatistikte nedensel çıkarım: Judea Pearl'ün genel bakış okuması iyi bir makaledir. Nedensel çıkarımdan gelen büyük bir katkı, aksi halde büyük bir endişe kaynağı olan gözlemlenmemiş kafa karıştırıcıların olduğu varsayımlar altında nedensel etkilerin tahmini için yöntemlerin toplanmasıdır. Yukarıdaki Pearl makalesinde Bölüm 3.3'e bakınız. Daha gelişmiş bir örnek, Marjinal Yapısal Modeller ve Epidemiyolojideki Nedensel Çıkarım belgesinde bulunabilir .

Test edilemez varsayımların geçerli olup olmadığı konusu bir konudur. Tam olarak denenemezler çünkü verileri kullanarak test edemiyoruz. Varsayımları doğrulamak için başka argümanlar gereklidir.

Makine öğrenmesi ve nedensel çıkarımın birleştiği yerin bir örneği olarak , Mark van der Laan ve Daniel Rubin tarafından Hedeflenen Maksimum Olabilirlik Öğrenmesi Öğrenme bölümünde sunulan hedeflenen maksimum olabilirlik tahmini tahminleri , tipik olarak "hedefleme" tarafından izlenen parametrik olmayan tahmin için makine öğrenim tekniklerini kullanır. "ilgilenilen bir parametreye doğru. İkincisi, nedensel yorumlamaya sahip bir parametre olabilir. Süper Öğrenicide Fikirilgilenilen parametrelerin tahmini için makine öğrenme tekniklerine dayanmaktır. Mark van der Laan (kişisel iletişim), klasik, basit ve "yorumlanabilir" istatistiksel modellerin çoğu zaman yanlış olduğu ve bu, önyargılı tahmin edicilere ve tahminlerin belirsizliğinin çok iyimser değerlendirmesine yol açan önemli bir noktadır.


Bu inanılmaz cevap için teşekkürler ... Verdiğiniz tüm linkleri takip etmeyi umuyorum. Uzun süredir devam eden bir soru tekniklerle ilgili. Gözlemsel veriler için araçsal değişkenler gibi bir şeyin makine öğrenmesi analoğu var mı? Ayrıca - bir değişkenin rastgele seçilmesi durumunda, makine öğrenme alternatifi, tedaviler arasındaki farklılıkların basit bir t-testine göre ne olurdu? Makine öğrenimi cevap tekniğine ihtiyaç duyuyor mu, hangi avantajı olurdu?
d_a_c321

@dchandler, enstrümantal değişkenler hakkındaki deneyimim çok sınırlı, ancak yine de model uyumu için makine öğrenmesi ve istatistik metodolojisi arasında ayrım yapmak için resmi bir neden göremiyorum , bu nedenle eğer bir amaca hizmet ediyorsa, enstrümantal değişkenleri çok iyi bir şekilde dahil edebilirsiniz. Nedensellik ile ilgili en ilginç sorunun müdahalenin etkisi olduğunu buldum. Bu temelde bir tahmin sorunudur, ancak gözlemsel verilerin dağıtımı altında değildir.
NRH

ttp

Müdahale sonrasında, makine öğrenmesi ne tür istatistikler kullanır? Deneysel tasarımın temel istatistikleri genellikle beyin ölümü kolaydır (bir t-testi ile karşılaştırma araçları). Ekonometride, daha fazla varsayımla, farklı miktarları geri kazanmayı veya tedavi etkilerinin dağılımını deneyebilirsiniz. Bir makine öğrenmesi analizi, araçları karşılaştırmanın ötesinde ne yapar?
d_a_c321 14:11

Beyin ölümü kolay olan şey bir şeyi hesaplamak, o kadar kolay olmayan şey gerekli varsayımları haklı çıkarmaktır. Mark tarafından verilen TMLE yaklaşımı, etki büyüklüklerinin (genel olarak ilgilenilen parametreler, belki müdahale etkileri, belki de gözlemsel etkiler) tahminidir ve daha az kısıtlayıcı model varsayımlarıyla dürüst güven aralıkları sağlar. Sınırlayıcı ve yanlış parametrik bir modelden kaçınmak için çapraz onaylamaya dayalı model seçimine uygun esnek model kullanılır.
NRH

10

“Nedensel çıkarım” olarak adlandırılan (oldukça sınırlı) bir istatistiksel araçlar kümesi vardır. Bunlar aslında nedensel ilişkileri değerlendirmek için tasarlanmıştır ve bunu doğru şekilde yaptıkları kanıtlanmıştır. Mükemmel, ama kalbin uykusu için değil (ya da bunun için beyin).

Bunun dışında, birçok durumda nedensellik ifade etme yeteneği, tasarımınızın eldeki tekniklerden çok bir sonucudur: eğer denemenizdeki değişkenlerin hepsini kontrol altında tutuyorsanız ve her seferinde olan bir şey görürseniz ( sadece) bir değişkeni değiştirdiğinizde, değiştirdiğiniz şeyin 'sonucu' olan şeyi söylemek makul olur (ne yazık ki, gerçek araştırmada bu aşırı durumlar nadiren meydana gelir). Bir başka sezgisel fakat sağlam mantık zamana dayalıdır: rastgele (ancak kontrollü bir şekilde) bir değişkeni değiştirirseniz ve bir diğeri de ertesi gün değiştirirse, nedensellik de köşededir.

İkinci paragrafımın tamamı, hangi koşullarda hangi değişkenlerin değiştiğini bulmak için hangi yöntemleri kullandığınıza bakılmaksızın çalışır; bu nedenle, en azından teoride Makine Öğreniminin (ML) İstatistik tabanlı yöntemlerden daha kötü olmasının bir nedeni yoktur.

Feragatname : Son derece öznel paragraf takip

Ancak, benim deneyimlerime göre, çok sık ML teknikleri, verilerin nereden geldiğini veya nasıl toplandığını dikkate almadan bir veri bloğu üzerinde serbest kalmasına izin veriyor (yani, tasarımı dikkate almamak). Bu gibi durumlarda, bu kadar sık ​​sık bir sonuç ortaya çıkar, ancak nedensellik hakkında yararlı bir şey söylemek çok zor olacaktır. Bu olacakİstatistiksel olarak sağlam bir yöntem aynı veriler üzerinde çalıştığında tam olarak aynı olun. Bununla birlikte, güçlü istatistik geçmişi olan insanlar bu konularda eleştirel olma konusunda eğitilmişlerdir ve eğer her şey yolunda giderse, bu tuzaklardan kaçınacaktır. Belki de, ML tekniklerinin (tipik olarak yeni tekniklerin geliştiricileri değil, kendi alanlarında bazı sonuçları 'kanıtlamak için istekli olanlar) ML tekniklerinin erken (ama özensiz) benimseyenlerin zihniyeti budur. hesap. ( not edindeğil istatistiklerini diyerek) ML daha iyidir, yoksa ML yapıyor tüm insanlar özensiz olduklarını ve bu yaptığını istatistikleri değildir


Cevabınız için çok teşekkürler. Nedenselliğin tasarımın tekniklerden ziyade tasarımın bir sonucu olduğunu açıklamanızı gerçekten seviyorum. Teknikler hakkında düşündüğüm bir soru, makine öğrenmesi için araçsal değişkenler gibi bir şey olup olmadığı. Ayrıca - bir değişkenin rastgele seçilmesi durumunda, makine öğrenme alternatifi, tedaviler arasındaki farklılıkların basit bir t-testine göre ne olurdu?
d_a_c321 14:11

9

Benim görüşüme göre, iktisatta kullanılan modeller ve diğer sosyal bilimler, sadece gerçek dünyada öngörücü güce sahip oldukları sürece faydalıdır - gerçek dünyayı tahmin etmeyen bir model sadece akıllı bir matematiktir. Meslektaşlarım için benim en sevdiğim bir deyiş, "verinin kral olduğu".

Bana öyle geliyor ki, sorunuz, öngörücü bir yaklaşımın iki eleştirisini ortaya koyuyor. Öncelikle, makine öğrenimi teknikleriyle üretilen modellerin yorumlanamayabileceğini belirtiyorsunuz . İkincisi, sosyal bilimlerde kullanılan yöntemlerin nedensel ilişkileri ortaya çıkarmak için makine öğrenmesinden daha faydalı olduğunu öne sürüyorsunuz.

İlk noktaya değinmek için aşağıdaki karşı argümanı öneririm. Makine öğrenimindeki mevcut heves, bir meslekten olmayan kişinin anlaması için hiç de kolay olmayan yöntemleri (SVM'ler ve NN gibi) tercih etmektedir. Bu, tüm makine öğrenme tekniklerinin bu özelliğe sahip olduğu anlamına gelmez . Örneğin, saygıdeğer C4.5 karar ağacı, gelişiminin son aşamasına ulaştıktan 20 yıl sonra hala yaygın olarak kullanılmaktadır ve çıktı olarak bir takım sınıflandırma kuralları üretmektedir. Bu tür kuralların, yorum yazma oranına log odds oranı gibi kavramlardan daha iyi borç verdiğini savunuyorum, ancak bu öznel bir iddia. Her durumda, bu tür modeller vardır yorumlanabilir.

İkinci noktaya değinirken, bir makine öğrenme modelini bir ortamda eğitirseniz ve başka bir ortamda test ederseniz, bunun muhtemelen başarısız olacağını, ancak bunun da bunun doğru olmadığını iddia etmek için bir neden olmadığını varsaymak için bir neden olmadığını kabul edeceğim. daha geleneksel model: Modelinizi bir varsayımlar kümesi altında oluşturursanız ve daha sonra bir başkası altında değerlendirirseniz, kötü sonuçlar alırsınız. Bilgisayar programcılığından bir ifadeyi birlikte seçmek için: "çöp içeri, çöp dışarı" hem makine öğrenmesi hem de tasarlanan modeller için aynı derecede geçerlidir.


9

Hayır. Nedensel çıkarım makine öğreniminde aktif bir araştırma alanıdır, örneğin bu çalıştayın ve bunun ilerlemesine bakınız . Bununla birlikte, nedensel çıkarım ya da model yorumlamanın birincil ilgi alanınız olmasına rağmen, paralel olarak opak tamamen öngörülü bir yaklaşım denemek için hala iyi bir fikir olduğunu, böylece ısrarla ilgili önemli bir performans cezası olup olmadığını anlayacağınızı belirtmek isterim. yorumlanabilir bir model.


1
interopretable? Muhtemelen yorumlanabilir mi demek istiyorsun?
Faheem Mitha

4

Diğer cevaplarda daha önce yapılmış çok iyi noktaları tekrar etmeyeceğim, ancak biraz farklı bir bakış açısı eklemek istiyorum. Burada söylediklerim biraz felsefi, zorunlu olarak mesleki deneyimlerden değil, fiziksel bilimler, karmaşık sistemler teorisi ve makine öğrenimindeki karışık bir arka plandan geliyor (ve büyük ölçüde lisans istatistiklerini kabul etmeliyim).

Makine öğrenimi ile klasik istatistiksel yaklaşımlar (farkında olduğum) arasındaki önemli bir fark, yapılan varsayımlar kümesindedir. Klasik istatistiklerde, altta yatan süreçler ve dağıtımlarla ilgili birçok varsayım sabittir ve verilmesi için alınma eğilimindedir. Bununla birlikte, makine öğreniminde, bu varsayımlar her model için açıkça seçilmiştir, bu da daha geniş bir olasılıklar kümesi ve belki de yapılan varsayımlar hakkında daha fazla farkındalık ile sonuçlanmaktadır.

Etrafımızdaki dünyadaki sistemlerin karmaşık, doğrusal olmayan şekillerde davrandığını ve birçok işlemin normalde klasik istatistiklerde var olan normallik vb. Varsayımlarına uymadığını gittikçe daha fazla görüyoruz. Esneklik ve model varsayımlarının çeşitliliği nedeniyle, makine öğrenme yaklaşımlarının bu gibi durumlarda genellikle daha sağlam bir modele yol açacağını iddia ediyorum.

"Etki büyüklüğü", "nedensel ilişki" ve "bir değişkenin sonucu etkilediği derece" gibi tümcecikler içine yerleştirilmiş güçlü model varsayımları vardır. Karmaşık bir sistemde (bir ekonomi gibi), bu varsayımlar yalnızca olası sistem durumlarının belirli bir penceresi içinde geçerli olacaktır. Bazı gözlenebilir ve süreçlerde, bu pencere nispeten büyük modellere yol açarak büyük olabilir. Diğerleri ile küçük veya hatta boş olabilir. Belki de en büyük tehlike orta yoldur: bir model çalışıyor gibi görünebilir, ancak sistem yer değiştirdiğinde, ani ve şaşırtıcı şekillerde başarısız olur.

Makine öğrenmesi her derde deva değil. Daha ziyade, gözlemlerimizden anlam çıkarmanın yeni yollarını aramanın, etrafımızdaki dünyada algılamaya başladığımız karmaşıklıkla başa çıkmamız gerekirse yeni paradigmalar arayışı olarak görüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.