Modern istatistik / makine öğreniminde neden çoklu doğrusallık kontrol edilmiyor?


44

Geleneksel istatistiklerde, bir model oluştururken, varyans enflasyon faktörünün (VIF) tahminleri gibi yöntemleri kullanarak çok doğrusallığı kontrol ediyoruz, ancak makine öğreniminde, bunun yerine özellik seçimi için düzenlileştirme kullanıyoruz ve özelliklerin birbiriyle ilişkili olup olmadığını kontrol etmiyoruz. hiç. Neden bunu yapıyoruz?

Yanıtlar:


51

Çok noktaya yakınlığın göz önünde bulundurulması, regresyon analizinde önemlidir, çünkü ekstremada , katsayılarınızın verilerde benzersiz bir şekilde tanımlanıp tanımlanmadığı ile doğrudan ilgilidir. Daha az ciddi durumlarda, hala katsayı tahminlerinizi etkileyebilir; Tahmin için kullanılan verilerdeki küçük değişiklikler, tahmini katsayılarda vahşi dalgalanmalara neden olabilir. Bunlar çıkarımsal bir bakış açısından sorunlu olabilir: Eğer iki değişken yüksek korelasyona sahipse, birindeki artışlar diğerindeki azalmalar ile dengelenebilir, böylece birleşik etki birbirini olumsuzlar. İkiden fazla değişken olduğunda, etki daha da belirsiz olabilir, ancak tahminler kararlıysa, makine öğrenimi uygulamaları için bu genellikle yeterlidir.

Biz regresyon bağlamında regularize neden düşünün: Biz olmaktan modeli daraltmak için gereken çok esnek. Doğru miktarda düzenliizasyon uygulamak, varyanstaki daha büyük bir düşüş için önyargılı biraz artıracaktır. Bunun klasik örneği, bir regresyona polinom terimleri ve etkileşim efektleri eklemek: Dejenere durumda, tahmin denklemi veri noktalarını enterpolasyona sokacak, ancak görünmeyen veri noktalarının değerlerini tahmin etmeye çalışırken muhtemelen korkunç olacaktır. Bu katsayıları küçültmek, bu katsayıların bazılarını en aza indirecek veya tamamen ortadan kaldıracak ve genellemeyi iyileştirecektir.

Bununla birlikte, rastgele bir ormanın, her bölünmede örneklenen değişkenlerin sayısı aracılığıyla bir düzenlileştirme parametresine sahip olduğu görülebilir: ne kadar büyük olursa o kadar iyi olur mtry(seçim için daha fazla özellik; bazıları diğerlerinden daha iyidir). Her bir ağacı diğer ağaçlarla daha fazla korelasyonlu kılar ve ilk olarak birden fazla ağacı tahmin etmenin çeşitlendirici etkisini hafifletir. Bu ikilem, genellikle çapraz doğrulama kullanılarak elde edilen doğru dengeyi bulmaya zorlar. Önemli bir şekilde ve bir regresyon analizinin aksine, rastgele orman modelinin hiçbir kısmı yüksek düzeyde kolinear olmayan değişkenler tarafından zarar görmez: değişkenlerin ikisi aynı alt düğüm saflığı sağlarsa bile, sonucun kalitesini düşürmeden bir tane seçebilirsiniz.

Aynı şekilde, bir SVM gibi bir şey için, özelliklerden daha fazla öngörücü ekleyebilirsiniz, çünkü çekirdek numarası yalnızca bu özellik vektörlerinin iç ürünü üzerinde çalışmanıza izin verir. Gözlemlerden daha fazla özelliğe sahip olmak regresyonlarda bir sorun olacaktır, ancak çekirdek numarası, her örnek için sadece bir katsayı tahmin etmemiz anlamına gelirken, C normalleştirme parametresi , N- parametrelerinin tahmin edilmesinden bu yana kesinlikle iyi bir şey olan çözümün esnekliğini azaltır. için N-Sınırsız bir şekilde yapılan gözlemler her zaman test verileri üzerinde mükemmel bir model üretecektir - ve tam bir iyilik halindeyiz, bu durum aşırı iyimser bir modele karşı bir kontrol olarak sınırlandırılmış model esnekliğine sahibiz. SVM probleminin KKT koşullarının gözden geçirilmesi, SVM çözümünün benzersiz olduğunu ortaya koymaktadır, bu nedenle regresyon durumunda ortaya çıkan tanımlama problemleri konusunda endişelenmemize gerek yoktur.

Son olarak, çoklu bağlantıların gerçek etkisini düşünün . Modelin öngörücü gücünü değiştirmez (en azından eğitim verileri üzerinde), ancak katsayı tahminlerimizi bozuyor. Çoğu ML uygulamasında, katsayıları kendileri umursamıyoruz.sadece model tahminlerimizin kaybı, bu nedenle VIF'i kontrol etmek sonuçta ortaya çıkan bir soruyu cevaplamıyor. (Ancak verilerdeki küçük bir değişiklik katsayılarda [klasik bir çok-kutupluluk belirtisi] büyük bir dalgalanmaya neden olursa, bu tahminleri de değiştirebilir, bu durumda umursadığımız - ancak tüm bunların [umarım! Yine de modelleme sürecinin bir parçası olan çapraz doğrulama işlemini uygulayın.) Bir regresyon daha kolay yorumlanır, ancak bazı işler için yorumlama en önemli amaç olmayabilir.


1
Nedensel regresyon modellemesi için, eğilim puanlaması veya regresyon ayarı gibi teknikleri kullanmak, eşdoğrusallık, tahmin için bile bir sorun olabilir, çünkü genellikle amaç, sadece bir kontrol / maruz olmayan gruba bir modele uymak ve daha sonra, bu modeli deneysel bir modelde kullanarak elde edilen sonuçları tahmin etmektir. iki grubun birleştirilmesi veya başka bir grubun birleştirilmesi ancak diğer faktörlerin kontrol edilmesi, deney grubundaki olmasının etkisini ölçmek için bir gösterge değişkeni kullanın.
ely,

1
Eşdoğrusallık katsayılarda hatalar yaratırsa, deney grubuna genişletilmiş regresyon işe yaramaz. Aynı şekilde, her iki alt numunede de tek bir regresyon yapılırsa, tedavi görmüş gösterge değişkeninin katsayısı tahmini atılabilir. Modern makine öğrenim teknikleri genellikle bu tür nedensellik problemlerini analiz etmek için kullanılmaz ve bu nedenle kimse bunu hesaba katma ihtiyacına karşı gelmek zorunda kalmamıştır.
ely,

Aslında, ilk örneğinizde, eşzamanlılık (ortak değişkenler arasında, tedaviye değil) bir soruna neden olmaz, çünkü yine de hedef karşı-karşıt sonuçların tahminidir ve eşzamanlılık tahmin ile ilgili bir sorun değildir. Ayrıca, modern ML yöntemleri nedensel çıkarımda sıklıkla kullanılır; genelleştirilmiş güçlendirilmiş modelleme ve rastgele ormanlar, eğilim puanlarını tahmin etmek için yaygın olarak kullanılır ve TMLE, karşı çıktı sonuçlarını etkilemek için ML yöntemlerini kullanır. Nedensel yöntemlerin gücünün, eş anlamlılığın genellikle onlar için bir sorun olmadığını savunuyorum.
Nuh

@Noah Genellikle öyle yorumlanması sadece ham tahmin doğruluğu hususlar (ve diğer etkinin yorumlanması çok tahmin) o poz katsayısı değil. Yorumumun bunu netleştiremediğini fark ettim, ancak bu yüzden bir sorun. Eğer genel öngörü iyi ise, ancak gerçekten maruz kalma için tahmin edilen katsayı ile ilişkili olmuyorsa, bu genellikle nedensel çıkarım için istenmeyen bir modeldir.
ely,

21

Bunun nedeni, “geleneksel istatistiklerin” hedeflerinin, pek çok Makine Öğrenimi tekniğinden farklı olmasıdır.

"Geleneksel istatistikler" ile, regresyon ve çeşitlerini kastediyorsunuz. Regresyonda, bağımsız değişkenlerin bağımlı değişken üzerindeki etkisini anlamaya çalışıyoruz. Çok kutupluluk güçlü ise, bu basitçe mümkün değildir. Bunu düzeltecek bir algoritma yok. Çalışkanlık, sınıfa devam ve notlarla ilişkiliyse, notların gerçekte artmasına neden olan şeyin ne olduğunu bilmiyoruz - devam veya çalışkanlık.

Bununla birlikte, tahmin doğruluğuna odaklanan Makine Öğrenimi tekniklerinde, tek ilgilendiğimiz, başka bir seti tahmin etmek için bir değişken setini nasıl kullanabileceğimizdir. Bu değişkenlerin birbirleri üzerindeki etkilerini umursamıyoruz.

Temel olarak, Makine Öğrenimi tekniklerinde çok kutupluluk olup olmadığını kontrol etmememiz algoritmanın bir sonucu değildir, hedefin bir sonucudur. Bunu, değişkenler arasındaki kuvvetli bir kollektivitenin regresyon yöntemlerinin prediktif doğruluğuna zarar vermediğini fark ederek görebilirsiniz .


11

Burada, eşitliğin kontrol edilmemesinin makul ve hatta en iyi yöntem olduğu varsayılmaktadır. Bu kusurlu görünüyor. Örneğin, birçok öngörücüye sahip bir veri kümesinde mükemmel bir eşzamanlılık kontrolü, iki değişkenin aslında aynı şey olup olmadığını ortaya çıkaracaktır, örneğin doğum tarihi ve yaşı (örneğin Dormann ve diğerleri (2013), Ecography , 36 , 1, sayfa 27-46'dan alınmıştır ). ). Ayrıca bazen forumdaki rakiplerin anonimleştirilmiş potansiyel tahmincileri ortadan kaldırmaya çalıştıkları Kaggle yarışmalarında ortaya çıkan mükemmel korelasyonlu öngörücüler meselesini de gördüm (örn. Öngörücü etiketi gizlendi, Kaggle ve Kaggle benzeri yarışmalarda ortak bir sorun).

Makine belirleyicilerinin seçilmesinin öğrenilmesinde hala bir aktivite vardır - yüksek derecede korelasyonlu belirleyicilerin belirlenmesi, işçinin altta yatan (gizli) bir değişken için vekil olan belirteçleri bulmasına ve nihayetinde gizli değişkeni temsil etmek için en iyi işi yapan bir değişkeni bulmasına izin verebilir. alternatif olarak kombine edilebilecek değişkenleri önerebilir (örneğin PCA ile).

Bu nedenle, makine öğrenme yöntemleri genellikle (veya en azından sıklıkla) korelasyonlu tahminciler karşısında sağlam olacak şekilde tasarlanmış olmasına rağmen, tahmincilerin ilişkili olduğu dereceyi anlamak genellikle sağlam ve doğru bir model üretmek için yararlı bir adımdır. ve optimize edilmiş bir model elde etmek için yararlı bir yardımcıdır.


9

Çok kutupluluk ile ilgili temel sorun, bağımsız değişkenlerin katsayılarını (beta) karıştırmasıdır. Bu yüzden değişkenler arasındaki ilişkileri incelerken, nedensellik kurarken vb. Ciddi bir sorundur.

Bununla birlikte, fenomeni çok fazla anlamakla ilgilenmiyorsanız, ancak yalnızca öngörmeye ve öngörmeye odaklanıyorsanız, çok kutupluluk sorundan daha az. Ya da en azından insanların böyle düşündüğü şey.

Teknik bir sorun ya da tanımlama sorunu olan, burada mükemmel çok kutupluluktan bahsetmiyorum . Teknik olarak, sadece tasarım matrisinin tekilliğe yol açtığı ve çözümün tanımlanmadığı anlamına gelir.


4
Mükemmel bir topluluklulukta bile, tahminler iyi tanımlanmıştır.
whuber

@whuber, OLS kullanıyorsanız, stat paketinin bir hata atması muhtemeldir, çünkü matrisi tersine çeviremez. Akıllı olanlar bağımsız değişkenlerden birini düşürebilir ve yine de devam edebilir.
Aksakal

2
Genelleştirilmiş ters kullanıyorsanız, o zaman bu tekillik bir sorun değildir.
Analist

1
Mantığınızı izlemiyorum Aksakal: Makine öğrenimi tekniklerinin istatistiksel yöntemlerden farklılık gösterdiğini mi düşünüyorsunuz? Keşfetmek ilginç bir fikir.
whuber

1
@ user, bağımsız değişken hemen hemen her zaman ilişkilendirilir ve genellikle tamamdır. Sadece mükemmel çok kutupluluk derecesi eksikliğine neden olur. Çok hücreli olma, çok güçlü bağıntıları ifade eder ve genel olarak arzu edilmez, ancak daha önce de yazdığım gibi, birçok durumda iyi huylu bir meseledir.
Aksakal

7

Bu makine öğreniminde yapılan düzenlileşme, regresyon katsayılarını dengeler, böylece en azından çoklu bağlayıcılığın etkisi etkilenir. Ama daha da önemlisi, eğer tahminde bulunacaksanız (hangi makine öğrenenleri sık sık), o zaman çok-kutupluluk "problem" ilk etapta bu kadar büyük bir problem değildi. Belli bir katsayıyı tahmin etmeniz gerektiğinde ve bilgiye sahip olmadığınız zaman sorun.

Ayrıca, " LASSO ne zaman ilişkili tahmincileri seçer " cevabım size yardımcı olabilir.


1

Makine öğreniminde çoklu bağlantı bağlantısının kontrol edilmesi gerektiğini düşünüyorum. İşte bu yüzden: Veri setimizde X ve Y ile iki tane yüksek oranda ilişkili özelliğiniz olduğunu varsayalım. Bu, tepki düzleminin güvenilir olmadığı anlamına gelir (verilerdeki küçük bir değişikliğin, tepki düzleminin oryantasyonu üzerinde ciddi etkileri olabilir). Bu, veri noktaları için model tahminlerinin çok uzak olduğu anlamına gelir.X ve Y'nin düşme eğiliminde olduğu hattan, güvenilir değildir. Modelinizi bu tür noktalar için tahminler için kullanırsanız, tahminler muhtemelen çok kötü olacaktır. Başka bir deyişle, iki yüksek korelasyonlu özelliğiniz olduğunda, bir model olarak, verinin çoğunlukla bir çizgide düştüğü bir düzlem öğreniyorsunuz. Bu nedenle, güvenilir olmayan modelleri ve hatalı tahminleri önlemek için verilerinizle yüksek oranda ilişkili özellikleri kaldırmak önemlidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.