Doğrusal regresyon geçersiz mi? [kapalı]


12

Şu anda doğrusal bir regresyon sınıfındayım, ancak öğrendiğim şeyin artık modern istatistikler veya makine öğrenimi ile ilgili olmadığı hissini sallayamıyorum. Bu günlerde çok sayıda ilginç veri kümesi sıklıkla doğrusal regresyonun gerçekçi olmayan varsayımlarının çoğunu ihlal ettiğinde neden basit veya çoklu doğrusal regresyon üzerinde çıkarım yapmak için bu kadar zaman harcanıyor? Bunun yerine, destek vektör makineleri veya Gauss işlemi kullanarak regresyon gibi daha esnek, modern araçlara neden çıkarım öğretmiyorsunuz? Bir alanda bir hiper düzlem bulmaktan daha karmaşık olsa da, bu, öğrencilere günümüzdeki sorunların üstesinden gelmek için daha iyi bir arka plan sağlamaz mı?


10
Tornavidalar çekiçleri eskimiş mi? Yoksa her biri farklı bir görev mi yapıyor?
Sycorax, Reinstate Monica'ya

6
Bıçak, testere, birkaç farklı tornavida, bir çift pense ve muhtemelen birkaç başka şey gibi işlev gören çok amaçlı bir aletim var, ancak bu araçlardan herhangi birine ihtiyacım olduğunda ulaşacağım son şey. Sadece bir tutam yararlıdır, asla "iş için en iyi araç" değildir.
Darren

7
Gerçek insanların karşılaştığı birçok durum, yüksek gürültülü çok küçük veri setlerini içerir; çoğu durumda daha karmaşık modeller mümkün değildir, zamanın en azından iyi bir kısmı düz bir doğrusal modelin en az tenable olmasıdır. Büyük veri kümeleri (ve ilişkili sorunları) devam eden toplam veri analizinin bir oranı olarak büyümeye devam ederken, çok küçük veri kümeleri ve güvendikleri nispeten basit analizler asla ortadan kalkmayacaktır. Buna ek olarak, daha karmaşık araçlar sadece tarihsel olarak değil kavramsal olarak doğrudan daha basit olanların üzerine inşa edilmiştir.
Glen_b

6
Doğrusal regresyonun sürekli pratik kullanımda olduğu birçok duruma ek olarak, daha kapsamlı bir sınıfsal katkı modeli sınıfını öğrenmenin temelini de belirtmek gerekir. Bu bakımdan, bu soru, analizin aritmetik eskimiş olup olmadığını sormak gibidir.
Jacob Socolar

1
@Aksakal Lütfen detaylandırın. Bayes optimizasyonunda kullanım ne olacak?
Mark L. Stone

Yanıtlar:


24

Doğrusal regresyon varsayımlarının gerçekçi olmadığı doğrudur. Ancak, bu tüm istatistiksel modeller için geçerlidir. "Tüm modeller yanlış, ancak bazıları faydalı."

Sanırım daha karmaşık bir model kullanabileceğiniz zaman lineer regresyon kullanmak için hiçbir neden yokmuş izlenimi altındasınız. Bu doğru değildir, çünkü genel olarak, daha karmaşık modeller aşırı donmaya karşı daha savunmasızdır ve daha fazla hesaplama kaynağı kullanırlar, örneğin, gömülü bir işlemci veya web sunucusunda istatistik yapmaya çalışıyorsanız önemlidir. Daha basit modellerin anlaşılması ve yorumlanması da daha kolaydır; Aksine, sinir ağları gibi karmaşık makine öğrenimi modelleri az ya da çok kara kutu olma eğilimindedir.

Bir gün doğrusal regresyon artık pratik olarak yararlı olmasa bile (öngörülebilir gelecekte son derece olası görünmüyor), yine de teorik olarak önemli olacaktır, çünkü daha karmaşık modeller bir temel olarak doğrusal regresyon üzerine inşa etme eğilimindedir. Örneğin, düzenli karışık etkiler lojistik regresyonunu anlamak için önce düz eski doğrusal regresyonu anlamanız gerekir.

Bu, daha karmaşık, daha yeni ve daha parlak modellerin yararlı veya önemli olmadığı anlamına gelmez. Birçoğu. Ancak, daha basit modeller daha yaygın olarak uygulanabilir ve bu nedenle daha önemlidir ve çeşitli modeller sunacaksanız, ilk önce açıkça sunmak mantıklıdır. Bu günlerde kendilerini "veri bilimcileri" veya başka bir şey olarak adlandıran, ancak bir güven aralığının gerçekte olduğu gibi temel şeyleri bile bilmeyen insanlar tarafından yapılan çok sayıda kötü veri analizi var. İstatistik yapma!


"Karmaşık bir model" ile ne demek istediğinizi açıklığa kavuşturabilir misiniz? OP aynı anlama mı geliyor?
Hatshepsut

1
@Hatshepsut Pratik olarak sadece doğrusal regresyon veya özel bir durumu olmayan her şey. OP, SVM'lere ve Gauss süreç modellerine örnek vermiştir. Karışık modeller, lojistik regresyon ve cezalandırılmış regresyondan bahsettim. Diğer bazı örnekler, karar ağaçları, sinir ağları, MARS, Bayes hiyerarşik modelleri ve yapısal eşitlik modelleridir. Bir modelin diğerinden daha karmaşık olup olmadığına veya model olarak tam olarak neyin sayıldığına nasıl karar verdiğimizi soruyorsanız, bunlar kendilerine Çapraz Onaylanmış sorulardır.
Kodiologist

"Aşırı uyum gösterme"; Örneğin, üstel değerlerin ağırlıklı toplamı olan bir şeye uymak için dokuzuncu dereceden bir polinom kullanmak gibi. Bu arsa çok iyi uyuyor, arızanın gürültü seviyesinin hemen üzerinde alet hataları üretti. Hala bu polinomu kullanmanın daha iyi çalışıp çalışmadığını merak ediyorum.
Joshua

7

Genel olarak doğrusal regresyon eski değildir . Hala LASSO ile ilgili yöntemler etrafında araştırmalar üzerinde çalışan insanlar var ve örneğin çoklu testlerle nasıl ilişkili olduklarını - Emmanuel Candes ve Malgorzata Bogdan'ı kullanabilirsiniz.

Özellikle OLS algoritmasını soruyorsanız, bunu neden öğrettiklerinin cevabı, o kadar basittir ki, kapalı form çözümüne sahiptir. Ayrıca sırt regresyonundan veya kement / elastik ağlı versiyondan daha basittir. Basit doğrusal regresyon çözümüne dair sezgilerinizi / kanıtlarınızı oluşturabilir ve daha sonra modeli ek kısıtlamalar ile zenginleştirebilirsiniz.


3

Regresyonun eski olduğunu düşünmüyorum, şu anda veri bilimcilerinin karşılaştığı bazı problemler için önemsiz olarak düşünülebilir, ancak yine de istatistiksel analizin ABC'si. En basit modelin nasıl çalıştığını bilmiyorsanız SVM'nin doğru çalışıp çalışmadığını nasıl anlamanız gerekir? Böyle basit bir araç kullanmak, ÇOK karmaşık modellere geçmeden önce verilere nasıl bakacağınızı öğretir ve daha fazla analizde hangi araçların kullanılabileceğini ve hangilerinin kullanılamayacağını derinlemesine anlar. Bir profesör ve meslektaşımla bu konuşmayı yaptıktan sonra, öğrencilerine karmaşık modelleri uygulamakta harika olduklarını, ancak kaldıraçın ne olduğunu anlayamadıklarını veya verilerde neyin yanlış olduğunu anlamak için basit bir qq-komplo okuyamadıklarını söyledi. Genellikle en basit ve okunabilir modelde güzelliği temsil eder.


3

Kısa cevap hayır . Örneğin, MNIST verileriyle doğrusal modeli denerseniz, doğruluğun ~% 90'ını almaya devam edersiniz!

Uzun bir cevap "alana bağlı" olacaktır, ancak doğrusal model yaygın olarak kullanılmaktadır.

  • Bazı alanlarda, örneğin, tıbbi çalışma, bir veri noktası elde etmek çok pahalıdır. Ve analiz çalışması hala yıllar öncesine benzer: doğrusal regresyon hala çok önemli bir rol oynamaktadır.

  • Morden makine öğreniminde, örneğin, metin sınıflandırmasında, doğrusal model hala çok daha önemli olsa da, diğer meraklı modeller de vardır. Bunun nedeni, doğrusal modelin çok "kararlı" olması, verilere fazla uymaktan daha azına sahip olmasıdır.

Son olarak, doğrusal model gerçekten diğer modellerin çoğu için yapı taşlarıdır. İyi öğrenmek gelecekte size fayda sağlayacaktır.


2

Pratik anlamda, doğrusal regresyon, işiniz için daha karmaşık bir model kullanıyor olsanız bile yararlıdır. Anahtar nokta, doğrusal regresyonun anlaşılması ve dolayısıyla daha karmaşık modellerde neler olduğunu kavramsal olarak anlamak için kullanımı kolay olmasıdır.

İstatistiksel bir analist olarak gerçek işimden pratik bir uygulama örneği sunabilirim. Kendinizi vahşi, denetimsiz, geniş bir veri kümesi ile bulursanız ve patronunuz sizden bazı analizler yapmanızı ister, nereden başlıyorsunuz? Veri kümesine aşina değilseniz ve çeşitli özelliklerin birbirleriyle nasıl ilişkili olacağı konusunda iyi bir fikriniz yoksa, önerdikleriniz gibi karmaşık bir model araştırmaya başlamak için kötü bir yerdir.

Bunun yerine, başlamak için en iyi yer basit eski doğrusal regresyon. Bir regresyon analizi yapın, katsayılara bakın ve kalıntıları grafiğe dökün. Verilerde neler olup bittiğini görmeye başladığınızda, hangi gelişmiş yöntemleri uygulamaya çalışacağınız konusunda bazı kararlar verebilirsiniz.

Verilerinizi sklearn.svm (Python'a iseniz) gibi bazı gelişmiş model kara kutulara taktıysanız, sonuçlarınızın anlamlı olacağına çok az güveneceğinizi iddia ediyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.