Neden Doğrusal Regresyon?


13

İki rastgele değişkenler göz önüne alındığında ve biz onların "korelasyon katsayısı" hesaplayabilir ve bu iki rasgele değişken arasındaki en uygun çizgisini oluşturur. Sorum neden?ξηc

1) Mümkün olan en kötü şekilde bağımlı ve rasgele değişkenler vardır , yani ve buna rağmen . Eğer kişi sadece doğrusal regresyon boyunca düşünürse, o zaman buna tamamen kör olur.ξηξ=f(η)c=0

2) Neden özellikle doğrusal? Rastgele değişkenler arasında var olabilecek başka ilişkiler vardır. Neden onu diğerlerinden ayırıyor?


18
Bu, bazen çivilerle karşılaştığınızda neden bir tornavidaya sahip olduğunuzu sormak gibidir.
Sycorax, Reinstate Monica'ya

6
Ayrıca, orada sadece lineer regresyonu önemseyen insanlar olduğunu varsayıyorsunuz : "Eğer biri sadece lineer regresyon boyunca düşünüyorsa", "Neden onu diğerlerinden ayırıyor ". Bu benim için bir piper gibi görünüyor, elbette bir ve sadece bir araca veya perspektife bağlı kalmak saçma.
Matthew Drury

7
Doğrusal "spesifik", aslında daha genel olan temel fonksiyonların doğrusal kombinasyonları ile ilgilidir .
GeoMatt22

2
@MatthewDrury Strawman yok ve hiçbir şey varsaymıyorum, sadece yöntemdeki zayıf noktayı göstermek için patolojik-aşırı düşünme örneğini kullanarak bir soru soruyorum. Neden bunu varsaydığımı düşünüyorsun? Regresyon, istatistikçiler için çok büyük bir konudur. Bu konuda neyin bu kadar özel olduğunu anlamıyorum, çok fazla çalışılıyor.
Nicolas Bourbaki

8
Bu soruya çok yaklaşanlar için: Sanırım lineer regresyonu ilk öğrendiğinizde ve "varsayımlardan birine lineer bir etkidir" dendiğinde geri unuttunuz. Kendi kendinize "ama bir etki asla doğrusal değildir!" Diye düşündünüz . Büyük olasılıkla, çok fazla düşünmeden sonra , buna rağmen, lineer regresyonun hem anlaşılması hem de kullanılması için hala temel bir araç olduğuna ikna oldunuz. Şimdi bu duruşu tamamlamadan önce kendinizi arkaya sıfırlayın. Bence her istatistik öğrencisinin düşünerek çok fazla zaman geçirmesi harika bir soru.
Cliff AB

Yanıtlar:


10

Tüm ilişkilerin kendi içinde doğrusal olmadığını kabul ediyorum, ancak birçok ilişki doğrusal olarak yaklaşık olarak tahmin edilebilir. Taylor serileri veya Fourier serileri gibi matematikte pek çok vaka gördük. Buradaki kilit nokta, yorumda geomatt22'nin genel olarak doğrusal olmayan verileri dönüştürebildiğini ve temel fonksiyonlarla bir tür dönüşüm uygulayabildiğini ve ilişkisi. Üniversitelerin sadece 'çoklu doğrusal regresyon modellerine' (basit regresyon modelleri dahil) hitap etmesinin nedeni, aynı zamanda doğrusal olan daha ileri seviyedeki modellerin yapı taşı olmalarıdır.

Matematiksel olarak konuşursak, bir Hilbert uzayında belirli bir doğrusal yaklaşımın yoğun olduğunu kanıtlayabildiğiniz sürece, uzayda bir işlevi temsil etmek için yaklaşımı kullanabilirsiniz.


2
Kesinlikle. Kimse bundan bahsetmedi, ancak bu cevabın dediği gibi, genel olarak, ilişkiyi doğrusallaştırmak için değişkenlerinize her zaman bir dönüşüm uygulayabilirsiniz. Ayrıca: a) Doğrusal regresyonlar için küresel maksimumu bulmak kolaydır ve b) sinir ağları dahil olmak üzere diğer birçok modeli, doğrusal regresyonlara dayanan lojistik regresyonları biliyorsanız, anlamak daha kolaydır.
Ricardo Cruz

7

Bahsettiğiniz model, basit doğrusal regresyon, yani "en iyi uyum çizgisi" (burada modeli ve tahmin yöntemini karıştırıyorum), kuşkusuz çok basittir (adından da anlaşılacağı gibi). Neden çalışıyorsun? Bir çok sebep görebiliyorum. Aşağıda rastgele değişken kavramının en azından gayri resmi olarak tanıtıldığını varsayıyorum, çünkü sorunuzda bahsetmiştiniz.

  1. pedagojik: Tabii ki, sizin için sonlu ikinci derece momentlere sahip gerçek değerli rastgele değişkenlerin bir Hilbert alanı oluşturduğu açıktır. Belki de olasılık teorisini ilk incelediğinizde zaten belliydi. Ancak istatistikler sadece matematik öğrencilerine öğretilmiyor: fizikten iktisat, bilgisayar bilimi, sosyal bilime, vb. Kadar daha geniş bir halk var. Bu öğrenciler çalışmalarının başlarında istatistiklerle karşılaşabilirler. Doğrusal cebire maruz kalmış olabilirler veya olmayabilirler ve ilk durumda bile bir matematik dersinin daha soyut bakış açısından görmemiş olabilirler. Bu öğrenciler için rastgele bir değişkeni başka bir rastgele değişkenle yaklaştırma kavramı o kadar acil değildir. Basit doğrusal modelin temel özelliği bile, yani hatanın ve öngörücünün dik rastgele değişkenler olması, bazen şaşırtıcıdır. Rastgele değişkenler ("kötü" nesneler! Bir olasılık uzayından ölçülebilir bir alana kadar ölçülebilir fonksiyonlar) arasında bir "açı" tanımlayabilmeniz sizin için açık olabilir, ancak mutlaka bir birinci sınıf öğrencisi için açık olmayabilir. Bu nedenle, vektör uzaylarının çalışması iyi ol 'Öklid düzlemi ile başlarsa, istatistiksel modellerin çalışmasına en basit olanla başlamak mantıklı değil mi?
  2. prosedürel : basit doğrusal regresyon ile parametre tahmini kavramını ve böylece en basit durumda en küçük kareler, standart hatalar, vb. yöntemini tanıtabilirsiniz. Bunun önemsiz olduğunu düşünüyorsanız, istatistiklerini işlerinde / araştırmalarında kullanan, ancak istatistikçi olmayan birçok profesyonelin sık sık güven aralığı hakkında derinden kafa karıştırdığını unutmayın! Her neyse, en kolay vaka ele alındıktan sonra, çoklu doğrusal regresyona gidebilirsiniz. Bu bir kez ustalaşıldıktan sonra, tüm doğrusal modeller tahmin için kullanılabilir. Başka bir deyişle, (eğer normalleştirme gerekiyorsa OLS veya LARS tarafından) , türünün tüm modellerineξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ. Bu, @DaeyoungLim tarafından belirtildiği gibi, sonsuz bir temel işlev kümeniz varsa ve Hilbert uzayında yoğun bir vektör alt alanı oluşturuyorsa, Hilbert uzayındaki tüm işlevlere yaklaşık olarak yaklaşabilen gerçekten güçlü bir model sınıfıdır. .
  3. pratik : basit doğrusal regresyonun birçok başarılı uygulaması vardır. Okun'un ekonomi yasası , Hooke yasası , Ohm yasası ve fizikteki Charles yasası , kan sistolik basıncı ve tıptaki yaş arasındaki ilişki (bir adı varsa hiçbir fikrim yok!), Değişen derecelerde basit lineer regresyonun örnekleridir. doğruluk.

5

Diğer bir neden, regresyonun ANOVA gibi tekniklerin birleşik bir tedavisini vermesinin güzel yoludur . Bana göre, ANOVA'nın her zamanki 'temel' tedavisi oldukça belirsiz görünüyor, ancak regresyon bazlı bir tedavi kristal berraklığında. Bunun, regresyon modellerinin 'temel' tedavilerde zımni ve incelenmemiş bazı varsayımları açıkça ortaya koyma şekliyle ilgisi olduğundan şüpheleniyorum. Ayrıca, bu tür birleştirici bir bakış açısıyla sunulan kavramsal netliğe, istatistiksel yazılımda yöntemler uygulama zamanı geldiğinde benzer pratik faydalar eşlik eder.

Bu ilke yalnızca ANOVA için değil, aynı zamanda ikinci sorunuza hitap eden sınırlı kübik spline'lar gibi uzantılar için de geçerlidir.


3

Doğrusal Regresyon'un popülaritesi kısmen yorumlanabilirliğinden kaynaklanmaktadır - yani, teknik olmayan insanlar parametre katsayılarını biraz açıklama ile anlayabilirler. Bu, çıktı veya tahminlerin son kullanıcılarının matematik / istatistik hakkında derin bir anlayış sahibi olamayacağı iş durumlarında büyük bir değer katar.

Evet, bu teknikle ilgili varsayımlar ve sınırlamalar vardır (tüm yaklaşımlarda olduğu gibi) ve birçok durumda en iyi uyumu sağlamayabilir. Ancak Doğrusal Regresyon çok sağlamdır ve varsayımlar ihlal edildiğinde bile genellikle oldukça iyi performans gösterebilir.

Bu nedenlerden dolayı, kesinlikle çalışmaya değer.


-2

Bir şey doğrudan ilişkili olmayabilir.

İki ve bu ve ve arasında bir ilişki olduğundan şüpheleniyorsanız . İlişkilerini incelemek için ve arasında bir çizim yapabilirsiniz .xycov(x,y)=0xyyx

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.