Basit doğrusal regresyon, çizimler ve doğrusal cebir kullanılmadan yapılabilir mi?


47

Tamamen körüm ve bir programlama geçmişinden geliyorum.

Yapmaya çalıştığım şey makine öğrenmeyi öğrenmek ve bunu yapmak için önce doğrusal regresyon hakkında bilgi edinmem gerekiyor. İnternette bu konuda bulabildiğim tüm açıklamalar ilk önce verileri gösteriyor. Grafiklere ve parsellere bağlı olmayan lineer regresyonun pratik bir açıklamasını arıyorum.

İşte basit doğrusal regresyonun amacını anladım:

Basit doğrusal regresyon, bir kere verdiğinizde X, size en yakın tahminde bulunacak formülü bulmaya çalışıyor Y.

Bu yüzden anladığım kadarıyla yapılması gereken, öngörücüyü (örneğin metre kare cinsinden bir evin alanı) bağımsız değişkenle (fiyat) karşılaştırmaktır. Benim örneğimde, muhtemelen bir evin alanını hesaplamak için en iyi formülü elde etmenin görsel olmayan bir yolunu oluşturabilirsiniz. Örneğin, belki bir mahallede 1000 evin alanı ve fiyatını alıp, fiyatı bölgeye ayırırsınız? Sonuç (en azından yaşadığım İran’da) çok ihmal edilebilir bir varyansa sahip olacaktı. Yani muhtemelen böyle bir şey alırsınız:

Price = 2333 Rials * Area of the house

Elbette, veri kümenizdeki tüm 1000 evden geçmeniz, yukarıdaki alanı doldurmanız, tahminleri gerçek fiyatla karşılaştırmanız, sonuçları karelemeniz gerekir (varyansların birbirini iptal etmesini önlemeyi sanırım). ve sonra bir sayı alın, ardından 2333hataları azaltmak için uğraşmaya devam edin.

Tabii ki, bu muhtemelen hataları hesaplamak ve en iyi seçeneğe ulaşmak için yaş alacağınız kaba güç seçeneğidir, ama ne dediğimi anladınız mı? Bir grafik, çizgi ya da arsa üzerindeki noktalar ya da mevcut verilerinize bir çizgiyi sığdırmanın en iyi yolu hakkında hiçbir şey söylemedim.

Öyleyse, bunun için neden bir dağılım grafiği ve lineer cebire ihtiyacınız olsun ki? Görsel olmayan bir yol yok mu?

İlk olarak, varsayımlarımda haklı mıyım? Olmazsa düzeltilmeyi çok isterim. Olsa da olmasam da, doğrusal cebir ile oynamadan formülü bulmak için bir yol var mı?

Açıklama ile bir örnek alabilirsem, bunu anlamayı test etmek için metinle birlikte yapabilmem için gerçekten minnettar olurum.


2
Peki vizyonu devralabilecek uzaysal hayal gücünüz var mı? Eğer evet ise, saçılım grafiğinin bir şekilde hayal edilebileceğini düşünüyorum. Ben, regresyonun özünün önermeci düşünme (sadece sözel gibi) ile yakalanabileceğinden şüpheliyim.
ttnphns

3
Matematik geçmişin nedir? Basit Doğrusal Regresyon adlı Wikipedia sayfası çoğunlukla metindir ve ilk paragrafta oldukça açık bir açıklama olduğunu düşündüğüm bir şeye sahiptir. Bu makale, aradığınız ayrıntı düzeyiyle nasıl karşılaştırılır?
shadowtalker

3
Bunu düşünmeye devam edeceğim, çıkıp çıkamayacağımı göreyim, ama yarasadan hemen çıkmadan, gerilemeyi çözümü olmayan bir denklem çözme olarak düşünün. Tüm veri noktalarınız, regresörünüz (evin alanı) tarafından yanlış bir şekilde tahmin edilecektir. Hatalarınızı mümkün olduğu kadar tolere edebileceğiniz bir denklem arıyorsunuz.
Antoni Parellada

8
Mükemmel bir soru, konseptlerimizi engelli insanlara açıklama hakkında daha fazla düşünmemiz gerekiyor
Aksakal

4
Bir arsa kullanmanıza gerek yok. Gerçekten, çoklu doğrusal regresyon için (birçok kestiriciyle regresyon), boyutlu bir alanı çizemezsiniz. Bununla birlikte, doğrusal cebir hala çalışır. Doğrusal regresyonda yer alan tüm doğrusal cebir formülleri basit skaler sayılardaki işlemlere indirgenebilir. Akıl sağlığınıza değer veriyorsanız, sadece bu şekilde elle yapmak istemezsiniz. p+1
söylemektedir

Yanıtlar:


17

Evet, onun üzerine. Hatayı en aza indiren doğru olanı bulana kadar 2333 ile oynamaya devam etmelisiniz. Ama "doğru" olanı bulmanın matematiksel bir yolu var. Bu numaraya diyelim . , kare hataların (SSE) toplamı fonksiyonudur, çünkü her bir seçimi için her bir tahminin tutarını hesaplayabilir, toplayabilirsiniz.E β ββEββ

Ne kare hataların toplamını en aza indirir? Bu sadece bir hesap problemi. Türevi al tarafından ve sıfıra eşit. Bu için bir denklem verir . İkinci türevin minimal olduğunu bilmenin olumlu olup olmadığını kontrol edin. Böylece için hatayı en aza indiren bir denklem elde edersiniz .E β β ββEβββ

Bu şekilde , bir özet olarak alacaksınız . Tahminin lineer cebir formunu yazarsanız, bunun aynı şey olduğunu göreceksiniz.β

Düzenleme: İşte bu türetme ile bazı notlar için bir link. Matematik biraz dağınık olur, fakat özünde bu sadece bir matematik problemi.


AMAN TANRIM. En sonunda! Bunu hesaplamanın doğrusal olmayan bir cebir yolu. Cevabınızda konuştuğunuz kavramlar kafamın üstünde, ama kesinlikle bu düşünceyi daha iyi anlamak için türevlere bakacağım.
Parham Doustdar

1
Bunu oldukça basit bir düzeyde açıklayan bazı notlara bağladım. Bence herhangi bir cevabın hesabına ihtiyacı olacak çünkü " minimumunu bul" gibi problemleri çözme yönteminiz bir türev alıp sıfıra ayarlamak. Sezgisel olarak, bu sadece bir tepenin minimumunun (veya maksimumunun) tepenin düz olduğu yerde olacağını (çünkü eğimin tepenin kenarı boyunca en yüksek olması!) Olduğunu söylüyor. Türev = eğim. Bu nedenle, değişen alanlarda , küçük bir değişikliğe neden olur ; minimumdasınız (veya maksimumdur. Maksimum olmadığından emin olmanız gerekir!). β EE(β)βE
Chris Rackauckas

4
Bu fikir daha sonra sizi makine öğrenmesine getirir. Makine öğrenmesinde temel yöntemlerden biri degrade terbiyelidir. Bu temelde "eğimi takip et" anlamına gelir. Topun en dik olduğu yöne doğru yuvarlanmasına izin vermeye devam ederseniz, minimum bir vuruş yaparsınız. Yani gradyan terbiyeli yöntemi tam olarak bunu yapmaktır: değişiminin hangi yolunun en çok azalmasına neden olduğunu bulmak ve bu şekilde gitmek! β
Chris Rackauckas

2
En azından kareler regresyonu için iyi bir gradyan yapmanız gerekmez, çünkü cevap olan bir denklemi çözebilirsiniz, ancak bu, makine öğrenmenin ne olduğunu anlamak için iyi bir yol sağlar. Bir hata ölçme yöntemi seçmek ve ardından hata denklemini en aza indirmenin bir yolunu bulmakla kaynaşıyor. Sonuç, verilerden öğrenilen "en iyi" tahmin denklemidir. Umarım bu makine öğrenmeye giden yolda size yardımcı olur!
Chris Rackauckas

10

Anlayışınız yakın, ancak biraz genişlemesi gerekiyor: Basit doğrusal regresyon, bir kez verdiğiniz formülü bulmaya çalışıyor ve size ve arasındaki doğrusal bir ilişkiye dayanarakX en yakın tahminde bulunacaksınız .Y X Y

Konut fiyatlarına ilişkin örneğiniz, biraz uzatıldığında, neden dağınık arsalar ve benzerleriyle sonuçlandığınızı gösterir. Birincisi, fiyatı bölgeye göre bölmek, benim kasabamdaki arsa fiyatları gibi, inşaat düzenlemelerinin basitçe üzerinde bir ev inşa edebileceğiniz bir arsa parseline sahip olmanız anlamına geldiği diğer durumlarda çalışmaz. Bu yüzden arazi fiyatları sadece alanlarla orantılı değildir. Parsel alanının her bir artışı , parsel değerinde aynı artışı sağlayabilir , ancak 0 alanın (efsanevi) bir parseline kadar inerseniz, bir parsel arazisine sahip olmanın değerini temsil eden ilişkili bir görünür fiyat olacaktır. bina için onaylandı.

Bu hala alan ve değer arasında doğrusal bir ilişkidir, ancak ilişkide sadece bir parsel sahibi olmanın değerini temsil eden bir kesişme vardır . Ne bu yine de bir kılan doğrusal ilişki olduğunu değişim birimi başına değerindeki değişim alanında, eğim veya regresyon katsayısı ne olursa olsun alan veya değer büyüklüklerinin her zaman aynıdır.

Öyleyse, parsel alanlarını değerle ilişkilendiren hem kesişimi hem de eğimi zaten bildiğinizi ve bu doğrusal ilişkinin değerlerini son satışların temsil ettiği gerçek değerlerle karşılaştırdığınızı söyleyin. Tahmini ve gerçek değerlerin, eğer çakışırlarsa, nadiren göreceksiniz. Bu tutarsızlıklar, modelinizdeki hataları temsil eder ve tahmin edilen ilişki etrafında bir değer dağılmasıyla sonuçlanır. Alan ve değer arasındaki öngörülen düz çizgi ilişkinizin etrafına dağılmış bir nokta dağılım grafiği elde edersiniz.

Çoğu pratik örnekte, kesmeyi ve eğimi zaten bilmiyorsunuz, bu yüzden bunları verilerden tahmin etmeye çalışmalısınız. Doğrusal regresyonun yapmaya çalıştığı şey budur.

Verileri en muhtemel kılan modelinizdeki belirli parametre değerlerini arayan maksimum olasılık tahmini perspektifinden doğrusal regresyon ve ilgili modelleme hakkında düşünmekten daha iyi olabilirsiniz . Sorunuzda önerdiğiniz "kaba kuvvet" yaklaşımına benzer, ancak neyi optimize etmeye çalıştığınızla ilgili biraz farklı bir ölçüyle. Modern bilgi işlem yöntemleri ve arama modelinin akıllı tasarımı ile oldukça hızlı bir şekilde yapılabilir.

Maksimum olabilirlik tahmini, grafiksel grafik gerektirmeyen şekillerde kavramsallaştırılabilir ve zaten düşündüğünüz gibi görünebilir. Doğrusal regresyon durumunda, hem standart en küçük kareler regresyonu hem de maksimum olabilirlik, aynı kesişme ve eğim tahminlerini sağlar.

Maksimum olasılık gibi düşünmek, kesinlikle doğrusal ilişkilerin bulunmadığı diğer durumlara daha iyi yayılması konusunda ek bir avantaja sahiptir. İyi bir örnek, yordayıcı değişkenlerine dayanarak meydana gelen bir olayın olasılığını tahmin etmeye çalıştığınız lojistik regresyondur . Bu, maksimum olasılıkla gerçekleştirilebilir, ancak standart doğrusal regresyonun aksine, lojistik regresyonda kesişme ve eğimleri üreten basit bir denklem yoktur.


1
'' Doğrusal Regresyon '' içindeki '' Doğrusal '' '' parametrelerinde Doğrusal '' anlamına geldiğini düşündüm, bu yüzden bağımsız bir değişken olarak olabilir , ancak her bir bağımsız değişkenin katsayısı doğrusal olarak görünmelidir. ? x2

@fcop haklısın. Değerler ve alanlar arasında orantılılık gösteren OP'nin sunduğu örnekten başlamıştım. Güçler veya kütükler gibi dönüşümler kullanıldığında, orijinal öngörücü değişkenlerin dönüştürülmüş değerlerini regresyondaki gerçek bağımsız değişkenler olarak düşünme eğilimindeyim . Bunun, ima edilen hata modellerinde farklılıklar olsa da, uygulamada terminolojide çoğunlukla bir fark olduğunu düşünüyorum.
EdM

Her neyse,

6

Her şeyden önce, iltifatlarım. Herkesin istatistiklerle mücadele etmesi zordur (Ben bir doktorum, bu yüzden benim için ne kadar zor olduğunu tahmin edebilirsiniz) ...

Doğrusal regresyon için görsel bir açıklama değil , çok yakın bir şey önerebilirim : doğrusal regresyona dokunsal bir açıklama .

Kapıdan bir odaya girdiğinizi düşünün. Oda az çok kare şeklindedir ve kapı sol alt köşededir. Beklediğiniz kapısı, sağ üst köşede, daha fazla veya daha az olacak olan bir sonraki odaya geçmek istersiniz. Bir sonraki kapının tam olarak nerede olduğunu (hiçbir zaman!) Tam olarak söyleyemeyeceğinizi, ancak odada dağılmış bazı insanlar olduğunu ve hangilerinin gideceğini söyleyebileceklerini hayal edin. İkisini de göremezler, ancak size onlara neyin yakın olduğunu söyleyebilirler. Bu insanlar tarafından yönlendirilen bir sonraki kapıya ulaşmak için izleyeceğiniz son yol, bu insanlar arasındaki mesafeyi en aza indiren ve sizi doğru yola (yakın değilse) kapıya doğru götüren bir regresyon çizgisine benzer.


1
(+1) Örneğinizi çok beğeniyorum ve tesadüf eseri bu problem için benzer bir örnek kullanmamız komik!
Tim

"Oda az çok kare şeklindedir" - insanları kör etmek için kare nedir? Bu cümle ile başlayacağımız yere bizi geri getirdin.
Aksakal

4
Katılmıyorum Bir yönde 10 fit yürümelerine izin verin, sonra 90 ° dönmelerini sağlayın (bir kol açıklığı gibi) ve tekrar 10 fit yürümelerine izin verin. Düzgün göremiyorsanız bu kare.
Joe_74

@ GiuseppeBiondi-Zoccai, odadaki sıcaklığa bir basınç modeli inşa edersem, neden kare, çizgi ve diğer uzamsal kavramları getirmem gerekiyor? Kör değilseniz, kesinlikle uygundur, ama kör bir kişi için bu mekânsal analojiler eldeki problem için masaya hiçbir şey getirmiyor, sadece sergilemeyi zorlaştırıyor
Aksakal

2
Yine, kibarca aynı fikirde değilim ... benim varsayımım her zaman kör insanların özellikle dokunsal mekansal beceriler geliştirdikleri olmuştur. Her neyse, işe yarayan herhangi bir örnek ve ne kadar neşeli olursa.
Joe_74

3

Sorunuza yardımcı olabilecek güzel örnek Andrew Gelman ve David K. Park (2012) tarafından sağlandı. bölgesi olduğu için evinin fiyatını tahmin etme örneğinize bakalım . Bunun için basit doğrusal regresyon modeli kullanıyoruzXYX

Y=β0+β1X+ε

Basit olması için, , neden önemli olduğunu öğrenmek için bu konuyu kontrol edebilirsiniz . Bu veriler bir dağılım grafiğinde görselleştirilebilir. Saçılma grafiği nedir? İki boyutlu bir alan hayal edin (bir oda olabilir), veri noktaları her iki değişkenin değerlerinin ekseni ve ekseni konumlarını işaret ettiği yerin etrafına "dağılır" . Zaten bildiğiniz şey, bir şekilde doğrusal regresyon modeline çevrilmesidir. y xβ0yx

Netleştirmek için Gelman ve Park'ın yaptığı gibi bu örneği daha da basitleştirelim. Önerdikleri basitleştirme, bölünmesidir.β 1Xdeğişken, yani evin alanı üç gruba ayrılır: "küçük", "orta" ve "büyük" evler (bu kararın nasıl en iyi şekilde yapılacağını açıklarlar, ancak bu daha az önemlidir). Sonra, "küçük" evin ortalama boyutunu ve "büyük" evin ortalama boyutunu hesaplayın. "Küçük" evin ve "büyük" evin ortalama fiyatını da hesaplayın. Şimdi, verilerinizi iki noktaya düşürün - uzayda dağılmış küçük ve büyük evler için veri noktası bulutlarının merkezleri ve "orta" evler hakkındaki tüm veri noktalarını kaldırın. İki boyutlu uzayda iki nokta ile kalırsınız. Regresyon çizgisi noktaları birbirine bağlayan çizgidir - bir noktadan diğerine bir yön olarak düşünebilirsiniz. β1

Aynı şey, alanın etrafına dağılmış daha fazla noktamız olduğunda da olur: regresyon çizgisi, her noktaya kare mesafesini en aza indirerek yolunu bulur. Böylece çizgi tam olarak uzayda dağılmış nokta bulutunun ortasından geçiyor. İki noktayı bağlamak yerine, sınırsız sayıda bu merkezi noktayı bağlamak olarak düşünebilirsiniz.


Gelman, A., & Park, DK (2012). Bir tahminciyi üst çeyrek veya üçüncü ve alt çeyrek veya üçüncü olarak bölme. Amerikan İstatistiği, 62 (4), 1-8.


3

Kısa cevap, evet. Hangi çizgi, bütünün veya bir uçağın ya da ciritin sadece yüzeyini oluşturan tüm noktaların ortasından daha iyi gider? Çiz; kafanın içinde veya resmin üstünde. Her bir noktanın (ilgilendiğiniz, çizdiğiniz veya çizmeyeceğiniz), o çizgiden en az (noktalar arasında) sapmaya katkıda bulunacağı yalnız çizgiyi arıyorsunuz. Gözle, dolaylı olarak sağduyuyla yaparsanız, matematiksel olarak hesaplanmış bir sonucu yaklaşık olarak (çok iyi) tahmin edersiniz. Bunun için göze zarar veren ve sağduyulu olmayan formüller vardır. Mühendislik ve bilimdeki benzer biçimsel problemlerde, saçılmalar hala gözle ön değerlendirme yapmaya davet ediyorlar, ancak bu arenalarda bir çizginin çizgi olma olasılığı olan bir "test" olasılığı ortaya çıkması gerekiyor. Oradan yokuş aşağı gidiyor. Ancak, görünüşe göre (a) oldukça büyük bir ahır ve (b) içine dağılmış hayvancılığın boyutlarını ve sınırlarını ölçmek için (aslında) bir makineyi öğretmeye çalışıyorsunuz. Makinenize taşınmazın ve bina sakinlerinin resmine (grafiksel, cebirsel) ait bir rakamı verirseniz, ne yapmayı istediğinizi (bir satırda düzgün bir şekilde bölüştüren, hesaplanan alt çizgiyi bir satıra bölerek) çözebilmelidir. İyi bir istatistik ders kitabı (öğretmenlerden veya profesörlerden birden fazla ad vermelerini isteyin), her şeyden önce doğrusal regresyonun bütününü ve en basit durumlarda (basit olmayan vakalara kadar) nasıl yapıldığını açıklamalıdır. Daha sonra birkaç çubuk kraker alırsınız. Makinenize taşınmazın ve bina sakinlerinin resmine (grafiksel, cebirsel) ait bir rakamı verirseniz, ne yapmayı istediğinizi (bir satırda düzgün bir şekilde bölüştüren, hesaplanan alt çizgiyi bir satıra bölerek) çözebilmelidir. İyi bir istatistik ders kitabı (öğretmenlerden veya profesörlerden birden fazla ad vermelerini isteyin), her şeyden önce doğrusal regresyonun bütününü ve en basit durumlarda (basit olmayan vakalara kadar) nasıl yapıldığını açıklamalıdır. Daha sonra birkaç çubuk kraker alırsınız. Makinenize taşınmazın ve bina sakinlerinin resmine (grafiksel, cebirsel) ait bir rakamı verirseniz, ne yapmayı istediğinizi (bir satırda düzgün bir şekilde bölüştüren, hesaplanan alt çizgiyi bir satıra bölerek) çözebilmelidir. İyi bir istatistik ders kitabı (öğretmenlerden veya profesörlerden birden fazla ad vermelerini isteyin), her şeyden önce doğrusal regresyonun bütününü ve en basit durumlarda (basit olmayan vakalara kadar) nasıl yapıldığını açıklamalıdır. Daha sonra birkaç çubuk kraker alırsınız. İyi bir istatistik ders kitabı (öğretmenlerden veya profesörlerden birden fazla ad vermelerini isteyin), her şeyden önce doğrusal regresyonun bütününü ve en basit durumlarda (basit olmayan vakalara kadar) nasıl yapıldığını açıklamalıdır. Daha sonra birkaç çubuk kraker alırsınız. İyi bir istatistik ders kitabı (öğretmenlerden veya profesörlerden birden fazla ad vermelerini isteyin), her şeyden önce doğrusal regresyonun bütününü ve en basit durumlarda (basit olmayan vakalara kadar) nasıl yapıldığını açıklamalıdır. Daha sonra birkaç çubuk kraker alırsınız.


Re: Silverfish'in yazdıklarımdaki yorumu (bu yoruma yorum eklemek için basit bir yol yok gibi görünüyor), evet, OP kör, makine öğrenmeyi öğreniyor ve çizimler veya grafikler olmadan pratiklik talep ediyor, ancak “görselleştirmeyi” “vizyon” dan ayırt edebiliyor, kafasında görselleştirebiliyor ve doğru resimler yapabiliyor ve etrafındaki dünyadaki nesnelerde (başkalarının yanı sıra evlerde) her türlü fiziksel anlayış hakkında temel bir fikri var ” "hem matematiksel olarak hem de kafasında aksi halde çizin ve muhtemelen kağıda 2D ve 3D'nin iyi bir şekilde düşünülebilir. Günümüzde çok çeşitli kitaplar ve diğer metinler fiziksel Braille'de ve kendi bilgisayarındaki elektronik seste (forumlar, sözlükler vb. Gibi) mevcuttur. ve kör için birçok okul müfredatı oldukça tamamladı. Uçak veya cirit yerine, kanepe veya baston mutlaka daha uygun olmaz ve istatistik metinleri büyük olasılıkla mevcuttur. Makinelerin regresyonu çizmeyi ve grafik çizmeyi veya hesaplamayı nasıl öğrenebileceği konusunda daha az endişe duyuyor, daha sonra makinelerin regresyonu kavramak için (bir makinenin gösterip görüntülemeyeceği, ona tepki gösterebileceği, takip edebileceği) ondan kaçının ya da her neyse). Temel itme (görüşlü öğrencilere olduğu kadar kör olarak da) hala görsel olmayanların nasıl görselleştirilebileceğini (çizilen çizgi örneği yerine doğrusallık kavramı gibi), Öklid ve Pisagor'dan önce nasıl görselleştirileceği ve nasıl görselleştirileceğidir. özel bir tür doğrusallığın temel amacı (temel noktası en az sapmaya en uygun olan regresyon, beri matematik ve istatistik). Bir lineprinter'ın Fortran regresyon çıktısı, zihinsel olarak özümsenene kadar neredeyse "görseldir", ancak temel gerileme noktası bile hayalidir (bir amaç için yapılana kadar orada olmayan bir çizgi).


2
Belki de bu cevabı yanlış anlıyorum, ama "kafanıza veya resme çizin" sorusunun amacını biraz özlüyor gibi görünüyor: orijinal soru tamamen kör olan ve bu nedenle olmayan bir kişi tarafından ortaya atılmış Regresyona yaklaşmanın görsel yolu.
Silverfish

@Silverfish Yanıtı (yorum yapmak için çok uzun) yukarıdaki

Teşekkürler. Olumsuz oylamanın biraz sert olduğunu düşündüm (ben değildim) ama bu cevabın içindeki bazı dil seçimleri talihsizdi (örneğin, "gözle" bir şeyler yapmanın birkaç referansı var). Yine de neden görsel algı ile neyin “aklın gözüyle” görselleştirildiğini ayırt etmek istediğinizi anlayabiliyorum.
Silverfish

2
Aklımdaki şeyleri görselleştirebiliyorum. Sadece aynı görselleştirme yollarını kullanmıyorum. Kullanmamak drawya da kullanmamak meselesi değil visualize. Konsepti, görselleştirmeyi türetmek için kullanmak yerine, başka bir yoldan değil. Bunun matematikteki birçok yerde olduğunu buldum. Zor bir konuyu açıklamak için, hesaplamayı öğrencinin gerçek hayattan öğreneceği kavramlarla ilişkilendirmek yerine, genellikle şekiller ve görüntüler kullanılır.
Parham Doustdar

3

Grafiklerin evrensel olarak basit bir gerileme sağlamak için kullanılmasının nedeni - tek bir tahmincinin öngördüğü bir cevap - anlamalarına yardımcı olmalarıdır.

Ancak, olup bitenleri anlamada yardımcı olabilecek bir tat verebileceğime inanıyorum. Bu konuda çoğunlukla verdikleri anlayışın bir kısmını aktarmaya çalışacağım, bu da tipik olarak regresyon hakkında okurken karşılaşacağınız diğer bazı hususlara yardımcı olabilir. Dolayısıyla bu cevap, yazınızın belirli bir yönü ile ilgilenecektir.

Düz bir ofis masası, biri tam kol boyu (belki 1.8 metre), belki de yarısı kadar geniş bir dikdörtgen masadan önce oturduğunuzu hayal edin.

Masanın önüne, uzun bir tarafın ortasında, normal pozisyonda oturuyorsunuz. Bu masaya, üst yüzeye çok sayıda çivi (oldukça yumuşak başlı) dövülerek, her biri küçük bir şekilde yukarı çukur (nerede olduklarını hissetmek için yeterli ve onlara bir ip bağlamak veya bir lastik bant bağlamak için yeterli) ).

Bu çiviler masanın kenarından farklı mesafelerdedir, öyle ki bir uca doğru (sol ucu söyler) tipik olarak masanın kenarına daha yakın olurlar ve sonra diğer uca doğru hareket ederken Kenarınızdan uzakta olma eğilimindedir.

Dahası, çivilerin kenarınızdan ortalama olarak ne kadar uzakta olduklarını, herhangi bir kenarda konumlandırabileceklerini hissetmenin faydalı olacağını hayal edin.

Masanızın kenarı boyunca bir yer seçin ve elinizi oraya koyun, sonra doğrudan masanın üzerinden öne doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru ilerleyin, elinizi yavaşça doğrudan kendinize doğru geriye, sonra tekrar uzağa doğru sürükleyin, elinizi tırnak başlarının üzerinde ileri ve geri hareket ettirin. Bu tırnaklardan birkaç düzine çarpma ile karşılaşıyorsunuz - elinizin dar genişliği içinde olanlar (doğrudan kenarınızdan uzaklaşırken, masanın sol ucundan sabit bir mesafede), yaklaşık 10 santimetre genişliğinde bir bölüm veya şerit .

Buradaki fikir, o küçük bölümde masanın kenarından bir çiviye ortalama bir mesafe bulmaktır. Sezgisel olarak, çarptığımız çarpmaların tam ortasında, ancak masanın genişliğindeki geniş bölümündeki her çiviye olan mesafeyi ölçersek, bu ortalamaları kolayca hesaplayabiliriz.

Örneğin , başı masanın kenarı boyunca kayan ve şaftı masanın diğer tarafına doğru koşan, ancak masanın hemen yukarısına doğru kayan bir T-karesini kullanabiliriz, böylece sola kayarken çivilere vurmazız veya sağ - belirli bir çiviyi geçtikçe T-karesinin mili boyunca mesafesini alabiliriz.

Bu yüzden, kenarımızdaki yerlerin ilerleyişinde, elimizdeki el şeridindeki tüm çivileri kendimizden uzağa doğru uzanan ve ortalama mesafelerini uzatan bu çivileri bulma çalışmasını tekrarlıyoruz. Belki masayı kenarımız boyunca elle genişlikte şeritler halinde bölüyoruz (bu yüzden her çiviye tam olarak bir şeritte rastlanıyor).

Şimdi, ilk sol kenarda ve son sağ kenarda 21 tane şerit olduğunu hayal edin. Şeritler arasında ilerlerken araçlar masa kenarımızdan daha da uzaklaşıyor.

Bu araçlar, x (kenarımız boyunca sol uçtan uzaklık), yani E (y | x) verilen y (uzak mesafemiz) beklentisinin basit bir parametrik olmayan regresyon tahmincisidir. Spesifik olarak, bu regressogram olarak da adlandırılan, binetrikli parametrik olmayan bir regresyon tahmincisidir.

Eğer bu şerit düzenli olarak artmışsa - yani, ortalama olarak şerit boyunca hareket ettiğimiz şerit başına aynı miktarda artmaktadır - o zaman beklenen y değerinin bir lineer olduğunu varsayarak regresyon fonksiyonumuzu daha iyi tahmin edebiliriz. x - yani, verilen x değerinin sabit bir artı x katsayısı olduğu anlamına gelir. Burada sabit, x'in sıfır olduğu zaman çivilerin nerede olma eğiliminde olduğunu gösterir (genellikle bunu aşırı sol kenara yerleştirebiliriz, ama olması gerekmiyor) ve x'in özel çarpımı ortalamada ortalamada ne kadar hızlı olduğu anlamına gelir. sağa doğru bir santimetre (örneğin) hareket ettikçe değişir.

Ama böyle bir doğrusal işlev nasıl bulunur?

Her bir çivi başının üzerine bir lastik bant bağladığımızı ve her birini masanın hemen üstüne, çivilerin üstüne, uzun bir çubuğa tutturduğumuzu düşünün. için.

Bantları, sadece bize doğru ve uzağa doğru uzayacak şekilde (sol veya sağ değil) bağlarlar - kendilerine bırakılırlar, gerilme yönlerini çubukla dik açıda yapmak için kendileri çekerler, ama burada bunu önlüyoruz, böylece gerilme yönleri sadece masanın kenarımıza doğru veya uzağında kalır. Şimdi, çubuğun, her bir çiviye doğru çekerken, daha uzak çivilere (daha fazla gerilmiş lastik bantlara sahip), çubuğa yakın çivilere göre daha sert şekilde çekmesine izin verdik.

Daha sonra, çubuğa çeken tüm bantların birleşik sonucu, gerilmiş lastik bantların kare uzunluklarının toplamını en aza indirmek için çubuğu çekmek için (ideal olarak en azından) olacaktır; bu doğrultuda doğrudan masanın karşısındaki masanın kenarımızdan çubuğa verilen herhangi bir x konumundaki çubuğa olan uzaklık x verilen y değerinin tahmini değeridir.

Bu aslında doğrusal bir regresyon tahminidir.

Şimdi, çiviler yerine, büyük bir ağaçtan sarkan birçok meyvelerin (belki de küçük elmalar gibi) olduğunu ve yerdeki pozisyonuna bağlı olarak meyvelerin toprağın üstündeki ortalama mesafesini bulmak istediğimizi hayal edin. Bu durumda, zeminin yukarısındaki yüksekliklerin, ileriye doğru ilerledikçe daha da büyüdüğünü ve düz bir şekilde tekrar doğru hareket ettikçe biraz daha büyüdüğünü, bu nedenle ileri doğru her bir adımın, ortalama yüksekliği yaklaşık olarak aynı miktarda değiştirdiğini ve sağ, aynı zamanda ortalamayı kabaca sabit bir miktarla değiştirecektir (ancak, ortalamadaki bu sağa doğru doğru değişim, ileriye doğru bir değişim miktarından farklıdır).

Ortalama yüksekliğin ilerledikçe veya sağa doğru ilerledikçe nasıl değiştiğini anlamak için meyvelerden ince bir düz tabakaya (belki de çok sert plastikten ince bir tabakaya) kare dikey mesafelerin toplamını en aza indirirsek, bu İki kestiricili bir doğrusal regresyon - çoklu bir regresyon.

Bunlar, arazilerin anlaşılmasına yardımcı olabilecek iki davadır (az önce tarif ettiğim şeyi hızla gösterebilirler, ancak umarım aynı fikirleri kavramsallaştırmak için bir temeliniz olduğunu biliyorsunuzdur). En basit iki durumun ötesinde, sadece matematikten ayrıldık.

Şimdi ev fiyatına bir örnek verin; her evin alanını masanızın kenarına kadar olan bir mesafeden temsil edebilirsiniz - en büyük evin boyutunu sağ kenara yakın bir konum olarak temsil edin; diğer her evin boyutu, belirli bir santimetrenin bazılarını temsil edeceği solda daha ileri bir konumda olacaktır. metrekare sayısı. Şimdi uzak mesafe satış fiyatını temsil ediyor. En pahalı evi, masanın en uzak kenarına yakın bir mesafede (her zaman olduğu gibi, sandalyenizden en uzak olan kenarı) ve belirli bir Rial'ı temsil edecek her santimetreyi temsil edin.

Şimdiki masanın sol kenarı sıfır bir ev alanına ve yakın kenarı 0 bir ev fiyatına karşılık gelecek şekilde gösterimi seçtiğimizi hayal edin. Daha sonra her ev için bir çivi koyduk.

Muhtemelen kenarımızın sol ucuna yakın bir çiviye sahip olmayacağız (çoğunlukla sağa ve bize doğru olabilirler), çünkü bu mutlaka iyi bir ölçek seçimi değil, ancak kesişmeyen bir model tercihiniz bunu yapar bunu tartışmak için daha iyi bir yol.

Şimdi modelinizde, çubuğu masanın yakın kenarının sol köşesindeki bir ipten geçmeye zorlarsınız - böylece takılı modeli sıfır alan için sıfır fiyatına zorlarsınız, bu da doğal görünebilir - ama varsa hayal edin Her satışı etkileyen fiyatın sabit bazı bileşenleri. O zaman kesişmenin sıfırdan farklı olması mantıklı olacaktır.

Her durumda, bu ilmeğin eklenmesiyle, önceki aynı lastik bant alıştırması, çizgi için en küçük kareler tahminini bulacaktır.


Vay, bu uzun uzamsal cevap için teşekkür ederim. Çok açıkladı. Teşekkürler.
Parham Doustdar

2

Otellerde sıkça rastladığınız ekmek kızartma makinesiyle karşılaştınız. Bir ucunda bir konveyör bandına ekmek koyarsınız, diğer tarafta tost şeklinde çıkar. Ne yazık ki, bu ucuz oteldeki ekmek kızartma makinesinde, ısıtıcıların hepsi, ekmek kızartma makinesinin girişinden rasgele yüksekliğe ve mesafelere taşınmıştır. Isıtıcıları hareket ettiremez veya kayışın yolunu bükemezsiniz (bu düzdür, bu arada (doğrusal bitin girdiği yer), ancak kayışın YÜKSEKLİĞİNİ ve ÇEVRESİNİ değiştirebilirsiniz.

Tüm ısıtıcıların pozisyonları göz önüne alındığında, doğrusal regresyon size en fazla ısıyı elde etmek için kayışı yerleştirmek için doğru yüksekliği ve açıyı söyleyecektir. Bunun nedeni, lineer regresyonun tost ve ısıtıcılar arasındaki ortalama mesafeyi en aza indirmesidir.

İlk tatil işim elle doğrusal regresyon yapıyordu. Bunu yapmak istemediğini söyleyen adam, SAĞ !!!


2

Doğrusal regresyonun en sevdiğim açıklaması geometrik ama görsel değil. Verileri, iki boyutlu uzayda bir nokta bulutuna bölmek yerine, yüksek boyutlu uzayda tek bir nokta olarak ele alır.

ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

D

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ

DM(ρ,β)D

DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.
Başka bir deyişle, veri noktası ile model noktası arasındaki mesafe, modelin toplam kare hatasıdır! Bir modelin toplam kare hatasını en aza indirmek, model ile veri alanındaki veri arasındaki mesafeyi en aza indirmekle aynı şeydir.

ρβDM(ρ,β)


1

@Chris Rackauckas ve @ EDM'in cevapları çok açık. Basit doğrusal regresyona yaklaşmanın, normal en küçük kareler tahmininin çizilmesi veya görsel açıklamaları gerektirmeyen birçok yolu vardır ve bunlar OLS'yi çalıştırırken gerçekte ne olduğuna dair çok sağlam açıklamalar verir.

Herhangi bir tür yeni modelleme prosedürünü öğrenmek için scatterots'ları bir öğretim aracı olarak kullanmanın, eski okul parametrik modeli, gelişmiş makine öğrenmesi şeyleri veya bayes algoritmaları olsun, grafiğin belirli bir şeyi öğrenmek için gereken süreyi azaltmaya yardımcı olabileceğini de ekleyebilirim. algoritma var.

Grafik oluşturma, yeni bir veri kümesiyle ilk çalışmaya başladığınızda keşfedici veri analizi için de çok önemlidir. Çok fazla veri topladığım, teoriyi çözdüğüm, modelimi dikkatlice planladığım ve daha sonra sadece koçluk gücü olmayan sonuçlara ulaşmak için koştum. İki değişkenli ilişkileri çizmek, bazı tahminde bulunabilir: Örneğinizde, ev fiyatının alanla doğrusal olarak ilişkili olması mümkündür, ancak belki de ilişki doğrusal değildir. Scatterpots, regresyonunuzda daha yüksek dereceli terimlere ihtiyacınız olup olmadığına veya doğrusal regresyondan farklı bir yöntem mi kullanmak istediğinize veya bir tür parametrik olmayan yöntem kullanmak mı istediğinize karar vermenize yardımcı olur.


1

Anscombe Quartet için Google.

Sayısal olarak incelemede fazla bir fark göstermeyen 4 veri setini gösterir.

Bununla birlikte, görsel bir dağılım grafiği oluştururken, farklılıklar çarpıcı biçimde görünür hale gelir.

Verilerinizi neden her zaman çizmeniz gerektiğine dair oldukça net bir görünüm sağlar.


0

Öngörülen ve gerçek değerler arasındaki farkı en aza indiren bir çözüme sahip olmak istiyoruz.

y=bx+a

yy

Hataların dağılımının normal dağıldığını varsayarsak, bu minimize etme problemine analitik bir çözüm olduğu ortaya çıkar. Farklılıkların karelerinin toplamı, en iyi uyum için en aza indirilecek en iyi değerdir. Ancak genel durum için normallik gerekli değildir.

Gerçekten daha fazlası yok.

y=bx+a

Günümüzde anlama yardımı olarak bırakılmıştır, ancak doğrusal regresyonun gerçekten anlaşılması gerekmemektedir.

EDIT: Hata varsayımının normalliğini doğru ancak daha az özlü bir liste ile değiştirdi. Normalliğin analitik bir çözüme sahip olması gerekiyordu ve birçok pratik durum için varsayılabilir ve bu durumda kareler toplamı yalnızca doğrusal tahmin için değil en uygunudur ve olasılığını da maksimuma çıkarır.

Hata dağılımının normalliği varsayımı daha ileri düzeyde tutulursa, kareler toplamı hem doğrusal hem de doğrusal olmayan tahmin ediciler arasında en uygunudur ve olasılığı en üst düzeye çıkarır.



Pls bu açıklama istatistiklerini
Diego

Bağlantının cevabınızla hiçbir ilgisi yok. Küçük örnekleme özelliklerine veya MLE'ye genişlediyseniz, normal dağıtım varsayımını getirebilirsiniz, ancak cevabınızdaki OLS tanımına göre normal dağılım gerektirmez. Aslında, karelerin toplamını en aza indirmek için, herhangi bir dağıtım veya istatistik gerekmez. Saf cebir.
Aksakal,

Mesele şu ki, neden diğer bazı ölçütleri değil, toplam kareleri en aza indirgiyoruz? Kareler toplamını minimize etmekle ilgili değil.
Diego,

Karelerin toplamını en aza indirmenin normal dağılımla ilgisi yoktur. Bu sadece senin kayıp fonksiyonun. Bu kayıp fonksiyonuyla başka herhangi bir hata dağılımı kullanılabilir. Bazı durumlarda, örneğin küçük örneklerde parametre değerleri hakkında çıkarım yapmak istiyorsanız, örneğin dağıtımlara ihtiyacınız var.
Aksakal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.