Grafiklerin evrensel olarak basit bir gerileme sağlamak için kullanılmasının nedeni - tek bir tahmincinin öngördüğü bir cevap - anlamalarına yardımcı olmalarıdır.
Ancak, olup bitenleri anlamada yardımcı olabilecek bir tat verebileceğime inanıyorum. Bu konuda çoğunlukla verdikleri anlayışın bir kısmını aktarmaya çalışacağım, bu da tipik olarak regresyon hakkında okurken karşılaşacağınız diğer bazı hususlara yardımcı olabilir. Dolayısıyla bu cevap, yazınızın belirli bir yönü ile ilgilenecektir.
Düz bir ofis masası, biri tam kol boyu (belki 1.8 metre), belki de yarısı kadar geniş bir dikdörtgen masadan önce oturduğunuzu hayal edin.
Masanın önüne, uzun bir tarafın ortasında, normal pozisyonda oturuyorsunuz. Bu masaya, üst yüzeye çok sayıda çivi (oldukça yumuşak başlı) dövülerek, her biri küçük bir şekilde yukarı çukur (nerede olduklarını hissetmek için yeterli ve onlara bir ip bağlamak veya bir lastik bant bağlamak için yeterli) ).
Bu çiviler masanın kenarından farklı mesafelerdedir, öyle ki bir uca doğru (sol ucu söyler) tipik olarak masanın kenarına daha yakın olurlar ve sonra diğer uca doğru hareket ederken Kenarınızdan uzakta olma eğilimindedir.
Dahası, çivilerin kenarınızdan ortalama olarak ne kadar uzakta olduklarını, herhangi bir kenarda konumlandırabileceklerini hissetmenin faydalı olacağını hayal edin.
Masanızın kenarı boyunca bir yer seçin ve elinizi oraya koyun, sonra doğrudan masanın üzerinden öne doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru uzağa doğru ilerleyin, elinizi yavaşça doğrudan kendinize doğru geriye, sonra tekrar uzağa doğru sürükleyin, elinizi tırnak başlarının üzerinde ileri ve geri hareket ettirin. Bu tırnaklardan birkaç düzine çarpma ile karşılaşıyorsunuz - elinizin dar genişliği içinde olanlar (doğrudan kenarınızdan uzaklaşırken, masanın sol ucundan sabit bir mesafede), yaklaşık 10 santimetre genişliğinde bir bölüm veya şerit .
Buradaki fikir, o küçük bölümde masanın kenarından bir çiviye ortalama bir mesafe bulmaktır. Sezgisel olarak, çarptığımız çarpmaların tam ortasında, ancak masanın genişliğindeki geniş bölümündeki her çiviye olan mesafeyi ölçersek, bu ortalamaları kolayca hesaplayabiliriz.
Örneğin , başı masanın kenarı boyunca kayan ve şaftı masanın diğer tarafına doğru koşan, ancak masanın hemen yukarısına doğru kayan bir T-karesini kullanabiliriz, böylece sola kayarken çivilere vurmazız veya sağ - belirli bir çiviyi geçtikçe T-karesinin mili boyunca mesafesini alabiliriz.
Bu yüzden, kenarımızdaki yerlerin ilerleyişinde, elimizdeki el şeridindeki tüm çivileri kendimizden uzağa doğru uzanan ve ortalama mesafelerini uzatan bu çivileri bulma çalışmasını tekrarlıyoruz. Belki masayı kenarımız boyunca elle genişlikte şeritler halinde bölüyoruz (bu yüzden her çiviye tam olarak bir şeritte rastlanıyor).
Şimdi, ilk sol kenarda ve son sağ kenarda 21 tane şerit olduğunu hayal edin. Şeritler arasında ilerlerken araçlar masa kenarımızdan daha da uzaklaşıyor.
Bu araçlar, x (kenarımız boyunca sol uçtan uzaklık), yani E (y | x) verilen y (uzak mesafemiz) beklentisinin basit bir parametrik olmayan regresyon tahmincisidir. Spesifik olarak, bu regressogram olarak da adlandırılan, binetrikli parametrik olmayan bir regresyon tahmincisidir.
Eğer bu şerit düzenli olarak artmışsa - yani, ortalama olarak şerit boyunca hareket ettiğimiz şerit başına aynı miktarda artmaktadır - o zaman beklenen y değerinin bir lineer olduğunu varsayarak regresyon fonksiyonumuzu daha iyi tahmin edebiliriz. x - yani, verilen x değerinin sabit bir artı x katsayısı olduğu anlamına gelir. Burada sabit, x'in sıfır olduğu zaman çivilerin nerede olma eğiliminde olduğunu gösterir (genellikle bunu aşırı sol kenara yerleştirebiliriz, ama olması gerekmiyor) ve x'in özel çarpımı ortalamada ortalamada ne kadar hızlı olduğu anlamına gelir. sağa doğru bir santimetre (örneğin) hareket ettikçe değişir.
Ama böyle bir doğrusal işlev nasıl bulunur?
Her bir çivi başının üzerine bir lastik bant bağladığımızı ve her birini masanın hemen üstüne, çivilerin üstüne, uzun bir çubuğa tutturduğumuzu düşünün. için.
Bantları, sadece bize doğru ve uzağa doğru uzayacak şekilde (sol veya sağ değil) bağlarlar - kendilerine bırakılırlar, gerilme yönlerini çubukla dik açıda yapmak için kendileri çekerler, ama burada bunu önlüyoruz, böylece gerilme yönleri sadece masanın kenarımıza doğru veya uzağında kalır. Şimdi, çubuğun, her bir çiviye doğru çekerken, daha uzak çivilere (daha fazla gerilmiş lastik bantlara sahip), çubuğa yakın çivilere göre daha sert şekilde çekmesine izin verdik.
Daha sonra, çubuğa çeken tüm bantların birleşik sonucu, gerilmiş lastik bantların kare uzunluklarının toplamını en aza indirmek için çubuğu çekmek için (ideal olarak en azından) olacaktır; bu doğrultuda doğrudan masanın karşısındaki masanın kenarımızdan çubuğa verilen herhangi bir x konumundaki çubuğa olan uzaklık x verilen y değerinin tahmini değeridir.
Bu aslında doğrusal bir regresyon tahminidir.
Şimdi, çiviler yerine, büyük bir ağaçtan sarkan birçok meyvelerin (belki de küçük elmalar gibi) olduğunu ve yerdeki pozisyonuna bağlı olarak meyvelerin toprağın üstündeki ortalama mesafesini bulmak istediğimizi hayal edin. Bu durumda, zeminin yukarısındaki yüksekliklerin, ileriye doğru ilerledikçe daha da büyüdüğünü ve düz bir şekilde tekrar doğru hareket ettikçe biraz daha büyüdüğünü, bu nedenle ileri doğru her bir adımın, ortalama yüksekliği yaklaşık olarak aynı miktarda değiştirdiğini ve sağ, aynı zamanda ortalamayı kabaca sabit bir miktarla değiştirecektir (ancak, ortalamadaki bu sağa doğru doğru değişim, ileriye doğru bir değişim miktarından farklıdır).
Ortalama yüksekliğin ilerledikçe veya sağa doğru ilerledikçe nasıl değiştiğini anlamak için meyvelerden ince bir düz tabakaya (belki de çok sert plastikten ince bir tabakaya) kare dikey mesafelerin toplamını en aza indirirsek, bu İki kestiricili bir doğrusal regresyon - çoklu bir regresyon.
Bunlar, arazilerin anlaşılmasına yardımcı olabilecek iki davadır (az önce tarif ettiğim şeyi hızla gösterebilirler, ancak umarım aynı fikirleri kavramsallaştırmak için bir temeliniz olduğunu biliyorsunuzdur). En basit iki durumun ötesinde, sadece matematikten ayrıldık.
Şimdi ev fiyatına bir örnek verin; her evin alanını masanızın kenarına kadar olan bir mesafeden temsil edebilirsiniz - en büyük evin boyutunu sağ kenara yakın bir konum olarak temsil edin; diğer her evin boyutu, belirli bir santimetrenin bazılarını temsil edeceği solda daha ileri bir konumda olacaktır. metrekare sayısı. Şimdi uzak mesafe satış fiyatını temsil ediyor. En pahalı evi, masanın en uzak kenarına yakın bir mesafede (her zaman olduğu gibi, sandalyenizden en uzak olan kenarı) ve belirli bir Rial'ı temsil edecek her santimetreyi temsil edin.
Şimdiki masanın sol kenarı sıfır bir ev alanına ve yakın kenarı 0 bir ev fiyatına karşılık gelecek şekilde gösterimi seçtiğimizi hayal edin. Daha sonra her ev için bir çivi koyduk.
Muhtemelen kenarımızın sol ucuna yakın bir çiviye sahip olmayacağız (çoğunlukla sağa ve bize doğru olabilirler), çünkü bu mutlaka iyi bir ölçek seçimi değil, ancak kesişmeyen bir model tercihiniz bunu yapar bunu tartışmak için daha iyi bir yol.
Şimdi modelinizde, çubuğu masanın yakın kenarının sol köşesindeki bir ipten geçmeye zorlarsınız - böylece takılı modeli sıfır alan için sıfır fiyatına zorlarsınız, bu da doğal görünebilir - ama varsa hayal edin Her satışı etkileyen fiyatın sabit bazı bileşenleri. O zaman kesişmenin sıfırdan farklı olması mantıklı olacaktır.
Her durumda, bu ilmeğin eklenmesiyle, önceki aynı lastik bant alıştırması, çizgi için en küçük kareler tahminini bulacaktır.