Neler olduğunu keşfedelim. Eminim aşağıdaki materyallerin çoğunu zaten biliyorsunuzdur, ancak gösterim ve tanımlar oluşturmak ve fikirleri netleştirmek için, soruyu cevaplamadan önce polinom regresyonunun temellerini ele alacağım. İsterseniz, bu gönderiye giden R
yolun üçte ikisi hakkında "Ne işe yarar" başlığına atlayın ve sonra ihtiyacınız olabilecek tanımlar için atlayın.
Ayar
Bir çeşit regresyonda potansiyel açıklayıcı değişkenlerin model matrisi . Bu, sütunlarını -vektörler olarak düşündüğümüz anlamına gelir ve bunların doğrusal kombinasyonlarını oluşturacağız, bir yanıtı tahmin etmek veya tahmin etmek. n×kXXnX1,X2,…,Xkβ1X1+β2X2+⋯+βkXk,
Bazen, çeşitli sütunlarını katsayı katsayısı ile çarparak oluşturulan ek sütunlar eklenerek regresyon geliştirilebilir . Bu tür ürünler "monomiyaller" olarak adlandırılır ve şöyle yazılabilirX
Xd11Xd22⋯Xdkk
burada her "güç" sıfır veya daha büyüktür, her ürününde kaç kez göründüğünü gösterir. Uyarı bu , bir olan , sabit katsayılar (arasında -vector ) ve kendisi. Bu nedenle, monomiyaller (vektörler olarak) orijinal sütun uzayını içeren bir vektör uzayı üretir Daha büyük bir vektör uzayı olabilme olasılığı, bu prosedüre lineer kombinasyonlarla yanıt modellemesi için daha geniş bir alan sağlar.diX1X0n1X1=XX.
Orijinal model matrisi bir koleksiyon doğrusal kombinasyonuyla değiştirmeyi amaçlıyoruz. Bu monomials en az biri derecesi aştığında bu adlandırılır polinom regresyon.X1,
Polinomların dereceleri
Bir derecesi , güçlerinin toplamıdır, Monomiyallerin doğrusal bir kombinasyonunun derecesi (bir "polinom"), sıfır olmayan katsayılara sahip monomiyal terimler arasındaki en büyük derecedir. Derecenin içsel bir anlamı vardır, çünkü orijinal vektör uzayının temelini değiştirdiğinizde, her vektörü tüm vektörlerin doğrusal bir kombinasyonu ile yeni bir şekilde temsil edilir; monomiyal böylece aynı derecedeki polinomlar haline gelir; ve sonuç olarak herhangi bir polinomun derecesi değişmez.d1+d2+…+dk.XiXd11Xd22⋯Xdkk
Derece doğal Bu polinom cebire "sınıflandırma" sağlamaktadır: fırın içerisinde monomials her doğrusal kombinasyonu tarafından oluşturulan vektör alan derecesi kadar ve dahil bir "polinomlar adlandırılan [veya kadar] derece içinde "dereceye kadar polinomların vektör alanı uzanan içindeXd+1,d+1X,dX.
Polinom regresyonunun kullanım alanları
Çoğu zaman, polinom regresyon olan keşif biz dahil etmek monomials başlangıçta bilmiyorum anlamında. Monomiyallerden yeni model matrisleri oluşturma ve regresyonun yeniden takılması işleminin birçok kez tekrarlanması gerekebilir, belki de bazı makine öğrenimi ortamlarında astronomik sayıda.
Bu yaklaşımla ilgili başlıca sorunlar
Monomiyaller, yeni model matrisinde genellikle problemli miktarlarda "çoklu doğrusallık" ortaya çıkarır, çünkü tek bir değişkenin güçleri yüksek oranda eşdoğrusal olma eğilimindedir. (İki farklı değişkenin gücü arasındaki eşgüdüm öngörülemez, çünkü bu değişkenlerin nasıl ilişkili olduğuna bağlıdır ve bu nedenle daha az tahmin edilebilir.)
Model matrisinin sadece tek bir sütununu değiştirmek veya yeni bir sütun girmek veya birini silmek, regresyon prosedürünün "soğuk yeniden başlatılması" gerektirebilir ve bu da hesaplama için uzun zaman alabilir.
Polinom cebirlerinin dereceleri her iki sorunun da üstesinden gelmenin bir yoludur.
Bir değişkente dik polinomlar
Bir göz önüne alındığında , tek kolon vektörü için "dik polinomlar" bir dizi kolon vektörleri dizisidir in monomials doğrusal kombinasyonları olarak oluşan alone-- yani, gücü olarak - aşağıdaki özelliklerle:X,Xp0(X),p1(X),p2(X),…XX
Her bir derece için, vektörler ile aynı vektör alanı oluşturmak (Not bu olan olanlar -vector ve , sadece bir kendisi).d=0,1,2,…,p0(X),p1(X),…,pd(X)X0,X1,…,Xd.X0nX1X
karşılıklı olarak ortogonal anlamda olduğu içinpi(X)i≠j, pi(X)′pj(X)=0.
Genellikle, bu model matrisi , sütunlarını birim uzunluğuna normalleştirerek ortonormal olarak seçilir : Ters nedeniyle en regresyon denklemleri görünür ve kimlik ters matris kendisi, bu çok büyük bir hesaplama kazancı temsil eder.P=(p0(X)p1(X)⋯pd(X))
P′P=Id+1.
P′PId+1
Ortonormallik neredeyse Bunu inşaat yoluyla görebilirsiniz:pi(X).
İlk polinom, -vector birim uzunluğunun katı olmalıdır . Sadece iki seçenek vardır, Pozitif kare kökü seçmek gelenekseldir.p0(X),n1=(1,1,…,1)′±1/n−−−√1.
İkinci polinom, ile dik olmalıdırÇözümü ortalama değerlerin vektörü olan karşı regresyon yapılarak elde edilebilir Artıklar ise aynı sıfır değildir, onlar sadece iki olası çözümler vermekp1(X),1.X1,X^=X¯1.ϵ=X−X^p1(X)=±(1/||ϵ||)ϵ.
...
- Genel olarak, , karşı gerilemesi ve artıkların birim vektörü olarak yeniden ölçeklendirilmesiyle elde edilir. uzunluğu. Kalanlar sıfır olmadığında iki işaret seçeneği vardır. Aksi takdirde, süreç sona erer: daha yüksek güçlerine bakmak verimsiz olacaktır (Bu güzel bir teoremdir, ancak kanıtının burada dikkatini dağıtması gerekmez.)pd+1(X)Xd+1p0(X),p1(X),…,pd(X)X.
Bu, vektörlerinin gerçek dizisine uygulanan Gram-Schmidt işlemidir Genellikle hemen hemen aynı şey olan ancak sayısal olarak kararlı bir şekilde hesaplanan bir QR ayrışması kullanılarak hesaplanır.X0,X1,…,Xd,….
Bu yapı , model matrisine dahil edilmesi gereken bir dizi ek sütun verir. Bu nedenle, bir değişkende polinom regresyonu, regresyonda başka bir iyileşme elde edilinceye kadar genellikle bu sekansın elemanlarını tek tek ekleyerek ilerler. Çünkü her yeni sütun, önceki katsayı tahminlerinden hiçbirini değiştirmeyenler de dahil olmak üzere öncekilere diktir. Bu etkili ve kolayca yorumlanabilir bir prosedür sağlar.
Çok Değişkenli Polinomlar
Keşifsel regresyon (ve model uydurma) genellikle bir modele hangi (orijinal) değişkenlerin dahil edileceği göz önünde bulundurularak ilerler; daha sonra bu değişkenlerin, monomiyaller gibi çeşitli dönüşümleri dahil edilerek artırılıp artırılamayacağını değerlendirmek; ve daha sonra bu değişkenlerin ürünlerinden ve bunların yeniden ifadelerinden oluşan "etkileşimler" in tanıtılması.
Bu tür bir program taşıma, daha sonra, şekillendirme ile başlayacak tek değişkenli ortogonal polinomları sütunlarında ayrı ayrı. X Her sütun için uygun bir derece seçtikten sonra etkileşimleri tanıtabilirsiniz.
Bu noktada, tek değişkenli programın bazı bölümleri parçalanır. Uygun bir model belirlenene kadar hangi etkileşimleri birer birer uygularsınız? Dahası, şimdi çok değişkenli analiz alanına gerçekten girdiğimize göre, mevcut seçeneklerin sayısı ve artan karmaşıklığı, bir dizi çok değişkenli ortogonal polinom dizisinin inşasında azalan getiriler olabileceğini düşündürmektedir . Bununla birlikte, aklınızda böyle bir dizi varsa, bir QR ayrışması kullanarak bunu hesaplayabilirsiniz.
Ne R
yapar
Bu nedenle polinom regresyon yazılımı, tek değişkenli ortogonal polinom dizilerinin hesaplanmasına odaklanma eğilimindedir . Bu R
desteği tek değişkenli polinom gruplarına mümkün olduğunca otomatik olarak genişletmek için karakteristiktir . Bu ne poly
yapar. (Eşi polym
aslında daha az sayıda çan ve ıslık ile aynı koddur; iki işlev aynı şeyleri yapar.)
Özellikle, poly
tek bir vektörü verildiğinde belirli bir derece durarak bir tek değişkenli ortogonal polinom dizisini hesaplayacaktır (Eğer çok büyük - ve çok büyük ne kadar büyük tahmin etmek zor olabilir -. Ne yazık ki bir hata verir), belirli bir zaman dizi vektörleri bir matris şeklinde geri dönecekX,d.dX1,…,XkX,
Her bir için ortonormal polinom istenen maksimum dereceye kadar ( sabit vektörü tüm değişkenler için ortak olduğundan ve çok basit olduğundan - genellikle regresyondaki kesişme tarafından barındırılır - dahil etmek zahmetine girmez.)p1(Xj),p2(Xj),…,pd(Xj)jd.p0(Xi)R
Derece olanlar dahil dik polinomlar arasındaki tüm etkileşimlerd.
Adım (2) çeşitli incelikleri içerir. Genellikle değişkenler arasındaki bir "etkileşim" ile "tüm olası ürünler" anlamına geliriz, ancak bu olası ürünlerden bazıları den büyük derecelere sahip olacaktır Örneğin, değişken ve hesaplard.2d=2, R
p1(X1),p2(X1),p1(X2),p1(X1)p1(X2),p2(X2).
R
etmez olmayan daha yüksek dereceden etkileşimleri içerir ya da (derece 3 polinomları) (derece 4 bir polinom). (Bu ciddi bir sınırlama değildir, çünkü bu ürünleri kendiniz kolayca hesaplayabilir veya bir regresyon nesnesinde belirtebilirsiniz .)p2(X1)p1(X2), p1(X1)p2(X2)p1(X2)p2(X2)formula
Başka bir incelik, çok değişkenli ürünlerin hiçbirine normalizasyon yapılmamasıdır . Örnekte, bu tür tek ürün Bununla birlikte, ortalamasının sıfır olacağına ve neredeyse kesinlikle birim normuna sahip olmayacağına dair bir garanti yoktur. Bu anlamda ve arasında gerçek bir "etkileşim" ve bu nedenle etkileşimler genellikle bir regresyon modelinde olduğu için yorumlanabilir.p1(X1)p1(X2).p1(X1)p1(X2)
Bir örnek
Bir örneğe bakalım. Rastgele bir matrix Hesaplamaları takip etmeyi kolaylaştırmak için her şey gösterim için iki önemli rakama yuvarlanır.X=⎛⎝⎜152364⎞⎠⎟.
İlk sütun için ortonormal polinom dizisi, birim uzunluğuna normalleştirilerek başlar veBir sonraki adım kendisini içerir. Bu ortogonal hale getirmek için gerileme karşı ve ayar birim uzunluğu için yeniden olçeklendirilmiş bu gerileme artıkları için eşittir. Sonuç olağandır standardizasyon ve o recentering ve standart sapma ile bölünmesi ile elde edilen,X1=(1,5,2)′X01=(1,1,1)′p0(X1)=(1,1,1)′/3–√≈(0.58,0.58,0.58)′.X11=X1p0(X1),X1p0(X1)p1(X1)X1p1(X1)=(−0.57,0.79,−0.23)′. Son olarak, ve karşı geriledi ve bu artıklar birim uzunluğuna göre yeniden ölçeklendi. Daha ileri gidemeyiz çünkü güçleri boyuttan daha büyük bir vektör alanı . (Buraya kadar geldik, çünkü katsayılarının minimum polinomu yani derece derece veya daha büyük tüm monomiyallerin daha düşük doğrusal kombinasyonlar olduğunu gösteriyor. güçler ve bu düşük güçler doğrusal olarak bağımsızdır.)X21=(1,25,4)p0(X1)p1(X1)X1n=3X1,(t−1)(t−5)(t−4),3,3
için bir ortonormal polinom dizisini temsil eden sonuçtaki matris ,X1
P1=⎛⎝⎜0.580.580.58−0.570.79−0.230.590.20−0.78⎞⎠⎟
(iki önemli rakama).
Aynı şekilde, için bir ortonormal polinom matrisi ,X2
P2=⎛⎝⎜0.580.580.58−0.620.77−0.150.530.27−0.80⎞⎠⎟.
Etkileşim terimi, bu matrislerin orta sütunlarının çarpımıdırVeya tarafından oluşturulan tam matris ,(0.35,0.61,0.035)′.poly
polym
P=⎛⎝⎜−0.570.79−0.230.590.20−0.78−0.620.77−0.150.350.610.0350.530.27−0.80⎞⎠⎟.
Sütunların düzenlendiği sıraya dikkat edin: için sabit olmayan ortonormal polinomlar sütun 1 ve 2'de, için olanlar ise sütun 3 ve . Bu nedenle, bu çıktıda garanti edilen tek dikeylik bunlar arasındadır iki çift sütun. Bu, ve konumlarında sıfırlar bulunan hesaplamasına yansır. (aşağıda kırmızı ile gösterilmiştir), * ancak başka hiçbir yerde sıfırdan farklı olabilir ve ve (mavi ile gösterilen konumlarda olanlar olacaktır aşağıda), ancak diğer çapraz konumlarda bir tane olması muhtemel değildir (X1X2P′P,(1,2),(2,1),(3,5),(5,3)(1,1),(2,2),(3,3),(5,5)(4,4)bu örnekte). Aslında,
P′P=⎛⎝⎜⎜⎜⎜⎜⎜1010.280.09101−0.0910.311−0.09110.2500.280.30.250.50.320.091100.321⎞⎠⎟⎟⎟⎟⎟⎟.
gösterilen matrisini incelediğinizde ve nin katlarının gerçekten sıfır olduğunu fark ettiğinizde, kırmızı konumlardaki sıfırların bu deseninin tutulduğunu gözlemleyeceksiniz. Bu iki değişkenli polinomların "dik" olduğu duygusudur.P10−17