Bu bağlamdaki sıralama eksikliği, istediğiniz modeli tahmin etmek için verilerinizde yeterli bilgi bulunmadığını söylüyor. Birçok kaynaktan kaynaklanıyor. Burada, açıkça lojistik regresyondan ziyade oldukça genel bir bağlamda modelleme hakkında konuşacağım, fakat her şey yine de spesifik bağlam için geçerlidir.
Eksikliği sadece çok az veriden kaynaklanabilir. Genel olarak, n parametresini n veri noktasından daha az olan benzersiz bir şekilde tahmin edemezsiniz. Bu, ihtiyacınız olan her şeyin n noktası olduğu anlamına gelmez, süreçte herhangi bir ses varmış gibi, oldukça kötü sonuçlar alırsınız. Algoritmanın tüm verileri temsil edecek bir çözümü seçmesine yardımcı olmak için asgari hata anlamında daha fazla veriye ihtiyacınız vardır. Bu yüzden en küçük kareler araçlarını kullanıyoruz. Ne kadar veriye ihtiyacınız var? Bana her zaman bu soruyu geçmiş bir yaşamda sormuştum ve cevap, sahip olabileceğinizden veya alabildiğiniz kadar fazlaydı. :)
Bazen ihtiyaç duyduğunuzdan daha fazla veriye sahip olabilirsiniz, ancak bazı (çok fazla) nokta yineleniyor. Replikasyon, gürültüyü azaltmaya yardımcı olması açısından İYİDİR, ancak sayısal sıralamayı arttırmaya yardımcı olmaz. Dolayısıyla, sadece iki veri noktanız olduğunu varsayalım. Noktalardan benzersiz bir ikinci dereceden model tahmin edemezsiniz. Her bir noktanın milyon kopyası, hala etkili bir şekilde sadece bir çift nokta olan düz bir çizgiden daha fazlasını sığdırmanıza izin vermeyecektir. Temel olarak, çoğaltma bilgi içeriği eklemez. Tek yaptığı, zaten bilgi sahibi olduğunuz yerlerde gürültüyü azaltmak.
Bazen yanlış yerlerde bilgin var. Örneğin, eğer sahip olduğunuz her şey iki boyutlu düz bir çizgide yatan noktalar ise, iki boyutlu bir ikinci dereceden modele sığamazsınız. Yani, düzlemde yalnızca x = y çizgisi boyunca saçılan noktalara sahip olduğunuzu ve z (x, y) yüzeyine bir model yerleştirmek istediğinizi varsayalım. Zilyonlarca puan bile olsa (yinelenmez) bile, sabit bir modelden zekice tahmin etmek için yeterli bilgiye sahip olacaksınız. Şaşırtıcı bir şekilde, bu örneklenmiş verilerde gördüğüm yaygın bir sorundur. Kullanıcı neden iyi bir model oluşturamadıklarını merak ediyor. Sorun, örnekledikleri verilere dayanıyor.
Bazen basitçe model seçimidir. Bu, "yeterli veri" olarak değil, diğer taraftan görülebilir. Karmaşık bir model tahmin etmek istiyorsunuz, ancak bunu yapmak için yeterli veri sağlamamışsınız.
Yukarıdaki örneklerin hepsinde cevap, şu anda sahip olmadığınız süreç hakkında bilgi sağlayacak yerlerden akıllıca örneklenmiş, daha fazla veri elde etmektir. Deney tasarımı, başlamak için iyi bir yerdir.
Ancak, iyi veriler bile bazen yetersizdir, en azından sayısal olarak. (Neden kötü şeyler iyi veriye geliyor?) Buradaki sorun modelle ilgili olabilir. Kötü bir birim seçiminden başka hiçbir şeyde bulunmayabilir. Sorunu çözmek için yapılan bilgisayar programlamasından kaynaklanabilir. (Ugh! Nereden başlamalı?)
İlk olarak, birimler ve ölçeklendirme hakkında konuşalım. Diyelim ki bir değişkenin diğerinden daha büyük MANY siparişi olduğu bir sorunu çözmeye çalışıyorum. Örneğin, ayakkabı boyumu ve boyumu ilgilendiren bir sorunum olduğunu varsayalım. Boyumu nanometre cinsinden ölçeceğim. Yani boyum kabaca 1.78 milyar (1.78e9) nanometre olacaktı. Tabii ki, ayakkabı büyüklüğümü kilo-parsec cinsinden ölçeceğim, yani 9.14e-21 kilo-parsec. Regresyon modellemesi yaparken, doğrusal regresyon, değişkenlerin doğrusal kombinasyonlarını içeren doğrusal cebirle ilgilidir. Buradaki sorun, bu sayıların çok fazla büyüklük sırasına göre (ve aynı birimler bile değil) büyük ölçüde farklı olmasıdır. Bir bilgisayar programı çok büyüklük derecelerine göre değişen sayılar eklemeye ve çıkarmaya çalıştığında matematik başarısız olur (çift duyarlık için numara,
İşin püf noktası genellikle ortak birimler kullanmaktır, ancak bazı problemlerde değişkenler çok fazla büyüklük sırasına göre değiştiğinde bile bu bir konudur. Daha önemlisi, numaralarınızı büyüklük bakımından benzer olacak şekilde ölçeklendirmektir.
Sonra, büyük sayılarla ve bu sayılardaki küçük farklılıklar ile ilgili problemler görebilirsiniz. Bu nedenle, girdilerinizin aralık içinde bulunduğu verileri içeren, orta derecede yüksek dereceli bir polinom model oluşturmaya çalıştığınızı varsayalım [1,2]. 1 veya 2 sırasına göre kareler, küpler vb. Sayılar çift duyarlıklı aritmetik olarak çalışırken sorun çıkarmaz. Alternatif olarak, her sayıya 1e12 ekleyin. Teoride, matematik buna izin verecektir. Tek yaptığı x ekseninde oluşturduğumuz herhangi bir polinom modelini değiştirmek. Tam olarak aynı şekle sahip olacaktı, ancak 1e12 ile sağa çevrildi. Uygulamada, doğrusal cebir rütbe eksikliği problemleri nedeniyle sefil başarısız olur. Veriyi çevirmekten başka hiçbir şey yapmadın, ama aniden tekil matrislerin ortaya çıkmasını görmeye başla.
Genellikle yapılan yorumlar "verilerinizi merkezlemek ve ölçeklendirmek" için bir öneridir. Etkili bir şekilde bu, verileri sıfıra yakın bir ortalamaya ve kabaca 1 olan standart bir sapmaya sahip olacak şekilde kaydırmayı ve ölçeklendirmeyi söylüyor.
Sıra eksikliğinin diğer nedenleri var. Bazı durumlarda doğrudan modele yerleştirilmiştir. Örneğin, bir işlevin türevini sağladığımı varsayalım, işlevin kendine özgü bir çıkarım yapabilir miyim? Tabii ki, entegrasyon bir entegrasyon sabitini içerdiğinden, genel olarak fonksiyonun değeri hakkında bir noktadan bilgi edinilen bilinmeyen bir parametredir. Aslında, bu bazen bir sistemin tekilliğinin araştırılmakta olan sistemin temel yapısından kaynaklandığı tahmin problemlerinde de ortaya çıkmaktadır.
Kesinlikle lineer bir sistemde rütbe eksikliğinin birçok nedeninden birkaç tanesini bıraktım ve şimdi çok uzun zamandır mücadele ettim. İnşallah, basitçe anlattıklarımı ve sorunu hafifletmenin bir yolunu açıklamayı başardım.