Doğrusal, üstel ve logaritmik fonksiyonlardan en uygun eğri uydurma fonksiyonunun belirlenmesi


18

Bağlam:

Matematik Yığın Değişimi (Bir program oluşturabilir miyim) ile ilgili bir sorudan , birisinin bir dizi noktası vardır ve bu eğriye doğrusal, üstel veya logaritmik bir eğri sığdırmak ister. Genel yöntem, bunlardan birini (modeli belirten) seçerek başlamak ve daha sonra istatistiksel hesaplamalar yapmaktır.x-y

Ancak asıl istenen, doğrusal, üstel veya logaritmik 'en iyi' eğriyi bulmaktır.

Görünürde, üçünü de deneyebilir ve en iyi korelasyon katsayısına göre üçün en uygun eğrisini seçebiliriz.

Ama bir şekilde bunun çok koşer olmadığını hissediyorum. Genel olarak kabul edilen yöntem önce modelinizi, bu üçten birini (veya başka bir bağlantı işlevini), ardından verilerden katsayıları hesaplamaktır. Ve facto sonrası en iyisi toplama kiraz toplama. Ama bana göre bir fonksiyon veya katsayıları verilerden belirleyip belirlemediğiniz hala aynı şey, prosedürünüz en iyi ... şeyi keşfetmektir (diyelim ki hangi fonksiyon -ya da- keşfedilecek başka bir katsayıdır).

Sorular:

  • Uyum istatistiklerinin karşılaştırılmasına dayanarak, doğrusal, üstel ve logaritmik modellerden en uygun modeli seçmek uygun mudur?
  • Varsa, bunu yapmanın en uygun yolu nedir?
  • Regresyon bir işlevdeki parametreleri (katsayıları) bulmaya yardımcı oluyorsa, neden en iyi üç eğri ailesinden hangisinin geleceğini seçmek için ayrı bir parametre olamaz?

1
Size kolaylık sağlamak için model seçim etiketini ekledim : içinden bağlantı yapmak çok sayıda doğrudan alakalı iplik üretecektir. Göz atmaya değer diğer etiketler arasında aic bulunmaktadır . Sonunda bu problemin matematiksel ifadesinin iki temel unsuru eksik olduğunu keşfetmelisiniz: noktaların teorik bir eğriden nasıl ve neden sapabileceğinin açıklaması ve tam olarak doğru eğriyi alamamanın maliyetinin bir göstergesi. Bu unsurlar olmadığında, "en iyi" nin kötü tanımlandığını gösteren farklı cevaplar üretebilen birçok farklı yaklaşım vardır.
whuber

1
Modelde doğrulama yapmak için verilerinizin bir yüzdesini ayırabilir ve bu doğrulama verileri kümesine en uygun modeli seçebilirsiniz. Bu nedenle, aslında verilerinizi bölmek için üç farklı setiniz olacaktır: 1. tek bir modeli eğitmek için veriler 2. en iyi modeli seçmenize izin veren her modeli doğrulayan veriler ve 3. dokunulmamış gerçek nihai doğrulama verileriniz .
kleineg

1
@kleineg Bu doğru yön gibi geliyor. Model seçimi (örn. Lin / exp / log arasında), bazı şekillerde normal parametrelerin sadece bir başka aşaması olan tek bir model hiperparametre gibidir ve ayrı tren / valide / test aşamaları ile ona adım atmak genelleştirilebilir.
Mitch

İlgili: {Overfit için ince bir yol] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - birden fazla model işlevi arasında seçim yapmak (ör. Exp vs linear vs log) başka bir parametre. Bunu, karmaşık bir kombinasyon fonksiyonunda (bir test adımında test edilecek) bir hiperparametre (bir doğrulama adımına ihtiyaç duyacaktır) veya normal bir parametre olarak düşünebilirsiniz.
Mitch

Yanıtlar:


9
  • Eureqa adlı ücretsiz yazılımı kontrol etmek isteyebilirsiniz . Belirli bir fonksiyonel ilişkinin hem fonksiyonel formunu hem de parametrelerini bulma işlemini otomatikleştirmek özel bir amacı vardır.
  • Modelleri farklı sayıda parametre ile karşılaştırıyorsanız, genellikle daha fazla parametreli modelleri cezalandıran bir uyum ölçüsü kullanmak istersiniz. Model karşılaştırması için uyum ölçüsünün en uygun olduğu zengin bir literatür vardır ve modeller yuvalanmadığında sorunlar daha karmaşık hale gelir. Senaryonuzda diğerlerinin en uygun model karşılaştırma endeksi olduğunu düşündüklerini duymak isterim (bir yan nokta olarak, son zamanlarda blogumda model karşılaştırma endeksleri hakkında eğri uydurma için modelleri karşılaştırma bağlamında bir tartışma vardı ).
  • Deneyimlerime göre, doğrusal olmayan regresyon modelleri, verilen verilere saf istatistiksel uyumun ötesinde nedenlerle kullanılmaktadır:
    1. Doğrusal olmayan modeller, veri aralığı dışında daha makul tahminler yapar
    2. Doğrusal olmayan modeller, eşdeğer uyum için daha az parametre gerektirir
    3. Doğrusal olmayan regresyon modelleri genellikle, daha önce önemli araştırma ve teori yönlendirici model seçiminin olduğu alanlarda uygulanır.

5

Bu çok çeşitli alanlarda geçerli olan bir sorudur.

En iyi model, parametre tahmini sırasında kullanılmayan veri noktalarını tahmin edebilen modeldir. İdeal olarak, model parametrelerini veri kümesinin bir alt kümesiyle hesaplar ve başka bir veri kümesindeki uyum performansını değerlendirir. Eğer detaylar ilgileniyorsanız "çapraz-geçerlilik" ile bir arama yapın.

İlk sorunun cevabı "Hayır" dır. Sadece en uygun modeli alamazsınız. N derece derecesine sahip bir polinomu N veri noktalarına taktığınız görüntü. Bu mükemmel bir uyum olacaktır, çünkü tüm model tüm veri noktalarını tam olarak geçecektir. Ancak bu model yeni verilere genelleme yapmaz.

En uygun yol, söyleyebildiğim kadarıyla, artıkların genliğini ve modelinizdeki parametre sayısını aynı anda cezalandıran metrikleri kullanarak modelinizin diğer veri kümelerine ne kadar genelleştirebileceğini hesaplamaktır. AIC ve BIC, bildiğim bu metriklerden bazıları.


3

Birçok insan rutin olarak çeşitli eğrilerin verilerine uygunluğunu araştırdığından, rezervasyonlarınızın nereden geldiğini bilmiyorum. Verilen bir kuadratik, her zaman en azından bir lineer ve bir kübik, en azından bir kuadratik olarak sığacaktır, bu nedenle böyle bir doğrusal olmayan terim eklemenin istatistiksel önemini test etmenin yolları vardır. gereksiz karmaşıklıktan kaçının. Ancak, bir ilişkinin birçok farklı biçimini test etmenin temel uygulaması iyi bir uygulamadır. Aslında, en uygun eğri türünün ne olduğunu görmek için çok esnek bir zayıf regresyonla başlanabilir.


3
İkinci derecenin daha iyi uyup uymadığı, iyi uyumu nasıl uyguladığınıza bağlı olacaktır. Özellikle, daha fazla parametreye sahip modelleri (örneğin, AIC) cezalandıran bir uyum ölçüsü kullanırsanız, örneğin, uyuma kuadratik ve lineer için daha kötü olabilir.
Jeromy Anglim

9
@rolando, belki de yanlış anlıyorum, ama açıkçası, bu tür (niteliksiz) tavsiye tam olarak, istatistikçiler olarak, "mücadele" etmek için çok fazla zaman harcadığımız bir şeydir. Özellikle OP, basit eğri uydurmanın ötesinde herhangi bir şeyle ilgileniyorsa, örneğin tahmin veya çıkarım, istatistiklere "ne düşünürsen dene" yaklaşımının sonuçlarını anlamak çok önemlidir.
kardinal

2
Bu yorumları Anscombe, Tukey, Mosteller, Tufte ve Cleveland'ın geleneği ile uzlaştırmakta güçlük çekiyorum. diğer istatistiklerin oluşturulması.
rolando2

8
Yaklaşımları hakkında bir çok tartışma var. Bu sorunları özetlemenin aşırı basitleştirilmiş bir yolu, kalıplar hakkında bilgi edinmek ve daha sonra onaylanması gereken yeni keşifler yapmak istiyorsanız keşif analizinin uygun olmasıdır. Çıkarım yapmak istiyorsanız (belirli bir örnekten P-değerleri, güven aralıkları vb. Kullanarak genel popülasyona neden) o kadar çok değil.
Frank Harrell

4
Bu CV'de gördüğüm en verimli yorum dizisidir, özellikle b / t rolando2 (3 ^) & @FrankHarrell borsası. Ayrıca her iki yaklaşımı da çok çekici buluyorum. Kendi çözümüm, önceden neyin test edileceğini planlamak ve sadece kesin sonuç çıkarmak için bu modele uymak / test etmek , aynı zamanda neyin doğru olabileceğini keşfetmek için verileri (sonuçların tutulması gerektiğine inanmadan) iyice araştırmaktır. ve bir sonraki çalışma için planlama . (Başka bir çalışma yürütmeli ve bir şeyleri kontrol etmeli miyim, ilginç / önemli olur mu?) Anahtar, bu analizlerin sonuçları hakkındaki inançlarınızdır .
gung - Monica'yı eski durumuna döndürün

3

Verilere götüren bilim / teori ile verilerin size söyledikleri arasında gerçekten bir denge bulmanız gerekir. Diğerlerinin söylediği gibi, herhangi bir olası dönüşüme (herhangi bir derecedeki polinomlar, vb.) Uymanıza izin verirseniz, aşırı takmaya ve işe yaramaz bir şey elde edersiniz.

Kendinizi buna ikna etmenin bir yolu simülasyon. Modellerden birini (doğrusal, üstel, günlük) seçin ve bu modeli izleyen verileri (parametre seçimi ile) oluşturun. Eğer y değerlerindeki koşullu varyansınız x değişkeninin yayılmasına göre küçükse, basit bir grafik hangi modelin seçildiğini ve "gerçeğin" ne olduğunu açıkça ortaya koyacaktır. Ancak, bir dizi parametreyi, parsellerden (muhtemelen analitik bir çözümün ilgi çekici olduğu durumda) açık olmayacak şekilde seçerseniz, 3 yolun her birini analiz edin ve hangisinin "en iyi" uyumu sağladığını görün. Ben "en iyi" uyum genellikle "gerçek" uyum olmadığını bulacaksınız bulacaksınız.

Öte yandan, bazen verilerin bize mümkün olduğunca fazla bilgi vermesini isteriz ve ilişkinin doğasını tam olarak belirleyecek bilim / teoriye sahip olmayabiliriz. Box ve Cox'un orijinal makalesi (JRSS B, cilt 26, no. 2, 1964) y değişkenindeki birkaç dönüşüm arasında karşılaştırma yollarını tartışır, verilen dönüşüm kümeleri doğrusaldır ve özel durumlar olarak günlüğe sahiptir (ancak üstel değildir) ancak makalenin teorisindeki hiçbir şey sizi yalnızca dönüşüm ailesiyle sınırlamaz; aynı yöntem, ilgilendiğiniz 3 model arasında bir karşılaştırma içerecek şekilde genişletilebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.