İstatistikçiler bir bitkinin aşırı sulanamayacağını mı yoksa sadece eğrisel regresyon için yanlış arama terimlerini mi kullanıyorum?


18

Ben, lineer regresyon ve GLM okumak neredeyse her şey bu kaynar: f ( x , β ) bir non-arttırılması ya da işlevini azalmayan x ve β Eğer tahmin parametresi ve bir testtir hakkında hipotezler. Y'yi f ( x'in doğrusal bir işlevi haline getirmek için düzinelerce bağlantı işlevi ve y ve x dönüşümleri vardır.y=f(x,β)f(x,β)xβyxyf(x,β).

Şimdi, için artmayan / azalmayan gereksinimi kaldırırsanız, f(x,β)parametrik doğrusallaştırılmış bir modelin takılması için sadece iki seçenek biliyorum: trig fonksiyonları ve polinomlar. Her ikisi de, tahmin edilen her bir y ile tamamı arasında yapay bir bağımlılık yaratır ve Xverilerinizin gerçekten döngüsel veya polinom bir süreç tarafından üretildiğine inanmak için önceden nedenler olmadıkça onları çok sağlam bir uyum haline getirir.

Bu bir tür ezoterik kenar durumu değil. Su ve mahsul verimleri arasındaki gerçek, sağduyu ilişkisi (araziler su altında yeterince derin olduğunda, mahsul verimleri azalmaya başlayacaktır) veya kahvaltıda tüketilen kaloriler ve bir matematik testindeki performans veya bir fabrikadaki işçi sayısıdır. ve ürettikleri widget'ların sayısı ... kısacası, doğrusal modellerin kullanıldığı hemen hemen her gerçek yaşam durumu, ancak veri gittikçe genişleyen bir aralığı kapsıyorsa, azalan getirileri negatif getiri haline getiriyor.

'İçbükey', 'dışbükey', 'eğrisel', 'monotonik olmayan', 'küvet' terimlerini aramaya çalıştım ve kaç tanesini unuttum. Birkaç ilgili soru ve hatta daha az kullanılabilir cevap. Dolayısıyla, pratikte, aşağıdaki verilere sahipseniz (R kodu, y sürekli değişken x ve ayrık değişken grubunun bir fonksiyonudur):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Dağılım grafiği

Önce bir Box-Cox dönüşümü deneyebilir ve bunun mekanik anlamda anlamlı olup olmadığını görebilir ve bunu başaramazsanız, lojistik veya asimptotik bağlantı işlevine sahip doğrusal olmayan en küçük kareler modeline sığabilirsiniz.

Öyleyse, tam veri kümesinin böyle göründüğünü öğrendiğinizde neden parametrik modelleri tamamen bırakıp spline gibi bir kara kutu yöntemine geri dönmelisiniz?

plot(y~x,updown,col=group);

Sorularım:

  • Bu işlevsel ilişkiler sınıfını temsil eden bağlantı işlevlerini bulmak için hangi terimleri aramalıyım?

veya

  • Kendime bu işlevsel ilişki sınıfına bağlantı işlevlerini nasıl tasarlayacağımı veya şu anda yalnızca monotonik yanıtlar için olan var olanları nasıl genişleteceğimizi öğretmek için ne okumam ve / veya aramalıyım?

veya

  • Heck, bu tür soru için en uygun StackExchange etiketi bile!

4
Ne istediğini bilmiyorum. monotonik olmayan bir fonksiyonuna uymak istiyorsunuz ... polinom regresyonu veya sinüs regresyonu ile ilgili probleminiz tam olarak nedir? Ayrıca ... "link fonksiyonu" ... o kelimeyi kullanmaya devam ediyorsun ... Ne demek istediğini kastettiğini sanmıyorum. x
Jake Westfall

5
(1) RKodunuzda sözdizimi hataları var: groupalıntı yapılmamalıdır. (2) Arsa güzel: kırmızı noktalar doğrusal bir ilişki sergilerken, siyah noktalar parçalı bir lineer regresyon (bir değişiklik noktası modeli ile elde edilen) dahil olmak üzere çeşitli şekillerde sığabilir ve hatta muhtemelen bir üstel olabilir. Ben am değil verilerini üretilen ne bir anlayış tarafından bilgilendirilir ve ilgili disiplinlerde teoriler motive edilmesi modelleme seçimler gerektiğini, çünkü ancak bu tavsiye. Araştırmanız için daha iyi bir başlangıç ​​olabilirler.
whuber

1
@whuber teşekkürler! Kod düzeltildi. Teorik motivasyon ile ilgili olarak: bunlar en başta nereden geliyor? Tezgah bilim adamı işbirlikçilerim, tahmin değişkenlerini mutlu bir şekilde ikiye ayıracak ve bunlar üzerinde t testleri yapacak. Bu yüzden "y ile x arasında pozitif bir ilişki" ile "y" nin x ile "y" ile x arasında negatif bir ilişki olduğunu "gösteren bir matematiksel ilişki bularak veri israfını durdurmanın bir yolunu buluyorum. Başarısız olursa, enzim, substrat ve ürün arasında bir ilişki bulduğunda Michaelis ve Menten'in yaptıklarını tekrar özetlemem gerekecek.
f1r3br4nd

1
Bu şeylerin 'büküldüğü' noktalar önceden biliniyor mu?
Glen_b

3
Kışkırtıcı unvan için +1 ve aslında mantıklı bir takip
Stumpy Joe Pete

Yanıtlar:


45

Bağlantı fonksiyonları ve monotoniklik hakkındaki sorudaki açıklamalar kırmızı bir ringa balığıdır. Bunları temelinde bir yanıt beklentisini ifade edilmesi ile, bir genel lineer model (GLM), bu örtülü bir varsayım olarak görünmektedir yeknesak bir fonksiyonu olarak f lineer kombinasyon X- p açıklayıcı değişkenler X , hesaba yeterince esnek olmayan için değil monoton tepkiler. Sadece öyle değil.YfXβX


Belki işe yaramış bir örnek bu noktayı aydınlatacaktır. 1948 tarihli bir çalışmada ( ölümünden sonra 1977'de yayınlandı ve hiçbir zaman hakem değerlendirilmedi), J. Tolkien, 24 ayçiçeğinin 13 grubunun ( Helianthus Gondorensis ) üç ay boyunca çimlenmeden başlayarak kontrollü miktarlarda su verildiği büyüme. Uygulanan toplam miktarlar iki inçlik artışlarla bir inç ila 25 inç arasında değişmiştir.

Şekil 1

Sulamaya açık bir olumlu yanıt ve aşırı sulamaya güçlü bir olumsuz yanıt vardır. İyon taşımacılığının varsayımsal kinetik modellerine dayanan daha önceki çalışmalar, iki rakip mekanizmanın bu davranışı açıklayabileceğini varsaydı: biri küçük miktarlarda suya (günlük hayatta kalma oranlarında ölçüldüğü gibi) doğrusal bir tepki ile sonuçlanırken, -bir engelleme faktörü - katlanarak etki (güçlü bir şekilde doğrusal olmayan bir etkidir). Büyük miktarda su ile, inhibe edici faktör suyun olumlu etkilerini boğacak ve mortaliteyi önemli ölçüde artıracaktır.

Let (bilinmeyen) inhibisyon oranı (su birim miktarı). Bu model, x inç su alan bir grup n boyutunda hayatta kalanların Y sayısının Binom ( n , f ( β 0 + β 1 x - β 2 exp ( κ x ) ) ) dağılımına sahip olması gerektiğini varsayar ; burada f , log olasılıklarını tekrar bir olasılığa dönüştüren link fonksiyonu. Bu bir binom GLM'dir. Örneğin, bu her ne kadar açıkça de doğrusal olmayan içinde XκYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxHerhangi bir değeri verilen bunun doğrusal parametreleri de p 0 , β 1 ve β 2 . GLM ayarındaki " doğrusallık" , f - 1'in ( E [ Y ] ) , her bir x için katsayıları bilinen bu parametrelerin doğrusal bir kombinasyonu olduğu anlamında anlaşılmalıdır . Ve bunlar: 1'e eşittir ( β 0 katsayısı ), x'in kendisi ( β 1 katsayısı ) ve - expκβ0β1β2f1(E[Y])x1β0xβ1 ( β 2 katsayısıexp(κx)β2 ).

Bu model - biraz yeni olmasına rağmen ve parametrelerinde tamamen doğrusal olmasa da - keyfi olasılığını en üst düzeye çıkararak ve bu maksimumun en büyük olduğu κ'yi seçerek standart yazılım kullanılarak sığabilir . BuradaκκRVerilerden başlayarak bunu yapmak kod:

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Teknik zorluk yok; hesaplama sadece 1/30 saniye sürer.

şekil 2

Mavi eğri, yanıtın uygun beklentisidir, E[Y] .

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Soruların cevapları:

Bu işlevsel ilişkiler sınıfını temsil eden bağlantı işlevlerini bulmak için hangi terimleri aramalıyım?

Hiçbiri : link fonksiyonunun amacı bu değildir.

Şu anda yalnızca monotonik yanıtlar için olan mevcut [bağlantı işlevlerini] genişletmek için ne aramalıyım?

Hiçbir şey değil : Bu, yanıtların nasıl modellenmiş olduğunun yanlış anlaşılmasına dayanmaz.

Açıkçası, önce bir regresyon modeli oluştururken hangi açıklayıcı değişkenlerin kullanılacağı veya yapılacağı üzerinde durulmalıdır . Bu örnekte önerildiği gibi, geçmiş deneyimlerden ve teoriden rehberlik arayın.


harika cevap! Bu gerçek veriler romanda yer alıyor mu?
Cam.Davidson.Pilon

1
@ Kamera Veriler son kesime girmedi :-). (Bağlam oldukça
yanaktaki dildir

1
κ

5
κκχ2(1)

1
@zipzapboing Burada verdiğim örnek özel bir teori tarafından bilgilendirildiği için özel. Bu tür bilgiler mevcut olduğunda, bir model seçmek için güçlü bir rehber olabilir. Bununla birlikte, birçok durumda, böyle bir bilgi yoktur ya da sadece beklenen yanıtın regresörler ile monoton olarak değişebileceğini umar. Belki de belirtilebilecek en temel neden, cevabın regresörlere göre farklı şekilde değişmesi ve verilerdeki regresörlerin çeşitliliği için türevdeki değişimin küçük olması umududur: doğrusal bir tepki o kadar iyi olur.
whuber

9

Suçlu bir şekilde masasındaki ölmekte olan tesise benziyor .... görünüşe göre değil

Yorumlarda @whuber, “modelleme seçimlerinin, ilgili disiplinlerdeki teoriler tarafından neyin veri ürettiği ve neyin motive edildiğinin anlaşılmasıyla bilgilendirilmesi gerektiğini” söyler;

Michaelis ve Menten kinetiği aslında oldukça faydalı bir örnektir. Bu denklemler bazı varsayımlarla (örneğin, substrat kompleksiyle dengededir, enzim tüketilmez) ve bazı bilinen prensiplerle (kitle eylem yasası) başlayarak türetilebilir. Murray'in Matematiksel Biyolojisi: Bir Giriş bölüm 6'daki türevden geçer (diğer birçok kitabın da bahse girerim!).

Daha genel olarak, modellerin ve varsayımların bir “repertuarının” oluşturulmasına yardımcı olur. Alanınızın yaygın olarak kabul gören, zaman test edilmiş bazı modelleri olduğundan eminim. Örneğin, bir şey şarj oluyor veya boşalıyorsa, geriliminin zamanın bir fonksiyonu olarak modellenmesi için bir üstel değere ulaşacağım. Tersine, bir voltaj-zaman grafiğinde üstel benzeri bir şekil görürsem, ilk tahminim devredeki bir şeyin kapasitif olarak boşalması ve ne olduğunu bilmiyorsam, onu bulmaya çalışırdım. İdeal olarak, teori hem modeli oluşturmanıza hem de yeni deneyler önermenize yardımcı olabilir.

y=k(x+h)2CO2 daha az terlemeden yakalama?) ve sel (kökleri yiyen bakteriler?) her bir parça için belirli bir form önerebilir.


8

Bilimsel hayatının yarısını tezgahta, diğer yarısını bilgisayarda istatistiklerle oynayarak geçiren birinin bakış açısından oldukça gayri resmi bir yanıt aldım. Bir yorum yapmaya çalıştım, ama çok uzundu.

Gördüğünüz gibi, elde ettiğiniz sonuçları gözlemleyen bir bilim adamı olsaydım, çok heyecanlanırdım. Çeşitli monotonik ilişkiler sıkıcı ve neredeyse ayırt edilemez. Ancak, bize gösterdiğiniz ilişki türü çok özel bir etki ortaya koymaktadır. Kuramcı için ilişkinin ne olduğu, aşırı uçlarda nasıl değiştiği hakkında hipotezler öne sürdüğü için harika bir oyun alanı sağlıyor. Tezgah bilim insanının neler olduğunu anlaması ve koşullar üzerinde geniş çapta deney yapması için harika bir oyun alanı sağlar.

Bir anlamda, basit bir modele sahip olmaktan ziyade basit bir modele nasıl sığacağınızı (ancak yeni bir hipotez çalıştırabileceğinizi) göstermeyi tercih ediyorum ve modellemesi kolay ama mekanik olarak araştırılması daha zor. Ancak, pratiğimde henüz böyle bir dava ile karşılaşmadım.

Son olarak, bir nokta daha var. Siyahın kırmızıdan farklı olduğunu gösteren bir test arıyorsanız (verilerinizde) - eski bir tezgah bilimcisi olarak, neden rahatsız bile ettim? Şekilden yeterince açık.


5

Böyle veriler için, muhtemelen en azından doğrusal spline'ları düşünürdüm.

Bunları lm veya glm olarak kolayca yapabilirsiniz.

Böyle bir yaklaşımı benimserseniz, sorununuz düğüm ve düğüm konumlarını seçmek olacaktır; bir çözüm, çok sayıda olası yeri dikkate almak ve küçük bir seti tanımlamak için kement veya diğer düzenleme ve seçim yöntemleri gibi bir şey kullanmak olabilir; yine de bu tür bir seçimin çıkarımdaki etkisini dikkate almanız gerekir.


Ancak spline regresyon temel olarak "yanıtın şeklini tanımlayan bilinmeyen bir fonksiyon var ve sadece diğer değişkenlerin bu eğriyi yukarı / aşağı nasıl kaydırdığı ya da eğdiğine dair hipotezleri test edeceğiz" demiyor mu? Bir tedavi şeklin kendisini değiştirirse - eğer böyle bir etkileşim terimi önemliyse nasıl yorumlanır?
f1r3br4nd

2
Alternatif ne kadar geneldir? Genel durum için bile, aynı parametrik olmayan fonksiyonların ayrı olanlara karşı olduğu varsayımıyla uygunluğu karşılaştırabileceğiniz çeşitli yaklaşımlar vardır. Katkı modelleri ve genelleştirilmiş katkı modelleri bu karşılaştırmalar ile başa çıkabilir.
Glen_b

Görüştüğünüzden daha genel bir durum örneği olarak (çeşitli diğer yaklaşımları tartışan referanslarla), eğer bunu başarabiliyorsanız, bu makaleye bir göz atın J.Roca-Pardiñas ve diğerleri (2006) "Bootstrap tabanlı genelleştirilmiş katkı modellerinde faktörler arası etkileşimleri test etme yöntemleri: karar verme ile ilgili prefrontal korteks nöral aktivitesinin değerlendirilmesi ", Tıpta İstatistikler , 30 Temmuz; 25 (14): 2483-501. Bu makalede önyükleme (ve hesaplama yükünü azaltmak için binning) kullanıyorlar, ancak burada başka yaklaşımlar da var.
Glen_b

Daha temel ve daha eski bir referans Hastie ve Tibshirani (1990), Genelleştirilmiş Katkı Modelleri (ör. P265) gibi bir şey olacaktır . Ayrıca, burada , özellikle, 34. slayttaki son denklemi inceleyin. Orada ayrıca gamR paketinde bu tür bir modelin nasıl takılacağını açıklar mgcv.
Glen_b

2

Tüm yazınızı okumak için zamanım yoktu, ancak asıl endişeniz, işlevsel cevap formlarının tedavilerle değişebileceği gibi görünüyor. Bununla başa çıkma teknikleri vardır, ancak bunlar veri yoğundur.
Özel örneğiniz için:

G büyüme W su S T tedavi

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

Son on yıl, yarı parametrik regresyon üzerine bir ton araştırma gördü ve fonksiyonel formlarla ilgili bu sığır eti giderek daha yönetilebilir hale geliyor. Ancak günün sonunda, istatistikler sayılarla oynuyor ve gözlem altındaki olgular hakkında sezgi oluşturduğu için yararlıdır. Bu da sayıların nasıl oynandığını anlamayı gerektirir. Gönderinizin tonu, bebeği banyo suyuyla dışarı atmaya istekli olduğunu gösterir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.