ilişkinin doğrusal olup olmadığını görmek için istatistiksel test


9

Aşağıdaki gibi bir örnek veri kümesi var:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

resim açıklamasını buraya girin

Şekilde, belirli bir 'Hacim' ve 'Güç' aralığı arasında ilişkinin doğrusal olduğu, daha sonra 'Hacim' nispeten küçük hale geldiğinde ilişkinin doğrusal olmadığı öne sürülebilir. Bunu açıklamak için istatistiksel bir test var mı?

OP'ye verilen yanıtlarda gösterilen bazı önerilerle ilgili olarak:

Burada gösterilen örnek sadece bir örnektir, sahip olduğum veri kümesi, daha gürültülü olmasına rağmen burada görülen ilişkiye benziyor. Şimdiye kadar yaptığım analiz, belirli bir sıvının hacmini analiz ettiğimde, düşük bir hacim olduğunda bir sinyalin gücünün büyük ölçüde arttığını göstermektedir. Yani, sadece hacmin 15-20 arasında olduğu bir ortamım vardı, neredeyse doğrusal bir ilişkiye benzeyecekti. Bununla birlikte, nokta aralığını artırarak, yani daha küçük hacimlere sahip olarak, ilişkinin hiç doğrusal olmadığını görüyoruz. Şimdi bunu istatistiksel olarak nasıl göstereceğime dair bazı istatistiksel tavsiyeler arıyorum. Umarım bu mantıklıdır.


5
Burada birkaç şey oluyor. İlk olarak, tabii bir ilişki değişken aralıkları uygun olarak kısıtlanır Resim doğrusal bakacağız. İkincisi, verilerin heteroseladastisitesi neredeyse doğrusal olmayan ilişki kadar belirgin bir özelliktir: saçılma yüksek hacimlerde ve düşük güçlerde düşük hacimlerde ve yüksek güçlerde olduğundan daha büyüktür. Ne olursa olsun, tam olarak neyi test etmek istersiniz? Tüm aralıktaki ilişkinin doğrusallığı?
whuber

4
Aslında, hetero-esneklik hakkındaki sözleri geri almak istiyorum: arsa böyle bir görünüm veriyor , ancak daha düşük hacimlerde nispeten dik eğimlerin neden olduğu bir yanılsama. (Güç açısından hacim son derece heterosladastik bir ilişkiye sahiptir.) Güçteki varyasyonun heteroscedastik olmadığını belirlediğimizde , bu bazı analiz türlerini (gücün doğrusal olmayan dönüşümlerini uygulamak istemeyiz) dışlar doğrusallık açıkça belirlendikten sonra diğerlerini (doğrusal olmayan en küçük kareler veya genelleştirilmiş doğrusal model gibi) tercih eder.
whuber

Şimdi eldeki sorunun kısa bir açıklamasını ekledim. Şimdiye kadarki yorumlarınız için teşekkürler, bunlar gerçekten takdir ediliyor ve sorun hakkında düşünmeme yardımcı oluyor.
KatyB

İkinci dereceden etki için neden test edilmiyor?
AdamO

2
@Simon Herhangi bir test kullanmadım, ancak yine de, hacmin karşı tipik tortu büyüklüğünü çizerek bunun homoscedastik olduğunu görebilirsiniz . İşte bazı bulunuyor Rkodu: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Tüm aralıkta neredeyse sabit bir kalıntı boyutu gösterir.
whuber

Yanıtlar:


4

Bu temel olarak bir model seçim problemidir. Bir dizi fiziksel olarak akla yatkın model (doğrusal, üstel, belki de süreksiz doğrusal bir ilişki) seçmenizi ve @whuber'ın işaret ettiği heteroseladastisite sorununu akılda tutarak en iyi olanı seçmek için Akaike Bilgi Kriteri veya Bayes Bilgi Kriteri'ni kullanmanızı öneririm.


2

Bunu googling etmeyi denedin mi? Bunu yapmanın bir yolu, modelinize daha yüksek güç veya diğer doğrusal olmayan terimler sığdırmak ve katsayılarının 0'dan önemli ölçüde farklı olup olmadığını test etmektir.

Burada bazı örnekler var http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

Sizin durumunuzda, hacim <5 için doğrusallık ve hacim> 5 için doğrusallığı test etmek için veri kümenizi iki bölüme ayırmak isteyebilirsiniz.

Sahip olduğunuz diğer sorun, verilerinizin heteroskedastik olmasıdır, bu da regresyon verileri için normalite varsayımını ihlal eder. Sağlanan bağlantı bunun için test örnekleri de verir.


Bağlantı koptu.
Jatin

2

Tüm verilerinize bir model sığdırmak için doğrusal olmayan regresyon kullanmanızı öneririm. Rastgele bir hacim seçmenin ve bir modeli bundan daha düşük hacimlere ve başka bir modeli daha büyük hacimlere uydurmanın anlamı nedir? Şeklin görünüşünün ötesinde, 5'i keskin bir eşik olarak kullanmak için herhangi bir neden var mı? Belirli bir hacim eşiğinden sonra ideal eğrinin doğrusal olduğuna gerçekten inanıyor musunuz? Hacim arttıkça yatay yaklaşması daha olası değil, ama asla tam olarak doğrusal değil mi?

Elbette, analiz aracının seçimi, hangi bilimsel soruları cevaplamaya çalıştığınıza ve sistem hakkındaki önceden bilginize bağlı olmalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.