Tahmin yapmak için bir regresyon modeli kullanma: Ne zaman durmalı?


9

Tahminler yapmak için deney ölçümlerimden basit bir doğrusal regresyon modeli hesapladım. Mevcut verilerden çok uzak olan noktalara ilişkin tahminleri hesaplamamanız gerektiğini okudum. Ancak, ne kadar ileri gidebileceğimi bilmeme yardımcı olacak herhangi bir rehber bulamadım. Örneğin, 50GB disk boyutu için okuma hızını hesaplarsam sonuç sanırım gerçeğe yakın olur. 100GB, 500GB disk boyutuna ne dersiniz? Tahminlerimin gerçeğe yakın olup olmadığını nasıl anlarım?

Denememin detayları:

Farklı disk boyutu kullanarak bir yazılımın okuma hızını ölçüyorum. Şimdiye kadar deneyler arasında 5GB disk boyutunu artırarak 5GB ila 30GB arasında ölçtüm (toplam 6 ölçü).

Sonuçlarım doğrusal ve standart hatalar bence küçük.


2
Yararlı cevaplar almak için 2. cümlenizi büyük ölçüde genişletmeniz ve netleştirmeniz gerekeceğini düşünüyorum.
rolando2

rolando2 haklı. Ne demek "çok fazla tahmin"?
David Robinson

Okuduğum belgede kullanılan terimleri tam olarak bulamıyorum. Fikir "orijinal önlemlerimden çok uzakta". 30 GB disk ile okuma hızını ölçtüm. 100 GB'lık bir diskin okuma hızını tahmin edersem, bu "çok uzak" mı?
Flanfl

Gung'un cevabı, ilgili konuların ana hatlarını çizmek için yeterlidir. özel durumunuzda yardımcı olabilecek ek bir şey, yazılım okuma ile ilgili fiziksel süreci dikkate almaktır. Ne tür operasyonlar yapılmalıdır? yazılımın diski okuma işleminin bir parçası olarak organize etmesi veya sıralaması gerekir mi? bu sorular doğrusallık varsayımı için bazı temeller sağlayacaktır
olasılık

Yanıtlar:


19

Aradığınız terim 'ekstrapolasyon'dur. Sorun, ne kadar veriye sahip olduğunuz ve disk boyutundaki uç noktalarınız arasında (yani 5 ile 30 arasında) ne kadar ara seviyeniz olduğuna bakılmaksızın, gerçek altta yatan işlevde bir dereceye kadar eğrilik olması her zaman mümkündür , sadece algılama gücünüz yok. Sonuç olarak, uç noktadan uzağa ekstrapolasyon yaptığınızda, gerçek fonksiyonun fit çizginizden daha da uzaklaştığı için, küçük bir eğrilik derecesi büyütülür. Başka bir olasılık, gerçek fonksiyonun incelenen aralıkta gerçekten mükemmel olması, ancak belki de çalışmanızın bitiş noktasından belirli bir mesafede bir değişiklik noktasının olmasıdır. Bu tür şeyleri göz ardı etmek imkansızdır; soru, gerçek olmaları durumunda tahminleriniz ne kadar olası ve ne kadar yanlış olur? Bu sorulara nasıl analitik bir cevap verileceğini bilmiyorum. Benim önsezim, çalışılan aralık [5, 30] olduğunda 500'ün çok uzun bir yol olduğu, ancak önsezimin sizinkinden daha değerli olduğunu düşünmek için gerçek bir neden yok. Tahmin aralıklarını hesaplamak için standart formüller, sizden uzaklaştıkça size genişleyen bir aralık gösterirx¯ , bu aralığın neye benzediğini görmek yardımcı olabilir. Bununla birlikte, çizginin gerçekten mükemmel bir şekilde düz olduğuna ve tahmin için kullanacağınız değerine kadar çıkmaya devam ettiğine dair teorik bir varsayım yaptığınızı aklınızda bulundurmanız gerekir . Bu tahminin meşruiyeti hem veri ve uyum hem de bu varsayım üzerine bağlıdır. x


2
Tamamen katılıyorum (+1). Bu sorunun cevabı kesinlikle istatistiksel olamaz. Bir yazılım ve bilgisayar mühendisiyle konuşmak burada alakalı olacaktır!
Dominic Comtois

Cevabınız için teşekkürler, gerçekten yararlı. Kendi kendime öğrettim, bu yüzden çok fazla temel bilgiyi (kelime bilgisini bilmek gibi) kaçırıyorum.
Flanfl

Güven aralığının genişliğinin tersi, bir tür "güç" tahmininin bir göstergesi olarak düşünülemez mi? Açıkçası bunu kullanmak için bazı keyfi değerleri
seçmeniz

2
@ naught101, regresyon çizgisinin mükemmel derecede düz olduğunu varsaymaya istekli iseniz, o zaman tahmin aralığının genişliği tahmin gücünün bir ölçüsü olarak düşünülebilir (zayıf tahminleri gösteren daha geniş aralıklarla), ama yine de bu varsayım üzerine bağlı.
gung - Monica'yı eski durumuna getirin

7

@ Gung'un mükemmel cevabına birkaç puan ekleyeyim:

  • Alanınıza bağlı olarak, ilgili normlar olabilir (DIN / EN veya ISO'da olduğu gibi). Bu muhtemelen sabit disk okuma hızını tahmin etmede bir sorun değildir, ancak örneğin analitik kimyada kural ekstrapolasyon değildir . Dönemi. 500 GB'a kadar gitmek istiyorsanız, 500 GB'a kadar bazı ölçümler yapın.

  • Doğrusal bir model kurmanın olağan yolunun iki önemli varsayımı vardır

    • Açıkçası, fonksiyon doğrusaldır. Uygulamada, doğrusallığın sonsuza kadar uzantığı genellikle iyi bir varsayım değildir. Örneğin, sabit disk biriminden daha büyük miktarlar okursanız hala doğrusallık bulabilir misiniz?

    • Genellikle homoskedastisite de varsayılır. Bu, mutlak hata / gürültü miktarının bağımlı ( ) değişkenine bağlı olmadığı anlamına gelir , burada: okunacak veri miktarı. Sabit disk okumaları hakkında emin değilim, ancak (kimya / kemometri) genellikle sabit mutlak ve sabit göreli gürültü (veya farklı gürültü kaynaklarından dolayı daha karmaşık davranışlar) arasında bir şey yaşıyorum. Sabit mutlak gürültü rejiminden herhangi bir sapma, ekstrapolasyon için tahmin aralıklarının çok yanlış olduğu anlamına gelir - genellikle çok dar olacaktır.x

  • Bu varsayımlar karşılansa bile, bu tür bir ekstrapolasyon için tahmin aralığının gerçekte ne kadar büyük olduğunu düşünün:

    lm kalibrasyon aralığı lm ekstrapolasyon

    (Çok güzel bir ölçümün gerçek kalibrasyon verilerini aldım ve probleminize uyarladım).
    En öngörü aralığı o Not = 500 zaten büyük iki kat toplam fark olarak senin Kalibrasyon veri açıklıklı! Eğer bu kadar güzel bir doğrusal veri setiniz yoksa, tahmin aralığı sadece "patlayacaktır".xt


1
+1, özellikle homoscedasticity varsayımı buradaki tartışmaya güzel bir ektir. ( "Dot" tarafından Küçük notu, demek istiyorsun Dönemi. Bir önceki cümlede belirtilen kural nihailiğini vurgulayan bir yolu olarak?)
Gung - Eski Monica

@gung: Eğer kelime kelime ise o zaman demek istediğim :-) teşekkürler.
Sb ile mutsuz cbeleites

2
Bir nokta "nokta" olarak adlandırmak yalnızca bilgisayar terminolojisinde ve özellikle URL'ler için kullanılır (örn., "İstatistik nokta stackexchange dot com"). İngilizce, muhtemelen yaklaşık 20 yaşında oldukça yeni bir kullanımdır.
gung - Monica'yı eski

1
Ek puanlarınız için teşekkürler. Çalışmamı bir süre önce bitirdim ama umarım bu sorunun yanıtı diğer öğrencilere de yardımcı olacaktır!
Flanfl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.