RMSE'ye dayalı bir doğruluk ölçüsü nasıl hesaplanır? Büyük veri kümem normal olarak dağıtılıyor mu?


9

Binlerce puanlık sırada birkaç veri setim var. Her veri kümesindeki değerler, uzayda bir koordinat anlamına gelen X, Y, Z'dir. Z değeri, koordinat çiftindeki (x, y) yükseklik farkını temsil eder.

Tipik olarak CBS alanımda, yer-doğruluk noktası bir ölçüm noktasına (LiDAR veri noktası) çıkarılarak RMSE'de yükseklik hatasına referans verilir. Genellikle en az 20 yerden doğru kontrol noktası kullanılır. Bu RMSE değerini kullanarak, NDEP (Ulusal Dijital Yükseklik Yönergeleri) ve FEMA yönergelerine göre, bir doğruluk ölçüsü hesaplanabilir: Doğruluk = 1.96 * RMSE.

Bu Doğruluk şu şekilde ifade edilir: "Temel dikey doğruluk, dikey doğruluğun veri kümeleri arasında eşit olarak değerlendirilebildiği ve karşılaştırılabildiği değerdir. Temel doğruluk, dikey RMSE'nin bir fonksiyonu olarak yüzde 95 güven düzeyinde hesaplanır."

Normal dağılım eğrisinin altındaki alanın% 95'inin 1.96 * std.deviation içinde olduğunu anlıyorum, ancak bu RMSE ile ilgili değildir.

Genellikle bu soruyu soruyorum: 2 veri kümesinden hesaplanan RMSE'yi kullanarak, RMSE'yi bir tür doğrulukla nasıl ilişkilendirebilirim (yani veri noktalarının yüzde 95'i +/- X cm içinde)? Ayrıca, veri kümemin normalde böyle büyük bir veri kümesiyle iyi çalışan bir test kullanılarak dağıtılıp dağıtılmadığını nasıl belirleyebilirim? Normal dağılım için "yeterince iyi" nedir? Tüm testler için p <0.05 olmalı mı, yoksa normal dağılımın şekli ile eşleşmeli mi?


Aşağıdaki makalede bu konu hakkında çok iyi bilgiler buldum:

http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf


4
Dikkat et! Ks.test kullanımınız yanlış. Göre yardım sayfasında , bunun yerine 'dnorm' arasında 'pnorm' kullanmak gerekir. Dahası, karşılaştırma dağılımının parametrelerini numunenin ortalamasına ve SD'sine ayarlamak p-değerini önemli ölçüde şişirir: "Tek bir numune testi kullanılıyorsa, ... 'da belirtilen parametreler önceden belirtilmeli ve veri."
whuber

3
Aslında, bu formül size bir güven aralığı vermeyecektir: bunun için çok büyük olacaktır. Gerçekten, tüm farklılık popülasyonunun% 95'inin ortası olan bir tolerans aralığını tahmin etmenin kaba (ama standart) bir yoludur . Farkları varsaymak için iyi nedenleri vardır değil normal bir dağılıma sahip: Daha büyük mutlak farklar büyük topografik yamaçları ile ilişkili olma eğilimindedir. 4000 puanınızın bu farklılıkların rastgele bir örneği olduğunu varsayarsak, neden 2.5 ve 97.5 persentillerini rapor etmiyorsunuz?
whuber

4
Verileriniz ölçülebilen yüksekliklerin istatistiksel bir örneğini oluşturur. "Doğruluk" hakkında konuştuğunuzda, DEM'lerinizin tüm yükseklik popülasyonunu ne kadar yakından temsil ettiği hakkında iddiada bulunuyorsunuz . Sizin durumunuzda, veri kümelerini karşılaştırarak doğruluğu değerlendirmek imkansızdır: verilerinizi “gerçekleĢtirmeniz” gerekir. Bu nedenle, yönergeler gerçekten iki veri kümesinin göreceli anlaşması hakkında konuşuyor . Son olarak, daha önce açıkladığım gibi, "güven düzeyi" kullanımları yanlıştır. Böyle korkunç bir rehberlik çerçevesinde çalışmanız gerektiğini kabul ediyorum, ancak neyin doğru olduğunu bilmeyi hak ediyorsunuz.
whuber

3
Bu sizin için yararlı bir soru gibi geliyor. Henüz yanıt almadığınız için, neden bu soruyu açıkladığınız bilgileri bu yorumları içerecek şekilde tamamen düzenlemiyorsunuz? Biraz genişletmenizi öneririm: yönergeleri verdikten sonra (genellikle alanınızda hangi tür yöntemlerin kullanıldığını göstermek için), doğruluk derecesini değerlendirmek için genellikle yükseklikteki sıralı farklılık çiftlerinin dağılımını nasıl kullanacağınızı sorabilirsiniz ( veri kümelerinin referansıdır).
whuber

2
Tümü: Yorumumdaki değişiklikleri yansıtacak şekilde ana yazı ve sorum güncellenmiştir.
Matthew Bilskie

Yanıtlar:


1

2 veri kümesinden hesaplanan RMSE kullanarak, RMSE'yi bir tür doğrulukla nasıl ilişkilendirebilirim (yani veri noktalarımın yüzde 95'i +/- X cm dahilinde)?

Neredeyse yinelenen bir soruyu inceleyin: RMSE'nin güven aralığı ?

Büyük veri kümem normal olarak dağıtılıyor mu?

İyi bir başlangıç, zdeğerlerin ampirik dağılımını gözlemlemek olacaktır . İşte tekrarlanabilir bir örnek.

set.seed(1)
z <- rnorm(2000,2,3)
z.difference <- data.frame(z=z)

library(ggplot2)

ggplot(z.difference,aes(x=z)) + 
  geom_histogram(binwidth=1,aes(y=..density..), fill="white", color="black") +
  ylab("Density") + xlab("Elevation differences (meters)") +
  theme_bw() + 
  coord_flip()

resim açıklamasını buraya girin

İlk bakışta normal görünüyor, değil mi? (aslında, bunun normal olduğunu biliyoruz çünkü kullandığımız rnormkomut).

Veri kümesi üzerindeki küçük örnekleri analiz etmek isterse, Shapiro-Wilk Normallik Testi vardır.

z_sample <- sample(z.difference$z,40,replace=T)
shapiro.test(z_sample) #high p-value indicates the data is normal (null hypothesis)

    Shapiro-Wilk normality test

data:  z_sample
W = 0.98618, p-value = 0.8984 #normal

Ayrıca, SW testini farklı küçük numuneler üzerinde birçok kez tekrarlayabilir ve ardından dağıtımına bakabilirsiniz p-values.

Büyük veri kümelerinde normallik testlerinin Greg Snow tarafından sağlanan bu cevapta açıklandığı kadar yararlı olmadığını unutmayın .

Öte yandan, gerçekten büyük veri kümeleri ile merkezi limit teoremi devreye girer ve ortak analizler (regresyon, t-testleri, ...) için popülasyonun normal olarak dağıtılıp dağıtılmadığını umursamazsınız.

Temel kural qq-komplo yapmak ve sormaktır, bu yeterince normal mi?

Şimdi bir QQ grafiği yapalım:

#qq-plot (quantiles from empirical distribution - quantiles from theoretical distribution)
mean_z <- mean(z.difference$z)
sd_z <- sd(z.difference$z)
set.seed(77)
normal <- rnorm(length(z.difference$z), mean = mean_z, sd = sd_z)

qqplot(normal, z.difference$z, xlab="Theoretical", ylab="Empirical")

resim açıklamasını buraya girin

Noktalar y=xçizgide hizalanırsa , ampirik dağılım, bu durumda normal dağılım olan teorik dağılımla eşleşir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.