Binlerce puanlık sırada birkaç veri setim var. Her veri kümesindeki değerler, uzayda bir koordinat anlamına gelen X, Y, Z'dir. Z değeri, koordinat çiftindeki (x, y) yükseklik farkını temsil eder.
Tipik olarak CBS alanımda, yer-doğruluk noktası bir ölçüm noktasına (LiDAR veri noktası) çıkarılarak RMSE'de yükseklik hatasına referans verilir. Genellikle en az 20 yerden doğru kontrol noktası kullanılır. Bu RMSE değerini kullanarak, NDEP (Ulusal Dijital Yükseklik Yönergeleri) ve FEMA yönergelerine göre, bir doğruluk ölçüsü hesaplanabilir: Doğruluk = 1.96 * RMSE.
Bu Doğruluk şu şekilde ifade edilir: "Temel dikey doğruluk, dikey doğruluğun veri kümeleri arasında eşit olarak değerlendirilebildiği ve karşılaştırılabildiği değerdir. Temel doğruluk, dikey RMSE'nin bir fonksiyonu olarak yüzde 95 güven düzeyinde hesaplanır."
Normal dağılım eğrisinin altındaki alanın% 95'inin 1.96 * std.deviation içinde olduğunu anlıyorum, ancak bu RMSE ile ilgili değildir.
Genellikle bu soruyu soruyorum: 2 veri kümesinden hesaplanan RMSE'yi kullanarak, RMSE'yi bir tür doğrulukla nasıl ilişkilendirebilirim (yani veri noktalarının yüzde 95'i +/- X cm içinde)? Ayrıca, veri kümemin normalde böyle büyük bir veri kümesiyle iyi çalışan bir test kullanılarak dağıtılıp dağıtılmadığını nasıl belirleyebilirim? Normal dağılım için "yeterince iyi" nedir? Tüm testler için p <0.05 olmalı mı, yoksa normal dağılımın şekli ile eşleşmeli mi?
Aşağıdaki makalede bu konu hakkında çok iyi bilgiler buldum:
http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf