Deneysel verileri temsil etme


9

Danışmanımla veri görselleştirme hakkında bir tartışma var. Deneysel sonuçları temsil ederken değerlerin aşağıdaki resimde gösterildiği gibi yalnızca " işaretleyiciler " ile çizilmesi gerektiğini iddia etmektedir . Eğriler yalnızca bir " modeli " temsil etmelidir

Markers.png

Öte yandan, aşağıdaki görüntüde gösterildiği gibi, okunabilirliği kolaylaştırmak için bir eğrinin birçok durumda gereksiz olduğuna inanıyorum:

Lines.png

Yanlış mıyım yoksa profesörüm? Daha sonra olan durum buysa, bunu ona açıklamak için nasıl dolaşırım?


5
Noktalar verilerdir. Noktalara uyduğunuz eğriler veri değildir. Yani niyetiniz verileri göstermekse ....

3
JeffE'nin dediği gibi. Hatta daha açık olmak gerekirse: Eğer çizilen eğriler vardır onları çizerken belirli bir şekil almış ve bu şekil için bazı mantık vardı çünkü bir model. Bu akıl yürütme belirli bir modele dayanmaktadır.
gerrit

1
Bir taşıma isteği gönderdim; bu gerçekten çapraz değerli, burada değil.

2
Sanırım CrossValidated ile ilgili bir konu olabilir, ama kesinlikle burada da konu ile ilgili . Geçiş yalnızca burada konu dışı olduğunda düşünülmelidir (iki sitede konuyla ilgili olabilecek sorular var, sorun değil). Geçerli cevapları olan gerçek bir soru, birçok akademisyen için kesinlikle geçerli.

2
İkinci grafiğiniz şüpheli. Noktalara düz çizgilerle katılırsanız, (belki) görsel netlik için bir argümanınız vardır. Ancak bir eğri kullanarak, bu sıcaklıklarda deneysel verileriniz olmasa bile, mavi çizgi pikinin 740 ° 'de olduğunu ve mor çizgi minimumunun 840 °' de olduğunu iddia ediyorsunuz. Ölçülen verinin dışına min / max konulması kırmızı bir işarettir.
Darren Cook

Yanıtlar:


10

Bu başparmak kuralını seviyorum:

Eğer göz rehberlik hattını gerekiyorsa (yani çizgi olmadan şeklinde açıkça görülebilir olmayacağını bir eğilim göstermek için), sen gerektiğini değil çizgiyi koydu.

İnsanlar kalıpları tanımada son derece iyidir (mevcut bir eğilimi kaçırmaktan ziyade var olmayan eğilimleri görmenin yanındayız). Eğilimi çizgisiz olarak elde edemezsek, veri setinde hiçbir eğilimin kesin olarak gösterilemeyeceğinden emin olabiliriz.

İkinci grafikten bahsederken, ölçüm noktalarınızın belirsizliğinin tek göstergesi, 700 ° C'de C: O 1.2'nin iki kırmızı karesidir. Bu ikisinin yayılması, kabul etmeyeceğim anlamına gelir.

  • C: O 1.2 için bir eğilim olduğunu
  • 2.0 ve 3.6 arasında bir fark olduğunu
  • ve elbette kavisli modeller verilere uyuyor.

çok iyi sebepler olmadan. Ancak bu yine bir model olacaktır.


edit: Ivan'ın yorumuna cevap:

Ben kimyacıyım ve hatasız bir ölçüm olmadığını söyleyebilirim - kabul edilebilir olan deney ve cihaza bağlı olacaktır.

Bu cevap deneysel hatayı göstermeye karşı değil, hepsini göstermek ve hesaba katmak içindir.

Akıl yürütmemin arkasındaki fikir, grafiğin tam olarak bir tekrarlanan ölçüm göstermesidir, bu nedenle tartışma, bir modelin ne kadar karmaşık olması gerektiği (yani yatay çizgi, düz çizgi, ikinci dereceden, ...) olduğunda, bu bize ölçüm hakkında bir fikir verebilir. hata. Sizin durumunuzda, bu, kuadratik olması gerektiğini gösteren sert bir modeliniz (örn. Termodinamik veya kinetik denklem) olsa bile, anlamlı bir kuadratik (spline) sığamayacağınız anlamına gelir - yeterli veriye sahip değilsiniz. .

Bunu göstermek için:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

İşte C: O oranlarının her biri için% 95 güven aralığı ile birlikte doğrusal bir uyum:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

doğrusal model

Daha yüksek C: O oranları için güven aralığının 0'ın çok altında olduğunu unutmayın. Bu, doğrusal modelin örtülü varsayımlarının yanlış olduğu anlamına gelir. Ancak, daha yüksek C: O içerikleri için doğrusal modellerin zaten gereğinden fazla olduğu sonucuna varabilirsiniz.

Bu nedenle, geri adım atmak ve sadece sabit bir değere uymak (yani T bağımlılığı yok):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

T bağımlılığı yok

Tamamlayıcı C: O'ya bağımlılık modellememektir:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

C: O bağımlılığı yok

Yine de, güven aralığı yatay veya hatta biraz artan çizgileri kapsayacaktır.

Devam edebilir ve örneğin, üç C: O oranı için farklı ofsetlere izin vermeyi, ancak eşit eğimler kullanmayı deneyebilirsiniz.

Bununla birlikte, daha az sayıda ölçüm durumu büyük ölçüde iyileştirecektir - C: O = 1: 1 için güven aralıklarının ne kadar daha dar olduğuna dikkat edin, burada sadece 3 yerine 4 ölçümünüz vardır.

Sonuç: Şüpheci olacağım sonuçlarımı karşılaştırırsanız, mevcut birkaç noktaya çok fazla okuyorlardı!


çok iyi bir noktaya değindin. Bununla birlikte, mühendislikte deneysel hata (belirsizlik) çok yaygındır ve% 3 ~ 5 göreceli hatanın kabul edilebilir olduğu varsayılmaktadır. Yine de MAX, MIN ve AVG sonuçlarını göstermem gerekiyor. Benim durumumda belirteçler ekstremiteler ve çizgi ortalama.
Ivan P.

çok iyi ve son derece yararlı bir örnek (R ile ilgileniyorsun). Yani, elbette yapılacak doğru şey daha fazla veri noktası elde etmektir.
Ivan P.

12

JeffE dediği gibi: noktalar şunlardır veriler . Genel olarak, eğrileri mümkün olduğunca eklemekten kaçınmak iyidir. Eğri eklemenin bir nedeni, noktaları ve noktalar arasındaki eğilimi daha okunaklı hale getirerek grafiği göze daha hoş hale getirmesidir. Bu, özellikle az veri noktanız varsa geçerlidir.

Ancak, seyrek verileri görüntülemenin , dağılım grafiğinden daha iyi olabilecek başka yolları da vardır . Bir olasılık, çeşitli çubukların tek noktalarınızdan çok daha görünür olduğu bir çubuk grafiktir. Bir renk kodu (şekilinizde zaten bulunanlara benzer), her veri serisindeki eğilimleri görmenize yardımcı olacaktır (veya veri serileri bölünebilir ve daha küçük bireysel çubuk grafiklerde yan yana sunulabilir).

Son olarak, sembollerinize gerçekten bir tür çizgi eklemek istiyorsanız, iki durum vardır:

  1. Belirli bir modelin verileriniz için geçerli olmasını bekliyorsanız (doğrusal, harmonik, ne olursa olsun), verilerinizi modele sığdırmalı, metni metinde açıklamalı ve veri ile model arasındaki anlaşma hakkında yorum yapmalısınız.

  2. Veriler için makul bir modeliniz yoksa , grafiğinize fazladan varsayımlar eklememelisiniz . Özellikle, noktalarınız arasında boğaz çizgileri hariç herhangi bir çizgi eklememeniz gerektiği anlamına gelir. Excel'in (ve diğer yazılımların) çizebileceği hoş “spline fit” enterpolasyonları bir yalandır . Verilerinizin belirli bir matematiksel modeli takip etmesinin geçerli bir nedeni yoktur, bu nedenle düz çizgi parçalarına bağlı kalmalısınız.

    Ayrıca, bu durumda, şekil satırında herhangi bir yere bir feragatname eklemek güzel olabilir, örneğin “çizgiler sadece göz için kılavuzlardır”.


2
Bu mükemmel tavsiye eksi barlar hakkında yorum daha uygun olması. Bununla ilgili benzer tartışmalar için bkz . “Tutamak çubuğu” grafiklerine alternatif grafikler . OP tarafından kümelenmiş bir çubuk grafik olarak listelenen grafiği hayal edin, geçici aralıklardaki eğilimi görselleştirmek zor olabilir. Noktaları daha kolay görünür hale getirmenin bir yolu, onları x ekseni boyunca sarsmaktır ve Cleveland'ın çalışması yine de noktaları çubuklara tercih etmemizi önerecektir.
Andy W

@Andy W, "onları x ekseni boyunca döndürmek" ile ne demek istiyorsun?
Ivan P.

1
@IvanP., Yani apsis üzerinde belirli bir değere sabitlenmiş noktaları yerine sağa veya sola hafifçe hareket ettirmek yerine puanlar birbirlerini örtmez. Grafiğin geri kalanından, x ekseni üzerindeki gruplar için gerçek değerlere gerçekten atıfta bulundukları açık olmalıdır ve hafif titreşimin, değerler arasındaki eğilimi görselleştirmek üzerinde hiçbir etkisi olmamalıdır.
Andy W

6

1-Profesörünüz geçerli bir noktaya işaret ediyor.

2-Arsa kesinlikle okunabilirliği artırmaz IMHO.

3-Anladığım kadarıyla, bu tür bir soruyu gerçekten sormak için doğru forum bu değil ve çapraz onaylanmış olarak sormalısınız.


Okunabilirlik sorununun nerede olduğunu bilmek istiyorum ve iyileştirme için herhangi bir öneri çok açıktır
Ivan P.

1

Bazen noktaları birleştirmek, özellikle çok yoğunlarsa mantıklıdır.

Ve sonra enterpolasyon yapmak mantıklı olabilir (örneğin bir spline ile ). Bununla birlikte, birinci dereceden bir spline'dan daha gelişmiş bir şeyse (bunun sadece puanlara katıldığı açıkça görülür), bundan bahsetmeniz gerekir.

Ancak, birkaç puan veya bir düzine puan söz konusu olduğunda durum böyle değildir. Noktaları işaretli olarak oldukları gibi bırakın. Bir çizgiye (veya başka bir eğri) sığdırmak istiyorsanız, bu bir modeldir. Ekleyebilir, ancak açık olabilirsiniz - örneğin "çizgi doğrusal regresyon uyumunu temsil eder".


0

Bence kişinin açık bir model önermediği, ancak göze bir çeşit rehberlik gerektiren durumlar var. Benim kuralım, veba gibi eğrilerden kaçınmak ve bir serinin ardışık noktaları arasında parçalı düz çizgilere bağlı kalmaktır.

Birincisi, bu varsayım okuyucular için daha açıktır. Ayrıca sivri okuyucuları veri tarafından desteklenmeyen eğilimleri varsaymaktan uzak tutmakta iyidir. Hiç değilse, bu sadece gürültü ve aykırı değerleri vurgular.

Dikkatli olduğum şeyler küfür (titiz, açık olmayan) spline, kuadratik, regresyon vb.Kullanımıdır . Kötüye kullanımın iyi bir örneği @Ivan tarafından çizilen eğrilerdir. 3 veri noktası ile altta yatan modeldeki herhangi bir maksimum veya minimumun açık olduğunu düşünmüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.