İki veri kümesi arasındaki benzerliğin nicelleştirilmesi


12

Özet : En iyi yöntemi bulmaya çalışmak, tek bir değer kullanarak hizalanmış iki veri kümesi arasındaki benzerliği özetler.

Ayrıntılar :

Sorum en iyi bir diyagramla açıklanıyor. Aşağıdaki grafikler etiketli değerleri ile iki farklı veri setleri, her gösterir nfve nr. X ekseni boyunca noktalar, ölçümlerin alındığı yeri temsil eder ve y eksenindeki değerler sonuçta ölçülen değerdir.

Her grafik için , her bir ölçüm noktasındaki benzerliğini nfve nrdeğerlerini özetlemek için tek bir sayı istiyorum . Bu örnekte, birinci grafikteki sonuçların ikinci grafikteki sonuçlardan daha az benzer olduğu görsel olarak açıktır. Ama farkın daha az belirgin olduğu başka birçok verim var, bu yüzden bunu nicel olarak sıralayabilmek yardımcı olacaktır.

Tipik olarak kullanılan standart teknikler olabileceğini düşündüm. İstatistiksel benzerlik aramak çok farklı sonuçlar verdi, ancak neyin en iyi seçileceğinin veya hazır olduğum şeylerin sorunum için geçerli olup olmadığından emin değilim. Bu yüzden basit bir cevap olması durumunda bu sorunun burada sormaya değer olabileceğini düşündüm.

resim açıklamasını buraya girin


1
Listelenen çok sayıda önlemi olan bu makaleye bakmak isteyebilirsiniz. ( users.uom.gr/~kouiruki/sung.pdf ) Bağlantı işe yaramazsa, Uluslararası Matematik Modelleri ve Yöntemleri Dergisi'nde Sung-Hyuk Cha tarafından "Olasılık Yoğunluğu Fonksiyonları Arasındaki Mesafe / Benzerlik Ölçümleri Hakkında Kapsamlı Anket" benzerlik ölçütlerini gözden geçiren Uygulamalı Bilimlerde.
arie64

Dinamik Zaman Çarpıtma, iki zaman serisi arasındaki benzerliği ölçmek için kullanılır. Bu teknik burada görev yapabilir. Bu bağlantıyı kontrol edin: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Yanıtlar:


6

2 eğri arasındaki alan size fark verebilir. Dolayısıyla toplam (nr-nf) (tüm farklılıkların toplamı) 2 eğri arasındaki alanın yaklaşık bir değeri olacaktır. Göreli yapmak istiyorsanız, sum (nr-nf) / sum (nf) kullanılabilir. Bunlar, her grafik için 2 eğri arasındaki benzerliği gösteren tek bir değer verecektir.

Düzenleme: Bu farklı noktalar veya gözlemler ve bağlı çizgiler veya eğriler olmasa bile, farklılıkların toplamı yöntemi yararlı olacaktır, ancak bu durumda, farklılıkların ortalaması da bir gösterge olabilir ve dikkate alacağı için daha iyi olabilir gözlem sayısı.


1
Bunu deneyeceğim ve nasıl çalıştığını göreceğim. Hala daha resmi bir teknikle ilişkilendirebilmeyi umuyorum. Öklid Uzaklığı hakkında okuyordum ve buradaki tekniğe oldukça benziyor. Ek bir not olarak, grafiğimde bağlantı çizgileri olmasına rağmen sadece bireysel noktaları önemsiyorum. Gerçekten eğrileri karşılaştırmıyorum, sadece ölçülen değerleri. Sorumda bunun net olup olmadığını bilmiyorum.
Gabriel Southern

Noktalar bağlı olmasa bile çalışmalıdır.
rnso

1

Ne demek istediğinizi 'benzerlik' ile tanımlamanız gerekir. Büyüklük önemli mi? Yoksa sadece şekil?

Yalnızca şekil önemliyse, her iki zaman serisini de maksimum değerleriyle normalleştirmek istersiniz (böylece her ikisi de 0'dan 1'e kadardır).

Doğrusal bir korelasyon arıyorsanız, basit bir pearson korelasyonu iyi çalışır - bu da esas olarak kovaryansı ölçer.

Örneğin, zaman serisine bir çizgi veya polinom sığdırabilen (esas olarak yumuşatır) ve daha sonra pürüzsüz polinomları karşılaştırabilen başka teknikler de vardır.

Periyodik benzerlik arıyorsanız (yani zaman serisinin belirli bir sinüzoidal bileşen veya mevsimsellik varsa), önce trendin ve mevsim bileşenlerinin bir zaman serisi ayrışmasını kullanmayı düşünün. Veya frekans alanındaki verileri karşılaştırmak için FFT gibi bir şey kullanmak.

Bu 'benzer' ne olması gerektiğini daha fazla tanımlamak bilmeden tüm hakkında. Umarım yardımcı olur.


0

Her ölçüm noktası için (nr-nf) kullanabilirsiniz, sayı ne kadar küçükse (mutlak değer) değere o kadar benzerdir. Tam olarak en bilimsel yaklaşım değil, lütfen beni affet, bu konuda gerçek bir resmi eğitimim yok. Sadece görselin sayısal bir temsilini arıyorsanız, bunu yapmalısınız.


1
Önerin için teşekkürler. Bunu da düşündüm, ama sorun göreceli farktan ziyade mutlak fark tarafından ağırlıklandırılacak. Örnekte, daha benzer veri kümelerinin daha küçük mutlak değerleri de vardı, ancak durum tersine çevrildiyse bu tekniği kullanarak yanlış bir yorum alabilirsiniz. Mutlak bir farktan ziyade göreli benzerliği / farkı özetlemem gerekiyor.
Gabriel Southern

(Nr-nf) / nf çalışır mı? Bu sizi akraba yapar. Aynı cevabı kendim hallettiğim için gerçek cevabı görmekle gerçekten ilgileniyorum.
Mike G

Hepsi karşılaştırılabilir bir ölçekte ise, benzerlerinizin genellikle daha düşük olması, göreceli değerlerle ilgili değildir, benzerliğin yorumlanmasıyla ilgilidir. İkinci grafikteki değerler 101-104 arasındaysa, benzerliklerinin yorumunu değiştirir mi? Eğer öyleyse, bunu açıklamanız gerekir. Y değişkeninin tam olarak ne olduğu hakkında daha fazla ayrıntı gerekli olacaktır.
John

@John bu iyi bir nokta. Sanırım bunu daha çok düşünmeliyim. Y değerleri bir kıyaslama için hızlanma değerleridir ve çeşitli farklı yapılandırmalar arasındaki benzerliği karşılaştırmaya çalışıyorum. Bu yüzden bu cevaptaki öneri işe yarayabilir, sadece sayıların neye benzediğini görmek için deneyebilirim. Hala daha resmi olarak kabul edilen bir istatistik tekniği kullanmayı tercih ederim (eğer sorunum için bir tane varsa).
Gabriel Southern
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.