Bazı veri noktaları var, her biri 5 vektör kümelenmiş ayrık sonuç içeren vektörler, her vektörün sonuçları farklı bir dağılımla üretildi (belirli bir tür emin değilim, en iyi tahminim Weibull, şekil parametresi gücün üstelinde bir yerde değişiyor) (1'den 0'a, kabaca).)
Her bir veri noktasını 5 bileşen dağılımlarının özelliklerine göre gruplara koymak için K-Means gibi bir kümeleme algoritması kullanmak istiyorum. Bu amaçlar için zarif olacak herhangi bir yerleşik mesafe metriği olup olmadığını merak ediyordum. Şimdiye kadar üç fikrim vardı, ama tecrübeli bir istatistikçi değilim (daha başlangıçta bir veri madenciliği bilgisayar bilimcisi), bu yüzden ne kadar uzakta olduğum konusunda çok az fikrim var.
Ne tür dağılımlarla uğraştığımı tam olarak bilmediğim için, soruna kaba kuvvet yaklaşımım her bir dağılımı (nokta başına 5 tane var) kendi ayrı veri değerlerine (I pad) ayırmaktı. her biri sonda sıfırlarla aynı uzunluğa karşılık gelir) ve bu değerlerin her birini veri noktasının kendisi için ayrı bir özellik olarak kullanır. PDF ve CDF için bu özelliklere dayalı metrikler olarak hem Manhattan mesafesini hem de Öklid mesafesini kullanmayı denedim.
Yine, ne tür dağılımlara sahip olduğumu bilmediğim için, genel dağılımlar arasındaki mesafeyi ölçecek olsaydım, dağılımlar arasında KS testi gibi bir tür parametrik olmayan test kullanabileceğimi düşündüm. , verilen dağılımların farklı PDF'ler tarafından oluşturulma olasılığını bulmak için kullanılır. Manhattan mesafesini kullanarak ilk seçeneğimin (yukarıda) bu yaklaşımı kullanarak elde edebileceğim şeyin bir çeşit üst sınırı olacağını düşündüm (KS istatistiği, Manhattan mesafesinin olduğu CDF'lerin farkının maksimum mutlak değeri olduğundan PDF'lerdeki farklılıkların mutlak değerlerinin toplamı). Daha sonra, muhtemelen Öklid mesafesini kullanarak, ancak muhtemelen tüm bu değerlerin maksimumunu alarak, her veri noktası içindeki farklı KS-İstatistiklerini veya P-değerlerini birleştirmeyi düşündüm.
Son olarak, dağılımların şekli hakkında ne az yorum yapabileceğimi kullanma çabasıyla, dağılımların parametrelerini bir Weibull eğrisine uygun olarak tahmin etmeye çalışabileceğimi düşündüm. Daha sonra dağıtımları Weibull dağılımının iki parametresindeki farklılıklara dayanarak kümeleyebilirim, lambda ve k (ölçek ve şekil), muhtemelen bu parametrelerin varyansına veya türden bir şeye göre normalleştirildi. Parametreleri nasıl normalleştireceğime dair bir fikrim olabileceğini düşündüğüm tek durum bu.
Benim sorum şu, dağıtımların kümelenmesi için hangi önlem / yöntemleri önerirsiniz? Bunlardan herhangi biriyle doğru yolda mıyım? K-Means bile kullanmak için iyi bir algoritma mı?
Düzenleme: Verilerin açıklığa kavuşturulması.
Her veri noktası ( Obj
kümelemek istediğim her nesne ) aslında tam anlamıyla 5 vectors
veri içeriyor . Bu nesnelerin içinde olabileceği tam olarak 5 aşama olduğunu biliyorum. Her vektörün içinde olduğu (basitleştirme amacıyla) diyeceğiz length N
.
Bu vektörlerin (çağrı her biri vector i
) bir tamsayı olan bir olasılık dağılımıdır x-values
her bir karşılık gelen y-değeridir, ölçüm olasılığını temsil eder, N, 1 ile arasında value x
içinde phase i
nesnenin Obj
. O zaman N, nesnenin herhangi bir aşamasında ölçmeyi beklediğim maksimum x-değeridir (bu aslında analizimde sabit bir sayı değildir).
Bu olasılıkları şu şekilde belirlerim:
Ben tek almak
Obj
ve koymakphase i
içink trials
her mahkemede bir ölçüm alarak. Her ölçüm tek bir tam sayıdır. Bunu tek bir nesnenin 5 aşamasının her biri için ve her nesne için yaparım. Tek bir nesne için ham ölçüm verilerim şöyle görünebilir:Vektör 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
Vektör 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
Vektör 5. [16, ... ..., 0]
Daha sonra, verilen vektördeki toplam ölçüm sayısına göre vektörlerin her birini kendi başına normalleştiriyorum. Bu bana her bir karşılık gelen y-değeridir, ölçüm olasılığını temsil eden vektör, bir olasılık dağılımını verir
value x
içindephase i
.