Kümeleme olasılık dağılımları - yöntemler ve metrikler?


13

Bazı veri noktaları var, her biri 5 vektör kümelenmiş ayrık sonuç içeren vektörler, her vektörün sonuçları farklı bir dağılımla üretildi (belirli bir tür emin değilim, en iyi tahminim Weibull, şekil parametresi gücün üstelinde bir yerde değişiyor) (1'den 0'a, kabaca).)

Her bir veri noktasını 5 bileşen dağılımlarının özelliklerine göre gruplara koymak için K-Means gibi bir kümeleme algoritması kullanmak istiyorum. Bu amaçlar için zarif olacak herhangi bir yerleşik mesafe metriği olup olmadığını merak ediyordum. Şimdiye kadar üç fikrim vardı, ama tecrübeli bir istatistikçi değilim (daha başlangıçta bir veri madenciliği bilgisayar bilimcisi), bu yüzden ne kadar uzakta olduğum konusunda çok az fikrim var.

  1. Ne tür dağılımlarla uğraştığımı tam olarak bilmediğim için, soruna kaba kuvvet yaklaşımım her bir dağılımı (nokta başına 5 tane var) kendi ayrı veri değerlerine (I pad) ayırmaktı. her biri sonda sıfırlarla aynı uzunluğa karşılık gelir) ve bu değerlerin her birini veri noktasının kendisi için ayrı bir özellik olarak kullanır. PDF ve CDF için bu özelliklere dayalı metrikler olarak hem Manhattan mesafesini hem de Öklid mesafesini kullanmayı denedim.

  2. Yine, ne tür dağılımlara sahip olduğumu bilmediğim için, genel dağılımlar arasındaki mesafeyi ölçecek olsaydım, dağılımlar arasında KS testi gibi bir tür parametrik olmayan test kullanabileceğimi düşündüm. , verilen dağılımların farklı PDF'ler tarafından oluşturulma olasılığını bulmak için kullanılır. Manhattan mesafesini kullanarak ilk seçeneğimin (yukarıda) bu yaklaşımı kullanarak elde edebileceğim şeyin bir çeşit üst sınırı olacağını düşündüm (KS istatistiği, Manhattan mesafesinin olduğu CDF'lerin farkının maksimum mutlak değeri olduğundan PDF'lerdeki farklılıkların mutlak değerlerinin toplamı). Daha sonra, muhtemelen Öklid mesafesini kullanarak, ancak muhtemelen tüm bu değerlerin maksimumunu alarak, her veri noktası içindeki farklı KS-İstatistiklerini veya P-değerlerini birleştirmeyi düşündüm.

  3. Son olarak, dağılımların şekli hakkında ne az yorum yapabileceğimi kullanma çabasıyla, dağılımların parametrelerini bir Weibull eğrisine uygun olarak tahmin etmeye çalışabileceğimi düşündüm. Daha sonra dağıtımları Weibull dağılımının iki parametresindeki farklılıklara dayanarak kümeleyebilirim, lambda ve k (ölçek ve şekil), muhtemelen bu parametrelerin varyansına veya türden bir şeye göre normalleştirildi. Parametreleri nasıl normalleştireceğime dair bir fikrim olabileceğini düşündüğüm tek durum bu.

Benim sorum şu, dağıtımların kümelenmesi için hangi önlem / yöntemleri önerirsiniz? Bunlardan herhangi biriyle doğru yolda mıyım? K-Means bile kullanmak için iyi bir algoritma mı?

Düzenleme: Verilerin açıklığa kavuşturulması.

Her veri noktası ( Objkümelemek istediğim her nesne ) aslında tam anlamıyla 5 vectorsveri içeriyor . Bu nesnelerin içinde olabileceği tam olarak 5 aşama olduğunu biliyorum. Her vektörün içinde olduğu (basitleştirme amacıyla) diyeceğiz length N.

Bu vektörlerin (çağrı her biri vector i) bir tamsayı olan bir olasılık dağılımıdır x-valuesher bir karşılık gelen y-değeridir, ölçüm olasılığını temsil eder, N, 1 ile arasında value xiçinde phase inesnenin Obj. O zaman N, nesnenin herhangi bir aşamasında ölçmeyi beklediğim maksimum x-değeridir (bu aslında analizimde sabit bir sayı değildir).

Bu olasılıkları şu şekilde belirlerim:

  1. Ben tek almak Objve koymak phase iiçin k trialsher mahkemede bir ölçüm alarak. Her ölçüm tek bir tam sayıdır. Bunu tek bir nesnenin 5 aşamasının her biri için ve her nesne için yaparım. Tek bir nesne için ham ölçüm verilerim şöyle görünebilir:

    Vektör 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Vektör 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Vektör 5. [16, ... ..., 0]

  2. Daha sonra, verilen vektördeki toplam ölçüm sayısına göre vektörlerin her birini kendi başına normalleştiriyorum. Bu bana her bir karşılık gelen y-değeridir, ölçüm olasılığını temsil eden vektör, bir olasılık dağılımını verir value xiçinde phase i.


1
Veri noktalarınızın dağıtımları nasıl "içerebileceği" net değil. Bir örnek verebilir misiniz? Ayrıca Weibull, ayrı bir olasılık dağılımı değildir, bu nedenle bazı ekstra açıklamalar istenebilir.
mpiktas

@mpiktas: Her veri noktası 5 farklı fazı olan bir nesneyi temsil eder. Nesnenin her bir aşamasının davranışı teorik olarak sürekli bir olasılık dağılım fonksiyonu ile temsil edilebilir, ancak verilerim sadece ayrık örnekler içermektedir. Weibull dağılımı muhtemelen verilerimin arkasındaki "teorik" işlevdir, ancak verilerin kendisi yalnızca ayrık aralıklardaki yoğunluk ölçümleridir.
makine özlemi

Yanıtlar:


5

(Hesaplamalı) Bilgi Geometrisi , bu tür problemlerle tam olarak ilgilenen bir alandır. K-araçlarının, Bregman k- denilen , standart K-araçlarının kareli Öklidi özel bir durum olduğu, aynı zamanda Kullback-Leibler olan ıraksamaları kullanan bir uzantısı vardır . Belirli bir sapma, örneğin kare şeklinde Öklid ila Gaussian arasındaki bir dağılımla ilişkilidir.

Örneğin, Frank Nielsen'in çalışmalarına da göz atabilirsiniz.

Ayrıca önceki bir gönderide Dünya Taşıma Mesafesi olarak belirtilen Wasserstein mesafelerine (optimum taşıma) de göz atabilirsiniz .


3

Onların yazıda EP-means algoritmasına , Henderson ve arkadaşları yorumu bu soruna yaklaşımları ve kendi vermek. Onlar düşünün:

  1. Parametre kümeleme - dağılımın önceki bilgisine dayalı olarak dağılımlar için parametreleri ve bu parametrelere dayalı olarak küme belirleme
    • Burada, sadece parametre tahminleri değil, veriler üzerinde herhangi bir işlevselliği kullanabileceğinizi unutmayın; bu, verilerinizin farklı dağıtımlardan geldiğini biliyorsanız faydalıdır
  2. Histogram bölmesi - verileri bölmelere ayırın ve her bölmeyi uzamsal kümelemede kullanılacak bir boyut olarak düşünün
  3. L1

Başarı ile kullandığım başka bir teknik, tüm dağılımlardan gözlemlenen tüm noktaları tek tek kümelendirmek ve daha sonra, her kümede sonuçlanan noktalarının oranına karşılık gelen yumuşak bir olasılık olan i dağılımına atamaktır. Olumsuz tarafı, dağıtımları bu şekilde ayırmak çok daha zordur. Üstte, otomatik olarak düzenlileşir ve tüm dağıtımların aynı olduğunu varsayar. Ancak, bu düzenleme özelliği istendiğinde kullanabilirsiniz.


1
$i$i$l_2$l2

1

İki adımda ilerlemelisiniz. (1) Veri azaltma ve (2) Kümeleme.

Adım (1) için verilerinizi dikkatlice incelemeli ve verileriniz için makul bir olasılık dağılımı belirlemelisiniz. Bu adımı zaten düşünmüş gibisin. Bir sonraki adım, bu dağılımların parametrelerini tahmin etmektir. Kümelenecek her ünite için ayrı bir model takabilirsiniz veya genelleştirilmiş doğrusal karma model gibi daha karmaşık bir model kullanmak uygun olabilir.

Adım (2) için, bu parametre tahminlerine dayanarak kümelenebilirsiniz. Bu aşamada, birim başına az sayıda parametre tahmininiz olmalıdır. Bu gönderinin cevabında açıklandığı gibi , bu parametre tahminleri üzerinde kümelenebilirsiniz.

Bu cevap mutlaka biraz belirsizdir - burada "hazır" bir çözüm yoktur ve her bir adım için benzersiz probleminize bağlı olarak, neredeyse sınırsız sayıda yöntemden seçim yapabilmek için çok sayıda istatistiksel kavrayış gereklidir. Sorunuzun ifadesi, kendinize övgüye değer iyi bir istatistiki bilgi edinmiş olduğunuzu gösterir, ancak yine de bir olasılık dağılımı ile bir olasılık dağılımından gözlemler arasındaki temel istatistik kavramlarının bazı temel yanlış anlamalarına sahipsiniz. . Bir veya iki matematiksel istatistik dersi almayı / denetlemeyi düşünün.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.