Birinci mertebe Markov zincirlerinin kümelerinin değerlendirilmesi


10

Birkaç bin birinci dereceden Markov zincirinin veri setini yaklaşık 10 kümeye kümeledim.

Bu kümeleri nasıl değerlendirebileceğim ve kümelerdeki öğelerin neler paylaştığını ve diğer kümelerden nasıl farklılaşabileceğini nasıl öğrenebileceğim konusunda önerilen bir yol var mı? Böylece, "A kümesindeki süreçler, oraya ulaştıklarında Y durumunda kalmaya eğilimlidirler, bu da diğer kümelerdeki süreçler için geçerli değildir.

Bu Markov zincirlerinin geçiş matrisleri sadece "bak ve gör" için çok büyük. Bu yardımcı olabilirse nispeten seyrek.

Benim fikrim bir kümedeki tüm geçiş matrislerini almak, toplamak ve bir resimdeki yoğunluğu (0 ile 255 arası bir ölçekte) çizmekti. Denemem gereken daha "profesyonel" bir şey var mı?


Bu süreçlerin birinci dereceden Pazar zincirleri olduğunu biliyor musunuz (ve eğer öyleyse, nasıl)? Bunun cevabının olumlu olduğunu varsayarsak, o zaman yapı hakkında hangi ek a priori bilgisini biliyorsunuz? Öncelikle kümelenmeye neden ilgi duyduğunuzu belirlemeye çalışıyorum; Bunun okuyucularımızın sizi bir çözüme daha verimli bir şekilde yönlendirmesine yardımcı olacağını bilmekten şüpheleniyorum.
kardinal

Orijinal veriler, sitemdeki kullanıcılar tarafından oluşturulan tıklama akışlarıydı. Her işlem bir kullanıcının tıklama akışını tanımlamak için markov süreçlerini oluşturdum. Markov zincirlerinin bunun için yetersiz olduğunu söyleyen kitaplar ve makaleler olduğunu biliyorum, ancak verilerim kullanıcının istediği kesin URL'yi değil, sadece URL'nin ait olduğu "uygulamayı" içeriyor. (Sitem edilir 105 sözde "uygulamalar" bölünür bir Bilgi sistemidir çoğunlukla kendini her sayfada bir ana sayfasına ve yan menü aracılığıyla bağlanan sitenin parçaları içeriyordu)
user7610

Kümelemeyle ilgileniyorum çünkü siteyi kullanırken benzer kalıplara sahip kullanıcı gruplarını ortaya çıkarmak istiyorum. Markov zincirinin yakaladığı modellerin bu tür grupları ayırt etmek için yeterli olduğunu varsaydım. Oluşturduğum kümelerin kullanıcıların sitedeki rollerine nasıl karşılık geldiğini kontrol ettim ve her zaman bir kümede bir rolden çok sayıda kullanıcı ve diğer rollerden sadece birkaç tane olduğu gibi görünüyor, bu yüzden umut verici görünüyor. Umarım yardımcı olur
user7610 17:06

Merhaba, ben de aynı sorunu yaşıyorum. Son olarak, sorunu nasıl çözdünüz?
nan

@nan, sadece bir dönem projesinde buna ihtiyacım vardı, bu yüzden başka bir şey yaptım. Şimdi çözmek zorunda kalsaydım , ilk kümeleme için en.wikipedia.org/wiki/… 'a bakmayı denerdim . t-SNE günümüzde süper popüler ve IMO uygundur. Umarım alacağım sonuç geçici yaklaşımımla elde ettiğim sonuçlardan daha anlamlı olur. Ve nispeten yeni süper cool bir şey kullanmak öğretmeni tatmin edecek;)
user7610

Yanıtlar:


1

Her kümenin kararlı durum davranışı hakkında bir açıklama yapmak için, her geçiş matrisinin kararlı durum dağılımlarını özvektörler tarafından hesaplayabilir, ardından kutu grafiklerini küme ile karşılaştırabilirsiniz. İlk önce bir tür düzleştirme uygulamadan kararlı durumun hesaplanmasında sorunlarla karşılaşabilirsiniz.

Geçiş matrislerini nasıl kümelendiriyorsunuz? Ben olsaydım, her satıra katkı yumuşatma uygular, sonra her satırın ortalanmış günlük oranı dönüşümünü alıp matrisleri düzeltirdim.

K-araçları veya bir varyant ile kümeleniyorsanız, normalleştirilmiş küme merkezlerini analiz edebilirsiniz. Veya her kümeden birkaç gözlem seçin ve analiz edin.


0

İlk olarak, bir fikir edinmek için, 105 x 105 boyutundaki matrisleriniz, bahsettiğiniz uygulamalara karşılık geliyor mu? 'Y durumunda kal' derken, bu Y uygulamasına bağlı kalmak anlamına mı geliyor?

Daha sonra, "A kümesindeki süreçler, oraya vardıklarında Y durumunda kalmaya eğilimlidir, bu da diğer kümelerdeki süreçler için doğru değildir" gibi sonuçların sadece 10 küme ile çok fazla taneli olduğunu varsayabilirim. Uygulama etki alanının kümelenmesini denediniz mi - doğru anlarsam 105 uygulamayı kullanıcı davranışına göre kümeleyebilirsiniz. Sonra, geçişten ziyade kullanıcıların varlığına baktınız mı, yani 105 uygulamadaki kullanıcıların profillerine baktınız mı? Kullanıcı profilleri arasında Pearson katsayısını kullanabiliyormuşsunuz gibi geliyor; uygulama kümelerinde veya uygulamaların kendisinde. Bu belki de uygulamalar arasındaki geçişlere doğru genişletilebilir, ancak şu anda kümelerin sayısı ile ilgilendiğiniz sonuç türü arasında büyük bir uyumsuzluk olduğunu hissediyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.