Maksimum ve kapalı sık - Yanıt Dahil


10

My  dataset:
1:A,B,C,E
2:A,C,D,E
3:     B,C,E
4:A,C,D,E
5:    C,D,E
6:    A,D,E

Maksimum sık öğe kümelerini ve kapalı sık öğe kümelerini bulmak istiyorum .

  • Sık madde kümesi olduğu maksimal herhangi sık supersetleri yoksa.XF
  • Aynı frekansa sahip üst kümesi yoksa , sık sık X X F öğe kümesi kapatılır

Bu yüzden her öğe kümesinin oluşumunu saydım.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

{A,B} = 1; {A,C} = 3; {A,D} = 3; {A,E} = 4; {B,C} = 2; 
{B,D} = 0; {B,E} = 2; {C,D} = 3; {C,E} = 5; {D,E} = 3

{A,B,C} = 1; {A,B,D} = 0; {A,B,E} = 1; {A,C,D} = 2; {A,C,E} = 3; 
{A,D,E} = 3; {B,C,D} = 0; {B,C,E} = 2; {C,D,E} = 3

{A,B,C,D} = 0; {A,B,C,E} = 1; {B,C,D,E} = 0

Min_Support ayarlandı // Çok önemli. Hatırlattığın için teşekkürler steffen.50

Yapar maksimal = ?{A,B,C,E}

Mu kapalı = ?{A,B,C,D} and {B,C,D,E}

Yanıtlar:


5

Bu kaynakta biraz genişletilmiş bir tanım buldum (iyi bir açıklama içerir). İşte daha güvenilir (yayınlanmış) bir kaynak: CHARM: Mohammed J. Zaki ve Ching-jui Hsiao'nun kapalı ürün seti madenciliği için etkili bir algoritma .

Bu kaynağa göre:

  • Hemen üst kümelerinin hiçbiri öğe kümesiyle aynı desteğe sahip değilse bir öğe kümesi kapatılır
  • Hemen üst kümelerinin hiçbiri sık değilse bir öğe kümesi en sıktır


Bazı açıklamalar:

  • Hangi öğe kümesinin sık olduğunu tanımlayan bir min_support (destek = ilgilenilen alt kümeyi içeren öğe kümelerinin sayısının tüm öğe kümelerinin sayısına bölünmesiyle) ayarlanması gerekir . Desteği> = min_support ise bir öğe kümesi sıktır.
  • Algoritmayla ilgili olarak, en fazla sık ve kapalı öğe kümesini bulmaya çalışıldığında yalnızca min_support içeren öğe kümeleri dikkate alınır.
  • Kapalı tanımındaki önemli nokta, daha fazla destekle bir acil durum üst kümesinin mevcut olması önemli değil, sadece tam olarak aynı desteğe sahip olan üst kümeler önemlidir.
  • maksimal frekans => kapalı => sık, ancak tam tersi değil.

OP örneğine uygulama

Not:

  • Destek sayılarını kontrol etmedim
  • Diyelim ki min_support = 0.5. Min_support_count> = 3 ise bu yerine getirilir
{A} = 4; {A, E} nedeniyle kapalı değil
{B} = 2; sık değil => yoksay
{C} = 5; {C, E} nedeniyle kapalı değil
{D} = 4; {D, E} nedeniyle kapalı değil, örneğin {A, D} nedeniyle maksimum değil
{E} = 6; kapalı, ancak örneğin {D, E}

{A, B} = 1; sık değil => yoksay
{A, C} = 3; {A, C, E} nedeniyle kapalı değil
{A, D} = 3; {A, D, E} nedeniyle kapalı değil
{A, E} = 4; kapalı, ancak {A, D, E} nedeniyle maksimum değil
{B, C} = 2; sık değil => yoksay
{B, D} = 0; sık değil => yoksay
{B, E} = 2; sık değil => yoksay
{C, D} = 3; {C, D, E} nedeniyle kapalı değil
{C, E} = 5; kapalı, ancak {C, D, E} nedeniyle maksimum değil
{D, E} = 4; kapalı, ancak {A, D, E} nedeniyle maksimum değil

{A, B, C} = 1; sık değil => yoksay
{A, B, D} = 0; sık değil => yoksay
{A, B, E} = 1; sık değil => yoksay
{A, C, D} = 2; sık değil => yoksay
{A, C, E} = 3; maksimum sıklık
{A, D, E} = 3; maksimum sıklık
{B, C, D} = 0; sık değil => yoksay
{B, C, E} = 2; sık değil => yoksay
{C, D, E} = 3; maksimum sıklık

{A, B, C, D} = 0; sık değil => yoksay
{A, B, C, E} = 1; sık değil => yoksay
{B, C, D, E} = 0; sık değil => yoksay

Kaynak bağlantı koptu, sadece size haber verin. Ve evet min_support çok önemli, ben kullanıyorum .50
Mike John

1
Bunun için üzgünüm, düzeltildi.
steffen

1
min_support = 0,5 <=> min_support_count = 3 değiştirildi ve uygulama buna göre değiştirildi.
steffen

APRIORI kullanın ve sayma ve inşa kümeleri çok kaydedebilirsiniz ...
QUIT vardır - Anony-Mousse

@ Anony-Mousse APRIORI biliyorum ... OP (IMHO) karmaşasının kaynağı olduğu için mümkün olduğunca ayrıntılı olarak kapalı ve maksimum sık sık öğe kümeleri kavramını açıklamak için el ile setler üzerine adım attı.
steffen

1

APRIORI algoritmasını okumak isteyebilirsiniz. Akıllı budama ile gereksiz öğeleri önler.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

B sık değil, çıkarın.

İki öğe kümesini oluşturun ve sayın (henüz sihir yok, bunun dışında Bzaten var)

{A,C} = 3; {A,D} = 3; {A,E} = 4; 
{C,D} = 3; {C,E} = 5; {D,E} = 3

Bunların hepsi sık sık (tüm Bbunların sıkça yapılamayacağına dikkat edin !)

Şimdi önek kuralını kullanın. SADECE aynı n-1 öğeden başlayarak öğe kümelerini birleştirin. Herhangi bir alt kümenin sık olmadığı her şeyi kaldırın. Kalan öğe kümelerini sayın.

{A,C,D} = 2; {A,C,E} = 3; {A,D,E} = 3; 
{C,D,E} = 3

Bunun {A,C,D}sık olmadığına dikkat edin. Paylaşılan bir önek olmadığından , daha sık bir öğe kümesi olamaz !

Ne kadar az iş yaptığımı fark et!

Maksimum / kapalı öğe kümeleri için alt kümeleri / üst kümeleri kontrol edin.

Örneğin {E}=6, ve {A,E}=4. {E}bir alt kümedir, ancak daha yüksek desteğe sahiptir, yani kapalıdır ancak maksimum değildir. {A}daha fazla desteğe sahip olmadığı için {A,E}, yani gereksizdir .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.