'Bira ve çocuk bezi' korelasyon analizi nasıl yapılır


8

Eşdeğer veri var:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Ben benzer bir etkisi olurdu bir korelasyon matrisi elde etmek için bu veri seti üzerinde bazı analiz yapmak istiyorum: x satın aldıysanız, muhtemelen y satın alabilirsiniz.

Python (veya MATLAB dışında herhangi bir şey) kullanarak bunu nasıl yapabilirim? Bazı temel yönergeler veya nereye bakmam gerektiğini gösteren işaretler yardımcı olacaktır.

Teşekkür ederim,

Düzenleme - Öğrendiklerim:

  1. Bu tür sorunlar ilişkilendirme kuralı keşfi olarak bilinir. Wikipedia'nın bazı yaygın algoritmaları kapsayan iyi bir makalesi var . Bunu yapmak için klasik algoritma, Agrawal ve ark. ark.

  2. Bu beni bir python arayüzlü veri madenciliği paketi turuncuya götürdü. Linux için, onu kurmanın en iyi yolu, sağlanan setup.py dosyasını kullanarak kaynaktan gelmek gibi görünüyor.

  3. Varsayılan olarak turuncu, desteklenen çeşitli yollardan biriyle biçimlendirilmiş dosyalardan gelen girdileri okur.

  4. Son olarak, basit bir Apriori dernek kuralı öğrenme turuncu renkte basittir .


3
Bir R paketi arıyordunuz, arulesbir göz atmaya değer. Belki de "ilişkilendirme kuralları" iyi bir arama terimidir
Karsten W.

2
Bu soruna "standart" yaklaşım için Apriori algoritmasına da bakınız .
kardinal

Yanıtlar:


7

Yorumlarda verilen bağlantılara ek olarak, bazı diğer işaretçiler:

Python hakkında, sanırım şimdi ne araman gerektiğine dair bir fikrin var, ancak Turuncu veri madenciliği paketinde Dernek kuralları ve Itemsets hakkında bir paket var (ancak ikincisi için web sitesinde herhangi bir referans bulamıyorum).

Düzenle:

Geçenlerde pysuggest ile karşılaştım.

çeşitli öneri algoritmaları uygulayan bir Top-N öneri motoru. Kişiselleştirilmiş bir bilgi filtreleme teknolojisi olan Top-N tavsiye sistemleri, belirli bir kullanıcının ilgisini çekecek bir dizi N öğesini tanımlamak için kullanılır. Son yıllarda, top-N tavsiye sistemleri, bir müşterinin büyük olasılıkla satın alacağı ürünleri tavsiye etmek için bir dizi farklı uygulamada kullanılmıştır; kullanıcının keyifli bulacağı filmler, TV programları veya müzikler önermek; ilgi çekici web sayfalarını belirlemek; hatta bilgi aramanın alternatif yollarını bile önerebilir.


Basit bir korelasyon matrisi yetersiz kalmadan önce kaç ürünün dahil edilmesi gerektiğini merak ediyorum?
rolando2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.