Veri madenciliğinde kaldırma ölçüsü


36

Tam olarak ne yapacağını bilmek için pek çok web sitesi aradım? Tüm bulduğum sonuçlar, onu kendinde değil uygulamalarda kullanmakla ilgiliydi.

Destek ve güven fonksiyonunu biliyorum. Wikipedia'dan veri madenciliğinde asansör, bir modelin vakaları öngörme veya sınıflandırmadaki ve rastgele seçim modeline göre ölçen performansının bir ölçüsüdür. Ama nasıl? Güven * desteği asansörün değeridir Başka formülleri de aradım ancak asansör çizelgelerinin neden tahmin edilen değerlerin doğruluğu açısından önemli olduğunu anlamıyorum, yani asansörün arkasında hangi politika ve neden olduğunu bilmek istiyorum.


2
Burada bağlam gerekir. Pazarlamada, bu, çeşitli pazarlama faaliyetlerinden beklenen satış artış yüzdesini gösteren bir grafik olacaktır, ancak muhtemelen aklınızda farklı bir bağlam var.
zbicyclist

Yanıtlar:


59

"Kaldırmanın" ne kadar kullanışlı olduğuna bir örnek vereceğim ...

Müşterilerinize yanıt verebilecekleri bir umutla posta gönderdiğiniz bir doğrudan posta kampanyası yürüttüğünüzü hayal edin. Tarihsel veriler, müşteri tabanınızı tamamen rastgele postaladığınızda, bunların yaklaşık% 8'inin postaya yanıt verdiğini gösterir (yani, gelir ve teklifle alışveriş yaparlar). Yani, 1000 müşteriyi postalarsanız, 80 katılımcı bekleyebilirsiniz.

Şimdi, bir müşterinin bir postaya yanıt vermesi muhtemel olup olmadığını öngören kalıpları bulmak için tarihsel verilerinize lojistik bir regresyon modelini yerleştirmeye karar veriyorsunuz. Lojistik regresyon modelini kullanarak her müşteriye cevap verme olasılığı verilir ve doğruluğunu değerlendirebilirsiniz, çünkü gerçekte cevap verip vermediklerini biliyorsunuzdur. Her müşteriye olasılıkları atandığında, onları en yüksek puan alan müşteriye atarsınız. Sonra şöyle bir "kaldırma" grafikler üretebilirsin:

görüntü tanımını buraya girin

Şimdilik en üstteki grafiği görmezden gelin. Alttaki grafik, müşterileri cevap verme olasılıklarına (yüksekden düşüke) göre sıraladıktan ve on eşit kutuya böldüğümüzden sonra, 1 no'lu kutudaki yanıt oranının (müşterilerin en üst% 10'u) 29 olduğunu söylüyor. 29/8 = 3.63 bir asansör için rastgele müşterilerin% 8'i,% 8'i. 4. depodaki müşterileri puanladığımızda, önceki üç kişiyi o kadar yakaladık ki, yanıt oranı, insanları rastgele yollamaktan bekleyeceğimizden daha düşük.

Şimdi en üstteki grafiğe baktığımızda, müşterilerin olasılık puanlarını kullanırsak, toplam cevap verenlerin% 60'ını alabileceğimizi, puanlanan müşterilerin yalnızca% 30'unu postalayarak rastgele posta alacağımız anlamına geliyor. Yani, modeli kullanarak, puanlanan müşterilerin yalnızca% 30'unu postayla göndermek için beklenen kârın% 60'ını posta maliyetinin% 30'unu alabiliyoruz ve bu gerçekten asansörün ifade ettiği şey.


Güzel bir açıklama çok teşekkür ederim. Lütfen bana asansör tablosunda neden rastgele bir örneğe ihtiyacımız olduğunu söyler misiniz? % 8'inin rastgele olduğunu anladım, ancak neden rasgele izlenmesi gerekiyor? Değerlerin ortalamasını izleyen başka bir tablo gördüm ve ortalamanın varlığının nedenini de bilmiyorum
Nickool

Elimdeki şey asansörün kaldırılması = 3.63, sütun 4'e kadar% 8'den daha iyi yanıt oranlarına sahip olduğumuzu söylüyor, o zaman sadece sütun 1'i kabul edersiniz ve% 29'u göz önünde bulundurarak (tahmini olarak% 30) yalnızca sütun 1'i düşündüğünüzü söylersiniz. 3.63'te hangi asansör kullanıldı?
Nickool

1
Aman Tanrım! Yanıldığımı anladım,% 30,% 30 ile ilişkili değil,% 30, 3/10 3 ilk sütun veri anlamına geliyor! Şimdi tamamen anladım: DI çok mutluyum !!!!! teşekkür ederim>: D <
Nickool 17:11

1
@nik: Her müşteriye posta göndermenin $ 1 kağıt ve posta ücreti olduğunu söyleyin. Doğal olarak, gönderebiliriz 1 = 300 ve 48 müşteri bekliyoruz. Daha sonra, her müşteriden ne kadar kar geleceğini tahmin ediyoruz. Spend 300-get-48-müşterilerine bağlı. 1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend
Josh Hemann

1
@ user1700890 En üstteki çizelge genellikle birikimli bir kazanç çizelgesi olarak etiketlenirken, en alttaki çizelge bir biriktirme çizelgesiyle aynı değildir (burada asansör asla 1'den düşük olamaz) ancak verileri on ayrı bölmeye böler.
RobertF

3

Kaldırma çizelgeleri, bir modelin tepkisi ile o modelin yokluğu arasındaki oranı temsil eder. Tipik olarak, X'teki durumların yüzdesi ve yanıtın Y ekseninde daha iyi olduğu sayı ile gösterilir. Örneğin,% 10 noktada kaldırma = 2 olan bir model şu anlama gelir:

  • Nüfusun% 10'unu alan herhangi bir model olmadan (sırasız model olmadığı için), y = 1 oranı, y = 1 olan toplam popülasyonun% 10'u olacaktır.

  • Model ile bu oranın 2 katını elde ediyoruz, yani, toplam popülasyonun% 20'sini y = 1 ile almayı bekliyoruz. İlk% 10 ilk 10 tahmindir.


3

Asansör, Güven'in Beklenen Güvene oranı dışında bir şey değildir. Birleştirme kuralları alanında - "1.0 değerinden daha büyük bir kaldırma oranı, iki küme bağımsız olsaydı, öncül ile sonuç arasındaki ilişkinin beklenenden daha önemli olduğunu gösterir. Kaldırma oranı arttıkça ilişki daha önemli olur. " Örneğin-

eğer bir süpermarket veri tabanı 100.000 satış noktası işlemine sahipse, bunlardan 2.000 tanesi hem A hem de B maddelerini içerir ve bunlardan 800'ü C maddesini içerir, dernek kuralı "A ve B satın alınırsa, C aynı şekilde satın alınır. trip, "800 işlem desteğine (alternatif olarak% 0,8 = 800 / 100,000) ve% 40 (= 800 / 2,000) güvene sahip. Desteği düşünmenin bir yolu, veritabanından rastgele seçilen bir işlemin öncül ve sonuçtaki tüm öğeleri içerme olasılığıdır, güven ise rastgele seçilen bir işlemin tüm öğeleri içerdiği koşullu olasılıktır. sonuçta, işlemin önceki maddede yer alan tüm kalemleri içermesi koşuluyla.

Yukarıdaki örneği kullanarak, beklenen Güven, bu durumda, "A ve B satın alırsa güven, C satın alma olasılığını artırmaz" anlamına gelir. Toplam işlem sayısına bölünen sonucu içeren işlem sayısıdır. C'nin toplam işlem sayısının 5.000 olduğunu varsayalım. Dolayısıyla Beklenen Güven 5.000 / 1.0000 =% 5'tir. Süpermarket örneği için, Asansör = Güven / Beklenen Güven =% 40 /% 5 = 8. Dolayısıyla, Asansör, if (önceki) kısmının verilen (sonra) olasılığındaki artış hakkında bize bilgi veren bir değerdir. kaynak makaleye bağlantı


2

Kaldırma kuralın önemini ölçmek için yalnızca bir ölçüdür

Bu kuralın listede rastgele olup olmadığını kontrol etmek için bir önlem mi bekliyoruz?

Kaldırma = Güven / Beklenen Güven


0

Diyelim ki bir öncül ve sonucu olan bir dernek kuralının geçerliliğini test eden bir bakkal örneğini kullanıyoruz (örneğin: "Bir müşteri ekmek alırsa, tereyağı da alır").

Tüm işlemlere bakarsanız ve birini rastgele incelerseniz, bu işlemin sonucunu içermesi olasılığı "Beklenen Güven" olur. Önceyi içeren tüm işlemlere bakarsanız ve bunlardan rasgele bir işlem seçerseniz, o işlemin sonucu içerme olasılığı "Güven" olur. "Kaldırma" aslında bu ikisi arasındaki farktır. Asansör ile, yüksek güvene sahip iki öğe arasındaki ilişkiyi inceleyebiliriz (eğer güven düşükse asansör aslında önemli değildir).

Yüksek güvene ve düşük asansörlülüğe sahiplerse, öğelerin sık sık birlikte alındığını biliyoruz, ancak sonucun öncül nedeniyle mi olduğunu veya sadece bir tesadüf olup olmadığını bilmiyoruz (belki de ikisi birlikte sık sık satın aldıkları için) Her ikisi de çok popüler ürünler, ancak birbirleriyle hiçbir ilişkisi yok.

Bununla birlikte, eğer güven ve asansör her ikisi de yüksekse, sonucun öncül nedeniyle gerçekleştiğini makul bir şekilde varsayabiliriz . Kaldırma arttıkça, olasılık, iki madde arasındaki ilişkinin sadece bir tesadüf olduğudur. Matematiksel olarak:

Kaldırma = Güven / Beklenen Güven

Örneğimize göre, kurallarımızın güveni yüksek ve asansör düşükse, bu, birçok müşterinin ekmek ve tereyağı satın aldığı anlamına gelir, ancak ekmek ve tereyağı arasındaki özel bir ilişki nedeniyle mi, yoksa ekmek ve tereyağı tek tek popüler ürünlerdir ve birlikte alışveriş sepetlerinde sıkça ortaya çıkmaları bir rastlantıdır. Bizim kuralda güven yüksektir ve asansör yüksek ise, bu makul müşterilerin tereyağı satın alıyor varsayabiliriz yani öncül verilmesi ve sonuç arasındaki oldukça güçlü bir korelasyon gösterir çünkü onlar ekmek satın alıyor gerçeği. Asansör yükseldikçe, bu ilişkide kendimizden daha fazla emin olabiliriz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.