Ortalama değer paradoksu - Buna ne denir?


22

Veri setim var. gözlem ve değişken söyleyin :103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Diyelim ki, her kategoride ( ) satın alan ( ) olan (olmayan ) müşteri . Orada var, bu yüzden bu müşteri ortalama ürün kategorisine giriyor .1010A, B, C16101.6

Müşterilerin birden fazla A, B ve C satın alabileceğini unutmayın.

Satın sadece edenler bakarsak A, orada içine almış müşteriler o yüzden ürün kategorileri, ortalama.591.8

Bolduğu tekrar veya .9/51.8

Cbir10/6=1.67.

Hepsi1.6.

Bu garip görünüyor. Bunu anlıyorum ama bunu gelecek hafta pazarlamaya açıklamamız gerek ve bu yüzden yardıma ihtiyacınız var!

Bu şeye ne denir?

Simpson'un paradoksu olmadığını biliyorum. Bana göre Monty Hall problemine ve koşullu olasılığa mantıklı geliyor.


2
Şahsen, neden bahsettiğin hakkında hiçbir fikrim yok. Neden çapraz satın alma modellerini incelemek için As, Bs ve C'lerin beklenmedik durum tablosu oluşturulamıyor?
Mike Hunter,

3
"C alan müşteriler ortalamadan daha değerli - 1,67 vs 1,6" diyen raporlarımız var. Doğru, A ve B ise ortalamanın üzerinde bir değer. Kaçınılmaz sorunun hangi soruna yol açacağı "Tüm müşteriler ortalamadan daha değerli olabilir"?
James Adams,

3
Yapbozunun yüzeysel olarak herkesin ortalamanın üzerinde olduğu Wobegon Gölü'ne benzemesi olduğunu düşünüyorum : P , bir müşterinin satın aldığı kategori / ürün sayısı olsun . Let , , ve kategorisi A, sırasıyla B ve C satın alma için göstergeler olmak. , ve veXABCE[XA]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn

12
Tamamlayıcı kümeler ve Venn şemaları açısından düşünmek isteyebilirsiniz . Kümeler "A satın müşteriler" ve "do müşteriler değil A satın" örtüşmeyen vardır. Ancak sorunuzda listelediğiniz kümeler örtüşüyor. Genel ortalamayı , alt kümeler ortalamalarının (ağırlıklı) bir ortalaması olarak ancak alt kümeler bir bölüm oluşturduğunda hesaplayabilirsiniz .
GeoMatt22

4
Bu, çoğunluk illüzyon paradoksuna gevşek bir şekilde benziyor mu? Aynı şekilde, herhangi bir bireyin bir süper ağa bağlanması muhtemel olduğu gibi, herhangi bir satın alma kategorisinin de bir süper alıcı içermesi muhtemel midir? (Çok sayıda insanla iletişim kuran süper bir ağ kurucusu ve çok sayıda farklı ürün satın alan bir süper alıcısı arıyorum)
Matthew Gunn

Yanıtlar:


28

Alt kategoriler daha büyük müşterilerle çakışırsa, her alt kategorinin ortalaması, genel ortalamanın üstünde olabilir.

Sezgi kazanmak için basit bir örnek:

  • edelim bireysel kategori A'da bir öğe satın alıp almadığını bir göstergesi olabilirA
  • Let bireysel kategori B'de bir öğeyi satın alıp almadığını bir göstergesi olabilirB
  • Let alınan öğelerin sayısı olsun.X=A+B

PersonABi10ii01iii11

Bireylerin kümesi gerçek örtüşür bireylerin kümesi olan B doğrudur. Bunlar DEĞİL ayrık kümeler.AB

Sonra , E [ X A ] = 1.5 ve E [ X B ] = 1.5E[X]1.33E[XA]=1.5E[XB]=1.5

Doğru olacak ifade:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

Basitçe adını adını hesaplayamazsınız , çünkü ve üst üste biner kim öğesi hem satın ve !P(A)E[XA]+P(B)E[XB]ABAB

İllüzyon / paradoks ismi?

Bunun , sosyal ağlardaki çoğunluk illüzyon paradoksuyla ilgili olduğunu iddia ediyorum .

Herkesi ağlayan / arkadaş eden tek bir arkadaşın olabilir. Bu kişi genel olarak milyonda bir kişi olabilir, ancak her kişinin arkadaşlarından biri olacak.k

Benzer şekilde, burada hem A hem de B kategorisini satın alan üçte biriniz var. Ancak, A veya B kategorilerinde 2 alıcıdan 1 tanesi süper alıcıdır.

Aşırı zor vaka:

Haydi loto bileti ayarlayalım. Her set S i kaybeden bir bilet: iki bilet içermektedir i ve ikramiye kazanan bilet.nSii

Her grubu ortalama kazanç daha sonra JSi buradaJikramiyedir. Her kategorinin ortalamayolbilet genel ortalama kazanç üzerindeJJ2J .Jn+1

Satış davasıyla aynı kavramsal dinamik. Her set her kategori A, B veya C ağır satınalmacılar içerdiğini aynı şekilde ikramiye bileti dahildir.Si

Benim alt çizgi noktası temelinde, bu sezgi olacağını ayrık setleri, örnek uzayın tam bölüm yok değil , bir dizi taşınamaz örtüşen setleri. Örtüşen kategorileri şart koşarsanız, her kategori ortalamanın üzerinde olabilir.

Eğer varsa bölüm ayrık setlerinde örnek alan ve durumunu, daha sonra kategoriler genel ortalamaya ortalama dışarı lazım ama bu setleri örtüşen için doğru değil.


3
Teşekkürler! İkili sayımı açıklamanın anahtarı olduğunu düşünüyorum. Bunun mutlaka bir kaç aşırı değerin sonucu olduğunu sanmıyorum. Yukarıdaki örnek veri kümem oldukça sıradan ve "ortalamanın üstündeki tüm gruplar" etkisi hala gerçekleşiyor. Sanırım çoğu durumda olacak. Sadece bir adı veya önceki bir örneği olup olmadığını merak ettim.
James Adams,

@JamesAdams'ın analiz ettiği veri hatalıysa bu açıklama geçerli olmaz. Ben öyle olduğunu iddia ediyorum. Bazı ortalama veri analizi varsayımları ihlal edilmeden, grup ortalamalarının hepsinin bir araya getirilen ortalamaların hepsinden yüksek olduğu, birbirini dışlayan ve eksiksiz bir A, B ve C kategorisi kümesine sahip olamazsınız. Senin durumunda, büyük olasılıkla genel ortalama farklılık gösterir payda (örn daha katılımcılar içerir) o A, B ve C için araçların tahmini için kullanılan olanlardan var
Mike Hunter

2
@DJohnson Örnek alanını A, B ve C olarak ayarlarsanız haklısınız. Soruyu ve verilen "verileri" okumam (her ne ise), A, B ve C'nin üst üste binen kümeler olduğu yönünde . A, B ve C çakışırsa, grup ortalamaları genel ortalamadan daha yüksek olabilir (bu benim cevabımın noktası; kümeler en büyük müşterilerle örtüşüyor!). OP'nin söylediği hiçbir şey dahili olarak tutarsız değildir. "BS verilerinden geçiyoruz" dedektörünüz benimkinden daha iyi olabilir ve verilerin / sayıların geçerliliği hakkında kritik sorular sormanın her zaman önemli olduğunu kabul ediyorum.
Matthew Gunn

Evet üst üste binen kümeler. Veri setim milyonlarca müşteri ve 12 kategoridir. Ortalamalarımı genel ortalamadan daha yüksek gördüğümde garip ama açıklanabileceğini düşündüm. Görmek için 10 obs ve 3 kategorideki örnek seti bir araya getirdim. Ben sadece burada 1'leri ve 0'ları dağıldım ve aynı çıktı. Bunun, bu tür bir ortalamanın hesaplandığı çoğu veri kümesinde meydana geldiğinden şüpheleniyorum. @Djohnson benim yukarıdaki örneğime, genel ortalama için 10, As için 5, Bs için 5, Cs için 6 paydası olarak kullanıyorum. Bana bu örnekte neyi ihlal ettiğimi söyleyebilir misiniz?
James Adams,

'10' neyi temsil ediyor? 3 kategorideki katılımcıların ağı? Herkes için aynı paydayı kullanırsanız ortalamalara ne olur? Genel ortalama etrafında dalgalanan ortalamaları döndürmelidir.
Mike Hunter,

10

Buna aile boyu paradoksunu ya da benzeri bir şey diyebilirim.

2

  • 2
  • 21e22.313
  • 3

Gerçek demografik ve anket sayıları farklı sayılar üretse de benzer modeller oluşturur

Belirgin paradoks, bireylerin kardeş gruplarının ortalama büyüklüğünün aile başına düşen ortalama çocuk sayısından daha büyük olmasıdır; istikrarlı nüfus dinamikleri ile, insanlar ortalama olarak ebeveynlerine göre daha az çocuğa sahip olma eğilimindedir.

Açıklama, ortalamanın ebeveynler ve aileler için mi yoksa kardeşler üzerinden mi alındığıdır: Büyük ailelere uygulanan farklı ağırlıklar vardır. Örnekte, bireyler veya satın alımlarla ağırlıklandırma arasında bir fark vardır; Koşullu ortalamalarınız, belirli bir satın alma işleminde şart koşmanız nedeniyle artırılır.


8

Diğer cevaplar neler olup bittiğini çok fazla düşünüyor. Bir ürün ve iki müşteri olduğunu varsayalım. Biri ürünü (bir kez) satın aldı, biri almadı. Satın alınan ortalama ürün sayısı 0,5'tir, ancak yalnızca ürünü alan müşteriye bakarsanız, ortalama 1'e yükselir.

Bu bana bir paradoks gibi gelmiyor ya da bana karşı geliyor; Bir ürünün satın alınmasında koşullandırma, genellikle satın alınan ortalama ürün sayısını artıracaktır.


Kesinlikle. Her 3 kategorideki alımların aşırı derecede ilişkili olmadığını varsayarsak, yaptığınız şey, alım oranını kategorilerden birinde% 100'e çıkardıktan sonra ortalamaları hesaplamaktır. Örneğin karşılaştırmak muhtemelen daha bilgilendirici olacaktır. B ve C kategorilerinde ortalama satın alma oranı: a) tüm müşteriler arasında (11/20) b) A (4/10) satın alanların arasında. Neyi göstermeye / bulmaya çalıştığınıza bağlı.
konrad

2

Bu sadece gizlenmiş "ortalamaların ortalaması" karmaşası değil midir (örneğin önceki yığın değiştirme sorusu )? Baştan çıkarıcınız, alt örnek ortalamalarının, nüfus ortalamasına göre ortalama olarak bitmesi gerektiği görünüyor, ancak bu nadiren gerçekleşecek.

Klasik "ortalamaların ortalaması" nda, birisi birbirini dışlayan N alt gruplarının ortalamasını bulur ve daha sonra bu değerlerin, nüfus ortalamasının ortalaması olmadığını gösterir. Ortalamaların ortalamasının tek yolu örtüşmeyen alt kümelerinizin aynı boyutta olmasıdır. Aksi takdirde, ağırlıklı bir ortalama almanız gerekir.

Sorununuz üst üste binen alt kümeleriyle bu ortalama ortalamanın karışıklığından daha karmaşık bir hal alıyor, ancak bana bir bükülme ile bu klasik hata gibi geldi. Örtüşen alt kümelerle, nüfus ortalamasına göre ortalama olan alt örnek ortalamalarıyla sonuçlanmak daha da zordur.

Örneğinizde, birden fazla alt örnekte görünen (ve bu nedenle birçok şey satın almış olan) kullanıcılar bu ortalamaları artıracaklardır. Temel olarak, her bir büyük harcama yapan kişiyi birden çok kez sayıyorsunuz, yalnızca bir maddeyi satın alan tutumlu insanlara yalnızca bir kez rastlanıyorsunuz, bu yüzden daha büyük değerlere önyargılısınız. Özel alt gruplarınızın ortalama değerlerin üzerinde olmasının nedeni budur, ancak bunun hala sadece "ortalamaların ortalaması" sorunu olduğunu düşünüyorum.

Alt örnek ortalamalarının farklı değerler aldığı verilerden her türlü diğer alt kümeleri de oluşturabilirsiniz. Örneğin, alt kümelerinize biraz benzer alt kümeler alalım. A almayan insanların alt kümesini alırsanız, ortalama 7/5 = 1.4 öğe alırsınız. B satın almayan alt kümeyle, ayrıca ortalama 1.4 öğe elde edersiniz. Olanlar vermedi satın C, ortalama olarak 1,5 öğeleri satın aldı. Bunların hepsi 1,6 ürün / müşteri nüfusunun altında. Doğru veri kümesi ve doğru alt grup koleksiyonu göz önüne alındığında, ortalamaları nüfus ortalaması ortalaması olan örtüşen alt kümelerle sonuçlanabilir; Ancak, normal uygulamalarda bu nadir görülür.

Sadece benim mi, yoksa ortalama kelime artık birçok tekrardan sonra garip görünüyor mu ... Cevabımın yardımcı olacağını umarım ve ortalama kelimeyi mahvetmişsem özür dilerim!


Teşekkürler! Örtüşmeyen aynı büyüklükteki bölümler hakkındaki yorum, bunu zihnimde açıklığa kavuşturdu. Bu rakamları sunmaya başladığımda “Tüm kategori ortalamaları genel ortalamanın üzerinde, ancak bu Blahblah paradoksudur” gibi bir şey diyebileceğimi umuyordum. "Simpson'un Paradoksu !, Sarmaşık Birliği Cinsiyetçiliği!" Derken ve sonra odadan tükendi. (Hepiniz bunu bazen yaparsınız değil mi?) Onlara “Bunun farklı boyutlarda çakışan altkümeler olduğu için” demelerini isterdim ama bunun iniş olacağını düşünmeyin!
James Adams

1
Haha, yeterince adil. Daha önce bağlamı tam olarak anlamadım - Ben bir astrofizik lisans öğrencisiyim, bu yüzden bağlamı pek anlamadım. "Tüm alt kümelerin ortalamaları genel ortalamanın üzerinde olduğu için kısa bir şey söyleyebilirsiniz, çünkü alt kümelerin bizi daha büyük değerlere yönelttikleri yoldur." Ortalama adın ortalamalarından bahsetmiyorum çünkü hepsi iyi bilinen bir şey değil ve durumunuz bunun genellemesi gibi. Ayrıca, kategoriler kelimesini değiştirmek için eşanlamlı bir kelime bulmaya çalışırdım - genellikle kelimeyi birbirini dışlayan alt kümeleri ima eden bir kelime olarak görürüm.
17'de

Anlamsal Satiasyon , tekrarlamanın bir kelimenin veya cümlenin, dinleyicinin geçici olarak anlamını yitirmesine yol açan, daha sonra konuşmayı tekrarlanan anlamsız sesler olarak algılayan psikolojik bir fenomendir.
Patrick

1

Mesele " Bunu anlıyorum ama bunu pazarlamaya açıklamalıyım " olduğu için OP, bir meslekten olmayan kişinin bu gerçekleri nasıl yorumlayacağıyla ilgileniyor gibi görünüyor - (gerçeklerin doğru olup olmadığı ya da nasıl olduklarını göstermeyerek). Soru, 10 ürün kategorisine (AJ) atıfta bulunuyor, peki bu örnek:

[pazarlama grubuyla toplantıda]
OP : Burada gördüğünüz gibi , A, B ve C satın alan müşterilerin hepsi ortalamadan daha değerli.
Layman : Bekle ?! Herkes ortalamadan daha yüksek nasıl olabilir?
OP : Güzel soru. Bu slayt A, B ve C müşterileri üzerinde durur, ancak gösterilmeyen diğer düşük performans grupları da vardır. Örneğin, D ve G kategorilerinin müşterileri her birinin ortalamasının yaklaşık yarısı kadardır.

Bu, herkesin dahili bs-alarmını 'her şeyin ortalamanın üzerinde olduğu' şeklinde ifade etmelidir.


Bir soruyu cevaplamanın yolu bu değil.
Michael R. Chernick

Sorusu cevaplanmıştı, ama kimse onun sorununu çözmedi.
Patrick

Yorumum sadece Patrick'in cevabıyla ilgiliydi.
Michael R. Chernick

Farklı cevaplama stillerine karşı herhangi bir kural görmüyorum. Raporlama (gerçek veya hayal edilmiş) tartışmaları ve konuşmaları, Sokrates'ten sonraki (ve bildiğim kadarıyla ondan önce) sorunları üzerinden düşünmenin zamandan onurlu bir yoludur.
Nick Cox

Ancak bu açıklama aslında yanlıştır. Daha fazla kategori (DJ) olmasa bile, gözlem doğru kalır: Örtüşen alt kümelerin ortalamaları, alt kümelerin tamamını ayarlasa bile, tüm kümenin ortalamasından daha yüksek olabilir.
isarandi

0

Buradaki diğer cevapları yoksay. Bu aslında bir paradoks değil . Eldeki herkesin görmezden geldiği görünen asıl mesele, aslında hangi olasılıkla bakıyorsunuzdur. Aslında, burada, oyunda, önerilen örneğinizde (pazarlama) kendi kullanımları ve yorumları olan iki farklı ortalamalar ve istatistikler var!

Öncelikle, müşteri başına satın alınan ortalama ürün sayısı var. Yani ortalama olarak, bir müşteri 1,6 ürün satın alıyor. Elbette, bir müşteri ürünün 0,6'sını (ancak bununla ilişkili sürekli bir ölçümü olan pirinç veya tahıl gibi bir şey olmadığını varsayarsak) yapamaz.

İkincisi, belirli bir ürünü satın alan ortalama müşteri sayısıdır. Sesler garip değil mi? Yani ortalama olarak bir ürünün 5.33333333 ... müşterisi satın alıyor. Ancak bu farklı. Burada tarif ettiğimiz şey, satın alınan ürün sayısı değil (yalnızca üçü var!), Daha ziyade, söz konusu ürünü satın alan kişi sayısı.

İki değeri şu şekilde düşünün: Bu iki değer, yalnızca bir müşteri mi yoksa tek bir ürün olsaydı neyi temsil ederdi? Sonuçta, tek bir veri noktasının ortalaması sadece verilen veri noktasıdır.

Ya da daha iyisi, tabloyu size ürünü satın almak için harcadığınız para miktarını veriyormuş gibi düşünün. Açıkçası, bireysel bir müşteri tarafından harcanan ortalama miktar, büyük bir şirketin (veya sadece küçük bir işletmenin) sağladığı bir ürünün ortalama olarak kazandığı para miktarından çok daha az olacaktır. Şirketin refahını tartışırken her iki değeri de kullanmanın iyi yollarını düşünebileceğinizden eminim.

Bunu pazarlama ekibine anlatmaya gittiğinde, söylediğim gibi onlara açıkla. Bu bir paradoks değil. Sadece tamamen farklı bir istatistik. Buradaki tek sorun aslında grafiği okumak için iki farklı yol olduğunun fark edilmesiydi (yani, ürün başına satın alan kişi sayısı - kişi başına satın alınan ürün sayısı).

Tanımladığınız ilk şey, tek bir müşterinin ürünlerinizi satın almak için harcamak istediği ortalama miktardır. İkincisi, halk tarafından verilen bir ürün için ortalama talep. Eminim şimdi neden ikisinin de kesinlikle aynı şey olmadığını görebiliyorsunuz. Bunları böyle karşılaştırmak size sadece çöp bilgisi verecektir.


DÜZENLE

Asıl soru, aslında bir ürün a, b veya c satın alan müşteriler tarafından harcanan ortalama parayı soruyor gibi görünmektedir. Peki. Bu aslında hesaplamalarda sadece bir hatadır. Buna paradoks demezdim. Bu gerçekten sadece ince bir şüphe.

Sütunlarına bak. Sütunlar arasında paylaşılan insanlar var. Let Diyelim ki uygun yaptığını varsayalım ağırlıklı ortalama. Hala insanları iki kere ekliyorsun. Bu, ortalamanın 2'den büyük veya ona eşit bir değeri olan fazladan insanlar içereceği anlamına gelir. Şimdi ortalamanız nasıldı? 1.6 oldu! Temelde ortalamanız şöyle görünür:

i=0nvalueOfPersonivalueOfPersonin

Bu kesinlikle doğru formül değil. Durumunuzda gerçek bir ortalama elde etmek için nasıl ayarlayacağınız konusundaki karşılıklı münhasırlığı varsayarsak, ağırlıklı bir ortalamadır.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

Her iki durumda da berbat bir ortalama elde edersiniz. Bir hata, bir kategorinin ortalama olarak daha büyük bir "ağırlık" içerdiğinden ağırlıklı ortalamaya olan ihtiyacı görmezden geliyordu. Yoğunluk gibi. Bir değeri insanlar temsil eden daha yoğun. Diğer sorun, ortalamayı çarpıtacak olan yinelenen eklemedir. Yine de bu "paradokslar" demiyorum. Ne yaptığını gördükten sonra, neden işe yaramayacağını bana açıkça gösteriyordu. Ağırlıklı ortalama, ihtiyacı için biraz açıklayıcıdır ve bence şimdi, işe yaramayan değerleri defalarca eklediğinizi görüyorsunuz. Temelde onların değerlerinin karelerinin ortalamasını aldınız.


Bunun böyle olduğunu sanmıyorum. Burada, belirli bir ürünü kaç kişinin satın aldığıyla ilgilenmiyorum. Bir müşterinin A. aldıklarını söyleyerek aldığı toplam ürün sayısını merak ediyorum.
James Adams

@JamesAdams Tamam yeterince adil. Bu durumda, sorun daha da önemsizdir. Sadece örnek bir alt kümesini ortalama alıyorsunuz. Teoride, B ve C ile aynı şeyi yapsaydınız, nihai ortalama, gerçek ortalama olmazdı. Ancak, bu sadece numunelerin eşit olmamalarından kaynaklanmaktadır. Bu kadar. Aslında, bunun bir insan için açık olmasının bir nedeni olmadığını görüyorum. Aslında ortalamaları düzeltmek için size uygun bir ortalama vermenin bir çözümü var. Buna ağırlıklı ortalama adı verilir ve temel olarak her bir alt gruba o gruptaki kişilerin sayısıyla “ağırlık” verirsiniz. Mantıklı olmak?
Büyük Ördek

@ JamesAdams ve senin de ilgilenmediğini biliyorum. Kişi başına ortalama ürün sayısını denemek ve hesaplamak için bu ortalamayı kullanan bir paradoks oluşturduğunu iddia ettiğiniz matematiksiniz. Bu nedenle, bu cevabın farklı bir istatistik için ikinci bir ortalama olduğunu ve “yanlışlığınızın” tamamen farklı bir ortalamaya atılmaya çalıştığını vurguluyorum.
Büyük Ördek
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.