Yapboz Ortalama gerileme


9

Daniel Kahneman'ın "Düşünce, Hızlı ve Yavaş" bölümünde "Ortaya Regresyon" bölümünde bir örnek verilmiş ve okuyucudan genel satış tahmini ve önceki yıla ait satış sayıları göz önüne alınarak bireysel mağazaların satışlarını tahmin etmesi istenmiştir. . Örneğin (kitabın örneğinde 4 mağaza var, basitlik için burada 2 kullanıyorum):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Naif tahmin mağaza 1 ve 2 için 110 ve 550, her biri için% 10 artış olacaktır. Ancak yazar, bu naif yaklaşımın yanlış olduğunu iddia ediyor. Daha kötü performans gösteren mağazanın% 10'dan fazla artması ve daha iyi performans gösteren mağazanın% 10'dan az artması (hatta azalması) daha olasıdır. Yani belki 115 (% 15 artış) ve 535 (% 7 artış) tahmini naif tahminden "daha doğru" olacaktır.

Anlamadığım şey, mağaza 1'in 100'ünün satışının mutlaka daha kötü performans gösteren mağaza olduğu sonucuna varabilir miyiz? Belki de, yer farklılıkları nedeniyle, 1 ve 2 numaralı mağazaların gerçek zaman serisi araçları 10 ve 550'dir ve mağaza 1'in 2011'de süper bir yılı vardı ve mağaza 2'nin 2011'de felaket yılı vardı. mağaza 1 için düşüş ve mağaza 2 için artış tahmin etmek?

Orijinal örnekte zaman serisi bilgilerinin verilmediğini biliyorum, ancak "ortalamaya gerileme" nin kesitsel ortalamayı ifade ettiği ve bu nedenle zaman serisi bilgilerinin önemli olmadığı izlenimi altındayım. Neyi yanlış anlıyorum?

Yanıtlar:


8

O kitabı okuyorum. Anahtar bilgileri yeterince yazmadınız. "Tüm mağazalar boyut ve mal seçiminde benzer, ancak satışları konum, rekabet ve rastgele faktörler nedeniyle farklı" diyor. Bu anahtar, özellikle de son parça. Regresyonun ortalamanın gerçekleşmesi için rastgele faktörler gereklidir (eğer satışlar sabit bir miktarda büyürse, mağazalar arasında eşit olarak dağılmış% 10 kazanç doğru olacaktır).


2
"Tüm mağazalar benzer" varsayımının zaman serisi araçlarının aynı olduğunu ima ettiğini mi söylüyorsunuz? Aksi takdirde, iki özdeş mağaza konumdan dolayı hala çok farklı araçlara sahip olabilir.

1
Bir sorunun en büyük ifadesi olmadığını itiraf ediyorum, ancak orijinal sorunuzda olduğundan çok daha açık.
Peter Flom

2

Bu kadar az veri noktası olduğunda, cevap neredeyse tamamen önceki (veya ima edilen eşdeğer) tarafından belirlenecektir. Yazar daha önce bu tür bir çok veri gördüyse, geçmiş gözlemleri göz önüne alındığında, cevaplarının daha doğru olma ihtimalinin daha yüksek olduğunu düşünmek için iyi bir nedenleri olabilir. Bence bunun ortalamanın gerilemesinin bir örneği olduğunu, en azından daha fazla bilgi belirtmeden, bir gerginlik olduğunu düşünüyorum. Örneğin, mağazalar karşılaştırılabilir konumlarda mı değil mi? Eğer mağazalar arasında başka bariz farklar yoksa ve benzer bir nüfusun parçası olduklarını düşünmede haklı hissedebiliriz ve ortalamanın gerilemesini düşünebiliriz. Mağazalar arasında satışlardaki sistematik bir farkı açıklayabilecek belirgin farklılıklar varsa, bunu yapmak daha az mantıklı hale gelir.


0

Bence daha iyi (varsayımsal) bir örnek şöyle olabilir:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Sistematik nedenleri engellemek, en kötü performansın (rastgele nedenlerden) tekrar böyle olmamasını beklerdik. Ve böylece en iyi performans için.

Bu nedenle ortalama% 10 büyüme ile # 1'in 110'dan daha iyi olmasını ve # 6'nın 330'dan daha kötü olmasını beklerdim.

Ben iffy kısmı varsayımlar olduğunu hissediyorum. Paketin laggardının sadece rastgele bir fluke olması ve altta yatan heterojenlik olmaması çok nadirdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.