Ne kadar ödenecek? Pratik bir problem


66

Bu bir ev işi sorusu değil, firmamızın karşılaştığı asıl sorun.

Çok yakın bir zamanda (2 gün önce) bir bayiye 10000 ürün etiketi üretimi için emir verdik. Bayi bağımsız bir kişidir. Dışarıdan üretilen etiketleri alır ve satıcıya ödeme yapar. Her etiketin şirkete tam olarak 1 ABD doları maliyeti vardır.

Dün, bayi etiketleri geldi ancak etiketler her biri 100 etiketlik bir pakette toplandı. Bu şekilde toplam 100 paket vardı ve her paket 100 etiket, yani toplam 10000 etiket içeriyordu. 10000 ABD Doları tutarındaki satıcıya ödeme yapmadan önce, her paketin tam olarak 100 etiket içerdiğinden emin olmak için birkaç paket saymaya karar verdik. Etiketleri saydığımızda 100 etiketten az paket bulduk (97 etiket bulduk). Bunun tesadüf olmadığını, ancak bilerek yapıldığından emin olmak için 5 paket daha saydık ve her pakette aşağıdaki etiket sayısını (ilk paket dahil) bulduk:

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

Her bir paketi saymak mümkün olmadığından, ortalama olarak ödeme yapmaya karar verdik. Yani, altı paketteki ortalama etiket sayısı 97.166'dır, bu nedenle toplam ödeme kararı 9716 ABD dolarıdır.

Sadece istatistikçinin bu tür bir sorunla nasıl başa çıkması gerektiğini bilmek istiyorum .
Dahası, gerçek etiketlerin tam sayısından daha fazla ödemediğimizden% 95 güvence almak için ne kadar ödeme yapmamız gerektiğini bilmek istiyorum.

Ek bilgi:

P (100'den fazla etiket içeren herhangi bir paket) = 0
P (90'dan az etiket içeren herhangi bir paket)


EDIT: Bayi sadece böyle bir yanlış uygulama reddetti. Bu satıcıyı, firma tarafından ödenen ücretle ilgili olarak üreticiden aldıkları belirli bir komisyonda bulduk. Doğrudan üretici ile iletişim kurduğumuzda, ne üretici ne de satıcı hatası olduğunu gördük. Üretici, “Etiketler kısalaştıkları için standart hale getirilmediğinden ve tek sayfadan gelen her sayı kesilip paket halinde toplandığından, etiketler kısalır” dedi.

Ayrıca, ek bilgilerde verilen ilk iddiamızı doğruladık , çünkü üretici, levha boyutunda marjinal artıştan, ek etiketlerin kesilmesinin mümkün olmadığını, ayrıca levha boyutunda marjinal bir indirimden kesmenin mümkün olmadığını kabul etti. Tam olarak aynı büyüklükte 100 etiket.


7
+1 (1) "Ek bilgi" bölümündeki ilk iddiayı nasıl haklı gösterebilirsin? (2) Paketleri ne kadar doğru tartarsınız?
whuber

15
İngiltere ve Isaac Newton aynı problemi 300 yıl önce karşıladılar. (Bahisler "biraz" çünkü söz konusu "etiketler" basılmış paralardı.) Bu nedenle, Stephen Stigler'in stat.wisc.edu/sites/default/files/TR442_0.pdf adresinde Pyx Deneme hesabını okumaktan zevk alabilirsiniz .
whuber

7
@Neeraj Tüm öğelerin ağırlıkları tutarlısa, neden tüm teslimatı ağırlıklandırmıyorsunuz?
Monica

9
9000 $ ödeme teklifinde bulunmalarını ve "Size sadece 1000'i değil, 600'ü kısalttık " demelerini bekleyin
Dean MacGregor

5
Büyük istatistik sorusunun yanı sıra, +1, uzun yıllar boyunca matbaa işinde daha doğrudan bir tavsiyede bulunmak istedim: tüm uygun, profesyonel yazıcıların böyle bir aşma / işletme politikası var, çünkü çoğu yazıcı tam sayıları sunmuyor. "numaralandırma" özelliğini kullanmayan herhangi bir şey (bireysel seri numaraları). Fakat size verdiklerinin mükemmel bir sayısına sahip olmalılar ve eğer kısaltılırsa küçük (eğer% 5 gibi) fazla indirim yapmalılar. Bilinen işletmeler için tam ücretlendirme standart politika DEĞİLDİR.
BrianH

Yanıtlar:


20

Modelin belirli bir kısmı beni geceleri ayakta tuttuğu için "Yansıma üzerine ..." başlığındaki paragrafla ilgili geri bildirimlerle ilgileniyorum.

Bayesian modeli

Gözden geçirilmiş soru, modeli simülasyon kullanmadan açıkça geliştirebileceğimizi düşünüyor. Simülasyon, örneklemenin içsel rasgeleliği nedeniyle ek değişkenlik getirmiştir. Sophologlar cevap olsa da, harika.

Varsayımlar : zarf başına en az etiket sayısı 90, en büyüğü 100'dür.

Bu nedenle, mümkün olan en küçük etiket sayısı 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (OP verisine göre), alt sınırımızdan dolayı 9000 ve gözlemlenen verilerden gelen ek etiketlerdir.

Bir zarfın içindeki etiket sayısını ile belirtin . 90'ın üzerindeki etiketlerin sayısını, yani , yani belirtin . Binom dağılımı modelleri başarı sayısı olarak (burada başarılı bir zarf içinde bir etiket varlığıdır) denemeleri sabit başarı olasılığı ile bağımsız çalışmalarda böylece değerleri alır11 farklı olası sonuç veren alıyoruz . Sayfa boyutları düzensiz olduğu için bazı sayfaların yalnızca için yer olduğunu varsayıyorum.YiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10X90'dan fazla ilave etiket ve her etiket için 90'dan fazla olan bu "ilave alan", olasılıkla bağımsız olarak oluşur . YanipXiBinomial(10,p).

(Yansıtmanın ardından, bağımsızlık varsayımı / binom modelinin yapılması muhtemelen tuhaf bir varsayımdır, çünkü yazıcının sayfalarının kompozisyonunu tekdüze olacak şekilde etkili bir şekilde düzeltir ve veriler yalnızca modun konumunu değiştirebilir, ancak model hiçbir zaman kabul etmeyecektir. multimodal dağılım Örneğin, alternatif bir modelde, sadece yazıcının yazması mümkündür.97, 98, 96, 100 ve 95 boyutlarında sayfalara sahiptir: bu, belirtilen tüm kısıtlamaları yerine getirir ve veriler bu olasılığı dışlamaz. Her sayfa boyutunu kendi kategorisi olarak kabul etmek ve daha sonra verilere Dirichlet-multinomial bir modele uymak daha uygun olabilir. Bunu burada yapmam çünkü veriler çok az, bu nedenle 11 kategorinin her birindeki arka olasılıklar öncekilerden çok fazla etkilenecek. Öte yandan, daha basit modele uyarak aynı şekilde yapabileceğimiz çıkarım türlerini daraltıyoruz.)

Her zarf , bir idrakinin gerçekleştirilmesidir . Aynı başarı olasılığına sahip binom denemelerinin toplamı de , bu yüzden(Bu bir teoremdir - doğrulamak için MGF benzersizlik teoremini kullanın.)iXpiXiBinomial(60,p).

Bu problemleri bir Bayesian modunda düşünmeyi tercih ederim, çünkü posterior ilgi miktarları hakkında doğrudan olasılık ifadeleri yapabilirsiniz. Bilinmeyen ile binom denemeler için tipik bir önceki olan beta dağılımı bir antimode veya moduna sahip, her iki yönde, muntazam ya da iki Dirac kütlelerinin biri simetrik veya asimetrik olabilir, (çok esnektir, 0 ile 1 arasında değişir, .. Bu inanılmaz bir araçtır! Veri yokluğunda, tekdüze bir olasılık olduğunu varsaymak makul gözükmektedir . Diğer bir deyişle, bir sayfanın 90, 91, sıklık 92, ... ve 100 kadar sıklıkta 90 etiket barındırması beklenebilir. ÖnceliklepppBeta(1,1).Önceden bu beta'nın makul olduğunu düşünmüyorsanız, önceki üniforma daha önce başka bir beta ile değiştirilebilir ve matematik zorlukta bile artmaz!

üzerindeki posterior dağılım bu modelin eşlenik özellikleri ile . Bu sadece ara bir adımdır, çünkü toplam etiket sayısını umduğumuz kadar umrunda değiliz. Ne yazık ki, eşleniklik özellikleri, aynı zamanda, levhaların posterior öngörücü dağılımının beta posterior parametreleriyle beta-binomial olduğu anlamına gelir . Orada kalan etiketlere bizim arka modeli böylece reamining "denemeler", teslim varlıkları belirsiz olduğu yani etiket, iseppBeta(1+43,1+17)p940ZZBB(44,18,940).

görüntü tanımını buraya girin

üzerinde bir dağıtım yaptığımız ve etiket başına bir değer modelimiz olduğu için (satıcı etiket başına bir dolar kabul etti), partinin değeri üzerinde olasılık dağılımı da çıkarabiliriz. Ifade çok toplam dolar değeri. olduğunu biliyoruz , çünkü yalnızca belirsiz olduğumuz etiketleri modellemektedir. Böylece değer üzerinden dağılım ile verilmektedir .ZDD=9043+ZZD

Çok fiyatlandırma yapmanın uygun yolu nedir?

% 0.025 ve 0.975'teki (% 95'lik bir aralıkta) niceliklerin sırasıyla 553 ve 769 olduğunu görebiliriz. D'de% 95 aralığı . Ödemeniz bu aralıkta düşüyor. ( dağılım tam olarak simetrik değildir, bu nedenle bu merkezi% 95 aralığı değildir - ancak asimetri ihmal edilebilir. Yine de, aşağıda ayrıntılandırdığım gibi, merkezi% 95 aralığının bile doğru olduğundan emin değilim. dikkate alınması gereken!D[9596,9812]D

R'deki beta binom dağılımı için nicel bir fonksiyonun farkında değilim, bu yüzden R'nin kök bulma özelliğini kullanarak kendi yazdım.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

Bunu düşünmenin bir başka yolu sadece beklenti hakkında düşünmektir. Bu işlemi birçok kez tekrarlarsanız, ödediğiniz ortalama maliyet nedir? nin beklentisini doğrudan hesaplayabiliriz . Beta binom modelinin bir beklentisi var , yani neredeyse tam olarak ödediğiniz şey. Anlaşmadaki beklenen kaybın sadece 6 dolardı! Hepsi anlatıldı, aferin!E ( D ) = E ( 9043 + Z ) = E ( Z ) + 9043. E ( Z ) = n αDE(D)=E(9043+Z)=E(Z)+9043.E(D)=9710,097,E(Z)=nαα+β=667.0968E(D)=9710.097,

Ancak bu rakamlardan herhangi birinin en alakalı olduğundan emin değilim. Sonuçta, bu satıcı sizi kandırmaya çalışıyor! Bu anlaşmayı yapsaydım, fiyatın kırılması ya da fiyatın gerçeğe uygun fiyatından endişe duymazdım ve fazla ödeme yapma ihtimalim üzerinde çalışmaya başlarım! Satıcı açıkça beni dolandırmaya çalışıyor, bu yüzden kayıplarımı en aza indirgemek ve kendi başıma durma noktasıyla ilgilenmemek için tamamen haklarım dahilindeyim. Bu ortamda, teklif edebileceğim en yüksek fiyat 9615 dolar, çünkü bu, deki posteriorun% 5'lik kısmıdır , yani, ödeme yaptığım% 95 olasılık varD . Satıcı bana tüm etiketlerin orada olduğunu kanıtlayamıyor, bu yüzden bahislerimi hedge edeceğim.

(Elbette, satıcı anlaşmayı kabul olması o negatif olmayan olduğunu söyler gerçek ... Ben nota dışında bize daha kesin hile ne kadar belirlemeye yardımcı olmak için bu bilgileri kullanmak için bir yolunu değil kaybını ki teklifi kabul ettiğinden, en iyi ihtimalle bile kırılıyordun.)

Önyükleme ile karşılaştırılması

Çalışmamız gereken sadece 6 gözlemimiz var. Önyüklemenin gerekçesi asimptotiktir, o nedenle sonuçların küçük örneklemizde nasıl göründüğünü düşünelim. Bu çizim, boostrap simülasyonunun yoğunluğunu gösterir. görüntü tanımını buraya girin

"Engebeli" desen küçük örneklem büyüklüğünün bir eseridir. Herhangi bir noktanın dahil edilmesi veya hariç tutulması, bu "kümes hayvanı" görünümünün yaratılması anlamında çarpıcı bir etkiye sahip olacaktır. Bayesian yaklaşımı bu kümelemeleri yumuşatıyor ve bence neler olup bittiğinin daha inandırıcı bir portresi. Dikey çizgiler% 5'lik niceliklerdir.


bu harika bir cevap. Riske karşı ceza vererek yeni bir fikir verdiniz. Teşekkürler
Neeraj

1
Beklediğiniz kaybın sadece 6 dolar olduğunu öğrendiğim için mutlu oldum. :-) Harika bir soru için tekrar teşekkürler.
Monica

1
np0,1,2,3,....,n.n=10Xp
Monica

1
0,1,2,3,...101,102,103,...,1061060X10


20

EDIT: Trajedi! İlk varsayımlarım yanlıştı! Ben istatistiklerine başka iyi tanıtım olduğunu tahmin Hangi - (Ya şüphe, en azından.? Satıcının yanı, Morten için şapka ucu, Hala sana ne dediğini güveniyorsunuz), ancak Kısmi Sac Yaklaşımı şimdi olduğu katma altında ( insanlar Tüm Sayfayı beğenmiş gibiydiler, ve belki de birileri hala faydalı bulacaktır).

Her şeyden önce, büyük sorun. Ama biraz daha karmaşık hale getirmek istiyorum.

Bu nedenle, benden önce biraz daha basitleştireyim ve şunu söyleyeyim - şu anda kullandığınız yöntem tamamen makul . Ucuz, kolay anlaşılır. Bu yüzden buna bağlı kalmak zorundaysan, kendini kötü hissetmemelisin. Paketlerinizi rastgele seçtiğinizden emin olun. VE, eğer herşeyi güvenilir bir şekilde ölçebiliyorsanız (whuber ve user777 için şapka ucu), o zaman bunu yapmalısınız.

Bunu biraz daha karmaşık hale getirmemin nedeni, zaten sahip olduğun şey - bize tüm komplikasyondan bahsetmedin, ki bu - saymak zaman alıyor ve zaman da para . Ama ne kadar ? Belki aslında her şeyi saymak daha ucuzdur!

Yani gerçekte yaptığınız şey, harcadığınız para ile saymak için gereken zamanı dengelemek. (EĞER, elbette, bu oyunu sadece bir kez oynarsınız. NEXT bununla satıcıda bunun gerçekleştiği zaman, yakalamış ve yeni bir numara denemiş olabilir. Oyun teorisinde, Tek Çekim Oyunları ile İterasyon arasındaki fark budur. Oyunlar. Ama şimdilik, satıcının hep aynı şeyi yapacağını farzedelim.)

Tahmin etmeden önce bir şey daha. (Ve, çok fazla yazdığım için üzgünüm ve hala cevabı alamadım, ama o zaman, bu bir istatistikçi ne yapardı? İçin oldukça iyi bir cevap. Sorunun her küçük parçasını anladıklarından emin olmak için çok fazla zaman harcayacaklardı. onlar hakkında bir şey söyleme konusunda rahatlardı.) Ve bu şey, aşağıdakilere dayanan bir içgörüdür:

(EDIT: GERÇEKTEN HEDEF ETMİYORLAR ... ...) Satıcınız etiketleri kaldırarak para tasarrufu yapmaz - sayfa basmayarak para tasarrufu sağlar. Etiketlerinizi başka birine satamazlar (Sanırım). Ve belki de bilmiyorum ve bilmiyorum eğer sen yaparsın, senin eşyalarının yarısını, başkalarının yarısını da basamazlar. Başka bir deyişle, saymaya başlamadan önce, toplam etiket sayısının da olduğunu varsayabilirsiniz 9000, 9100, ... 9900, or 10,000. Şimdilik böyle yaklaşacağım.

Tüm Sac Yöntemi

Bir problem bunun gibi biraz zorlaştığında (ayrık ve sınırlı), birçok istatistikçi ne olabileceğini simüle edecektir. İşte simüle ettiğim şey:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

Bu, tam sayfalar kullandıklarını ve varsayımlarınızın doğru olduğunu, etiketlerinizin muhtemel bir dağılımını (R programlama dilinde) varsaydığını gösterir.

Sonra bunu yaptım:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

Bu, bir "önyükleme" yöntemi kullanarak, 4, 5, ... 20 örnek kullanarak güven aralıklarını bulur. Başka bir deyişle, Ortalama olarak, eğer N örnek kullanacak olsaydınız, güven aralığınız ne kadar büyük olurdu? Bunu yaprak sayısına karar verecek kadar küçük bir aralık bulmak için kullanıyorum ve bu benim cevabım.

"Yeterince küçük" derken,% 95 güven aralığımın içinde sadece bir tam sayı olduğunu kastediyorum - örneğin, güven aralığı [93.1, 94.7] 'den olsaydı, o zaman bildiğimizden beri doğru sayfa sayısı olarak 94 seçerdim. bu bir tam sayı.

Yine de başka bir zorluk - güveniniz gerçeğe bağlıdır . 90 sayfanız varsa ve her yığında 90 etiket varsa, çok hızlı bir şekilde birleşirsiniz. 100 sayfa ile aynı. Bu yüzden en fazla belirsizliğin olduğu 95 sayfaya baktım ve% 95 kesinliğe sahip olmak için, ortalama olarak yaklaşık 15 örneğe ihtiyacınız olduğunu öğrendim. Diyelim ki genel olarak 15 örnek almak istiyorsunuz, çünkü orada gerçekten ne olduğunu asla bilemezsiniz.

Kaç tane örneğe ihtiyacınız olduğunu bildikten sonra, beklenen tasarrufunuzun olduğunu biliyorsunuz:

100Nmissing15c

c50015

Ama aynı zamanda bu işi yapman için adamdan da para almalısın!

(EDIT: EKLENDİ!) Kısmi Sayfa Yaklaşımı

Tamam, üreticinin ne söylediğini doğru olarak kabul edelim ve kasıtlı değil - her sayfada birkaç etiket kayboluyor. Hala, kaç etiket hakkında, genel olarak bilmek istiyor musunuz?

Bu sorun farklı çünkü artık yapabileceğiniz güzel ve temiz bir kararınız yok - bu, Tam Tabaka varsayımının bir avantajıydı. Önceden, sadece 11 olası cevap vardı - şimdi, 1100 var ve tam olarak kaç etiketin bulunduğu konusunda % 95 güven aralığına sahip olmak muhtemelen istediğinizden çok daha fazla örnek alacaktır. Bakalım bunu farklı düşünebilir miyiz bakalım.

Bu gerçekten sizin karar vermenizle ilgili olduğu için, hala birkaç parametreyi kaçırıyoruz - tek bir anlaşmada ne kadar para kaybetmek istiyorsunuz ve bir yığını saymanın ne kadar maliyeti var. Ama bu numaralarla ne yapabileceğini ayarlayayım.

Tekrar benzetim yapın (eğer yapmadan yapabilirseniz kullanıcı777'ye geçmesine rağmen!), Farklı sayıdaki örnekleri kullanırken aralıkların boyutuna bakmak bilgilendiricidir. Bu böyle yapılabilir:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

Hangisi (bu sefer) her bir yığının 90 ile 100 arasında eşit miktarda rasgele bir etikete sahip olduğunu varsayar ve size şunları verir:

Örneklem Sayısına Göre Güven Aralıklarındaki Sınırlar

Elbette, işler gerçekten benzetilmişlerse, gerçek ortalama yığın başına yaklaşık 95 örnek olacaktır, ki bu gerçeğin göründüğünden daha düşüktür - bu aslında Bayesian yaklaşımı için bir argümandır. Ancak, size örnekleme yapmaya devam ederken, cevabınızla ilgili ne kadar emin olacağınıza dair yararlı bir fikir verir - ve şimdi fiyatlandırma konusunda ne tür bir anlaşma yapsanız, örnekleme maliyetini açıkça değiştirebilirsiniz.

Şimdilik biliyorum ki, hepimiz duymak gerçekten merak ediyoruz.


6
+1 Bu analiz doğrudan ve yaratıcı bir şekilde şu soruyu ele alıyor: (iyi) bir istatistikçi sorunu nasıl düşünür? Sayfa sayısına odaklanmak değerli bir fikirdir.
whuber

1
Fayda-maliyet yaklaşımı harika bir fikir. Zaten kolektif adam * bu soruna adanmış beyin gücü saatlerinin, kullanılan n = 6 örnek Neeraj'ın 284 $ tasarrufunu aştığını söyleyebilirim. :)
RobertF

1
Güzel cevap Halihazırda kodladığınız gibi, yazıcı tam bir yığın aldığında, fazladan etiketi yere yapıştırır, bu da makul olabilir. Ancak 9000,9100...10000sonunda toplam etiket almak istiyorsanız if mantığınızı değiştirebilir bucket <- sample(which(stacks!=100),1)ve ardından yığını her zaman artırabilirsiniz.
Adam C

1
Ah, sadece kendim farkettim! Yakaladığın için teşekkürler. Kesinlikle bir hata.
one_observation

1
Güven aralıklarını nasıl hesaplıyorsunuz? Önyükleme kullanma?
RobertF

3

Bu oldukça sınırlı bir örnek. (Kod parçacıkları R’dedir)

> sample <- c(97,98,96,100,95,97)

Toplam popülasyonda beklenen sayıda ilk tahmin ve fiyat için% 95 güven değeri ile ortalama ve% 5 miktarıyla başlayabiliriz.

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

Daha ileriye gitmek için teorik bir model oluşturmalı ve ek varsayımlarda bulunmalıyız. Oyunda pek çok belirsizlik kaynağı var - (1) bir paket dolum modelinin işlevsel şekli için belirsizlik, (2) model için parametre tahmininde belirsizlik ve (3) örnekleme hatası.

pn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

n100np10

> (lambda <- n*p)
[1] 2.833333

Poisson dağılımının ortalama eşit bir varyansa sahip bazı küçük güvenceler bulabiliriz.λ=lambda

> var(sample)
[1] 2.966667

λr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

ppαβαβα=1β=0

α=1+583β=0+17

αβαβ

Şimdi, her bir paketin bağımsız olarak doldurulduğunu varsayarsak, tüm paket kutusunu 100 alt değişkenden oluşan 100 olay yerine 10000 bağımsız olay olarak görebiliriz. Bu nedenle ortalama, standart sapma 69.57153 olan 9717.138'dir. Dağıtım işlevini kullanarak, ben R paketini kullandım 9593. etrafında% 95 güven sayı olmak hesaplayabilir VGAMonun için *betabinom.abbunu yaparken fonksiyonlar.

Dolayısıyla, tahmin edilen parametredeki belirsizlik% 95'lik güven fiyatını yaklaşık 100 oranında azaltır ve ilk basit yaklaşımımıza oldukça yaklaşıyoruz.

Yaklaşım veya model ne olursa olsun, modeli doğrulamak için ek veriler kullanılabilir, yani ek verilerin teorik model altında makul olup olmadığını veya ayarlamalar mı yoksa yeni bir model mi garanti edildiğini görmek için kullanılabilir. Modelleme işlemi bilimsel yönteme benzer.


2

Bir çimdik, ilk eğimim, 90 ve 100 etiketlerin alt ve üst sınırları arasına düşen kesik normal bir dağılıma göre örnek ortalamanız için% 95 güven aralığını hesaplamak olacaktır .

R paketi truncnorm, belirtilen bir numune ortalaması, örnek standart sapma, alt sınır ve üst sınır verilen kesilmiş normal dağılım için güven aralıkları bulmanıza izin verir.

Nispeten küçük bir popülasyondan (N = 100) bir n = 5 örnek aldığınız için, örnek standart sapmanızı sonlu bir popülasyon faktörü = [(Nn) / (N-1)] ^ ile çarpmak isteyebilirsiniz. 5 = 0,98.


5
Kesilmiş bir Normal varsaymanın ek komplikasyonlarının sayımların ayrık olması ve sadece az sayıda olası değerleri alabilmesi için faydalı ve hatta geçerli - olup olmadığını merak ediyorum.
whuber

@whuber - Doğru, ancak güven aralığı, sürekli bir miktar olan örnek ortalamasının dağılımının üzerindedir. % 95'lik bir güven aralığı kullanmak yerine, belki de daha iyi bir seçim, ayrık miktarlar arasındaki dağılımın altındaki alanı bulmaktır, örneğin 93 ve 99.
RobertF

Yine de örnek ortala çalışmak için kesilmiş bir Normal'e ihtiyacınız yok. Gereksiz bir komplikasyon gibi görünüyor.
whuber

1
CLT, hiçbir şeyin kesik normal bir dağılım izleyeceğini iddia etmez. Önyükleme problemli olabilir, çünkü geçerliliği için asimptotik sonuçlara dayanır.
whuber

1
Ortalamanın standart sapması hızla aralıktan çok daha küçük hale geldiğinden, kesilme pratik olarak önemsizdir. Gereksiz ve muhtemelen dikkat dağıtıcı detaylarla fazla karmaşık olmayan pratik bir çözümden bahsediyoruz.
whuber

2

Hızlı ve basit bir yaklaşım, 6 büyüklüğündeki tüm olası örnekleri dikkate almaktır. Yalnızca 15,625 permütasyon vardır. Bunlara bakmak ve her durum için ortalama almak ve sonra ortalamaları sıralamak ve% 5 miktarını çıkarmak, 96 değerine sahip oluyoruz.

Dolayısıyla, ödemek istediğiniz tahmini miktar yaklaşık 9600'dür. Bu, daha sofistike birkaç yaklaşımla iyi bir uyum içindedir.

Buradaki bir gelişme, 6 büyüklüğünde çok sayıda örneği simüle etmek ve örnek yollarının yüzde 5'ini bulmak için aynı prosedürü kullanmak olacaktır. Bir milyondan fazla örnek kullanarak, yüzde 5'in 96.1667 olduğunu buldum, bu yüzden en yakın dolara ödeme 9617 dolar olacaktı, bu da kullanıcının 777'nin 9615 sonucundan sadece 2 dolarlık bir fark olacaktı.


1
Bunun ne kadarının ödenmesi gerektiğine niçin uygun bir cevap olduğunu açıklayabilir misiniz? Örneğin, örneğin ortalamasını neden kullanmıyorsunuz?
whuber

Kaç tane etiket olduğunu düşündüğünüzle uyumlu bir ödeme yapmak isteseydiniz örnek ortalamasını kullanırsınız. Ancak, sorgulayıcı% 95 güvencesini, kendisinden daha fazla etiket için ödeme yapmamasını istedi. Böylece, 6 büyüklüğündeki örnekler için örnek ortalamanın dağılımı hakkında fikir edindik ve 5. yüzdelik değeri kullandık.
soakley

1
Cevabınıza bu açıklamayı dahil etmek iyi olurdu. Ayrıca, bu yeniden örnekleme prosedürünün gerçekten geçerli veya güvenilir bir güven sınırı oluşturduğunu düşündüğünüzü açıklamayı da düşünebilirsiniz. Birçok büyük veri setiyle bunu yapabilmesine rağmen, bu kadar küçük bir veri kümesiyle aynı şekilde kullanılıp kullanılamayacağını düşünmek gerekir.
whuber

0

Hatanın kasıtlı olarak yapıldığı sonucuna varmışsınız gibi gözüküyor, ancak bir istatistikçi bu sonuçlara atlamayacak (kanıtlar bunu destekliyor gibi görünse bile).

Biri bunu bir hipotez testi olarak ayarlayabilir:

H0: Satıcı dürüst ama oldukça özensiz

H1: Satıcı sahtekar ve yetersizlik kasıtlı.

H0 varsayalım, sonra her sapma, ortalama = 0 olan ve eşit ya da pozitif olma şansı olan rastgele bir olaydır. Sapmaların normal dağıldığını varsayalım. 6 veri noktasındaki sapmalara dayanarak normal dağılım için standart sapma sd = 1.722'dir.

Eğer istatistikçi teorisini çok iyi hatırlamamışsa, ancak yakınlarda R varsa (olası bir senaryo değil), H0 ise olumlu bir sapma (100'den fazla paket yok) alma olasılığını kontrol etmek için aşağıdaki kodu yazabilir. doğru.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

Simülasyonun sonucu:

The probability the H0 is correct is: 5.3471 %

Satıcının Dürüst olma olasılığı sadece% 5.35'tir ve bu nedenle dolandırıcılık kurbanı olma ihtimaliniz oldukça yüksektir.

Bunun bir ev ödevi sorusu değil, şirketiniz için gerçek bir durum olduğunu söylediğiniz için, bu durum beklenen doğru etiket sayısının hesaplanmasında bir alıştırma olmaktan çıkmakta, bunun yerine dürüst olmayan bir tedarikçiyle nasıl başa çıkılacağına ilişkin zor bir durumdur.

Buradan ne yaparsanız yapın, yalnızca istatistiklerle cevaplanamaz. Bu, kaldıraç oranınıza ve satıcıyla olan ilişkinize bağlıdır.

İyi şanslar !

Morten Bunes Gustavsen


1
17/61.72/60.7017/6/0.704.01000.00003

başarısızlık her zaman bir seçenektir, bu yüzden bir hata yapmış olabilirim ... hesaplarım ancak sağladığım R kodunda belgelenmiştir, dolayısıyla sonucumu nasıl elde ettiğimi merak etmek için hiçbir neden olmamalıdır. Evet, benim durumumdaki H0 Hipotezi bayinin dürüst olması ve daha sonra sapmaların 100'de ortalama olarak rasgele dalgalanmalar olacağı yönündedir. Hesaplamamdaki Stdev sadece serinin Stdev'idir (-3, -2, -4, 0, -5, -3) her bir pakette 100'den sapma.
Morten Bunes Gustavsen

Gerçekten sadece bu normal sapmayı kullanıyorum ve 6 örnek çiziyorum ve bunların hiçbirinin 0'dan büyük olmadığını kontrol ediyorum. Simülasyonu 1000.000 kez çalıştırıyorum ve kaç kez 0'dan daha yüksek bir örnek almak için şanssız olduğumu kontrol ediyor. vakaların% 5,35 olduğu ortaya çıktı. Bu açığı seçmemin nedeni, sorunun açıkça gerçek durumunun (yani akademik bir alıştırma değil) olduğunu ve bu durumda bir istatistikçinin ne yapacağını bilmek istediği yönündeydi.
Morten Bunes Gustavsen

3
Soru ayrıca bir pakette 100'den fazla etiket sayma şansının bulunmadığını da belirtti. Ne olursa olsun, yaptığınız şey verilere benzeyen sayıların kapsamlı bir simülasyonudur - fakat ne olursa olsun (ne kadar ödemeliyiz?) Sorusuyla ne alakası vardır?
whuber

-2

Multinom model gibi bir şey.

Her sonucun probunun 1/6, 1/6, .... (6 gözlemine dayanarak) ve E (x) = 97.16 ve Var (x) = toplam (95 ^ 2 * 1/6 +) olarak tahmin edilir. ...) - E (x) ^ 2 = 2.47, yani% 95 CI [94, 100] olacak


3
Bu hiç de multinomal gibi görünmüyor: CI'nız varyans için düzeltilmemiş formülü kullanarak Normal-teori aralığı gibi görünüyor. Ayrıca, ne kadar ödeme yapılacağı sorusuna nasıl cevap veriyor?
whuber

multinomial sonuç için geçerlidir, yani 95, 96, 97 ... 100 ve evet, CI Normal-teoridir, çünkü xe (x) / sd ~ N., ne kadar ödeme beklendiği ile aynı olacaktır, dolayısıyla 97.16 * 100
Xing

4
Multinom varsayımı hiç kullanmadığınızı fark ettiniz mi? 1908'de WS Gosset'in gözlemlediği gibi, CI'nız çok kısa. Ancak, tavsiyenizi yalnızca örneğin ortalamasına dayanacaksanız, neden bir CI hesaplamanız gerekiyor?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.