Bir torbadaki meyve kütlesini sadece ilgili toplamlardan tahmin et?


9

Üniversitemdeki bir eğitmen böyle bir soru sordu (ders bittiği için ben ödev için değil). Nasıl yaklaşacağımı anlayamıyorum.

Soru, her biri farklı meyve çeşitleri içeren 2 torba ile ilgilidir:

İlk çanta aşağıdaki rastgele seçilmiş meyveleri içerir:

+ ------------- + -------- + --------- +
| çap cm | kütle g | çürük? |
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91,48 | 1 |
| 7.12 | 74,23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83,29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

İkinci torba, birinci torba ile aynı mağazadan rastgele seçilen 6 meyve içerir. Çaplarının toplamı 64,2 cm ve 4'ü çürümüş.

İkinci torbanın kütlesi için bir tahmin verin.

Normal olarak dağılmış çap ve kütlelere sahip iki farklı tür meyve olduğunu görebiliyorum, ancak nasıl ilerleyeceğim konusunda kayboldum.


6
İlginç bir soru - ama garip veriler: özgül ağırlık 0.78 ila 0.05 arasında değişir. Belki birileri gerçek meyve için strafor dekorasyonlarını yanlış anladı? :-)
whuber

Soru, meyvenin neyden yapıldığını söylemiyor. Sanırım gerçek çantaların kendilerinin de ağırlıksız olduğunu varsayabilirsin. Sorunu nasıl çözebilirim?
rutilusk

3
Yorumumun itici gücü, bu kadar az miktarda dağınık veriyi analiz ederken, verilerin ne anlama geldiğine dair bilgiye güvenmemizdi. Bu sayılar açıkça bilinen herhangi bir "meyve" türünü açıklamadığından, bu tür alan bilgisine itiraz edemeyiz. (Örneğin, bu verilerin herhangi bir bölümünün "normal olarak dağıtılması" gerektiğini varsaymak için hiçbir temelimiz yoktur.) herhangi bir yaklaşımın performansı değerlendirilebilir.
whuber

Ancak strafor meyvesi çürümez. Belki de meyve, uzun eksen boyunca "çap" ölçülen prolate sferoidlerdir. En az iki çeşit meyve var gibi görünüyor: bu nedenle, bire yakın özgül ağırlık varsayarsak, daha küçük bir limonun büyüklüğü ve şekli hakkında olur; yaklaşık yarım metre uzunluğunda ve 2 inç altında daha büyük. Bu fikrin zorluğu, kısa ekseni "çap" olarak tanımlamanın daha doğal görünmesidir.
Scortchi - Monica'yı eski durumuna döndürün

Yanıtlar:


1

Verileri çizerek başlayalım ve bir göz atalım. Bu çok sınırlı miktarda veri olduğundan, bol miktarda varsayımla bir miktar geçici olacak.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Veriler bu, kırmızı noktalar çürük meyveleri temsil ediyor:

meyveler çizildi

İki çeşit meyve olduğunu varsayarak haklısınız. Yaptığım varsayımlar şunlardır:

  • Çap meyveleri iki gruba ayırır
  • Çapı 10'dan büyük olan meyveler bir grupta, diğerleri küçük gruptadır.
  • Büyük meyve grubunda sadece bir çürük meyve var. Bir meyvenin büyük grupta olması durumunda, çürük olmanın ağırlığı etkilemediğini varsayalım. Bu önemlidir, çünkü bu grupta sadece bir veri noktamız vardır.
  • Meyve küçük bir meyvedirse, çürük olmak kütleyi etkiler.
  • Diam ve kütle değişkenlerinin normal olarak dağıldığını varsayalım.

Çapın toplamının 64,2 cm olduğu verildiği için, iki meyvenin büyük ve dörtünün küçük olması muhtemeldir. Şimdi ağırlık için 3 vaka var. Çürümüş 2, 3 veya 4 küçük meyve vardır (çürümüş büyük bir meyve, varsayımla kütleyi etkilemez ). Böylece, bu değerleri hesaplayarak kütleniz üzerinde sınırlar elde edebilirsiniz.

Çürük küçük meyve sayısının olasılığını ampirik olarak tahmin edebiliriz. Çürük meyve sayısına bağlı olarak kitle tahminlerimizi ağırlıklandırmak için olasılıkları kullanırız:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Bize 691.5183g son bir tahmin veriyoruz . Bir sonuca varmak için yaptığım varsayımların çoğunu yapmak zorunda olduğunuzu düşünüyorum, ancak bence bunu daha akıllı bir şekilde yapmak mümkün olabilir. Ayrıca çürük küçük meyvelerin sayısının olasılığını elde etmek için ampirik olarak örnek alıyorum, bu sadece tembellik ve "analitik olarak" yapılabilir.


Katkınız için teşekkürler. Bana öyle geliyor ki, "varsayımlar" olarak adlandırdığınız iddiaların çoğu, keşif analizinize dayanan sonuçlardır . Sonuçlarınızın bu sonuçların doğruluğuna nasıl bağlı olduğunu analiz etmek değerli olacaktır. Ne olursa olsun, böyle küçük bir veri kümesinin yedi önemli rakamla bir sonucu destekleyemeyeceği açıktır! Olası hata hakkında bir değerlendirme yapmak özellikle yararlı olacaktır. Bilmek önemli olacak nispeten büyük olacak.
whuber

@whuber yorum için teşekkürler, akşam saatlerinde varyasyonu tahmin etmek için daha fazla bir şey ekleyebilirim. Yapılacak en basit şey, son hesaplama için kullandığım üç grubun kütlesi için hata tahminleri almak ve buna bağlı tahmin aralıklarını hesaplamak olacaktır. Ama OP'nin bir yıldır aktif olmadığını görüyorum, bu yüzden bu cevabın kabul edilmesini beklemiyorum. Ben hala bu örneğin çok az veri ile nasıl alabilirsiniz görmek için güzel bir "oyuncak" sorun olduğunu düşünüyorum.
Gumeo

Aslında, cevabınızın önerdiğinden çok daha az bilgi almanızı öneriyorum, çünkü kendilerinin oldukça belirsiz olduğu birçok veri kaynaklı sonuca bağlı.
whuber

@whuber Evet, bu tamamen doğru. Ama yaptığım tüm varsayımların / sonuçların yaydığı hatayı tahmin etmeye çalışmak çok basit değil. Ayrıca, ikinci torbadaki meyvelerin çaplarının toplamının 64.2 cm olması ve OP'nin iki meyve grubu olabileceğinden bahsetti.
Gumeo

1
@whuber Bunu düşünüp bunu bir meydan okuma olarak ele alacağım. Bu soruyu daha sonra tekrar inceleyeceğim!
Gumeo

0

Aşağıdaki yaklaşımı öneririm:

  1. 4 çürük koşulları karşılayan tüm 6-tuples oluşturun. Onlar(64)(72).
  2. Oluşturulan tüplerden sadece çaptaki koşulu karşılayanlar arasından seçim yapın.
  3. Seçilen tupllerin ortalama ağırlığını hesaplayın (normal aritmetik ortalama).

Tüm bunlar basit bir komut dosyası tarafından yönetilebilir.


5
Bu yaklaşım neden işe yarar? Ne gibi varsayımlar yapıyor? Bir cevap üretip üretemeyeceğini görmek için denediniz mi?
whuber

0

En basitinden karmaşık olana kadar,

  1. 6 (ortalama kütle)
  2. 6 (ortalama hacim) (ortalama yoğunluk)
  3. 4 (ortalama çürümüş kütle) + 2 (ortalama çürümüş kütle)
  4. 4 ((ortalama çürümüş hacim) + 2 (ortalama çürümüş olmayan hacim)) (ortalama yoğunluk)
  5. 4 (ortalama çürük hacim) (ortalama çürük yoğunluk) + 2 (ortalama çürük olmayan hacim) (ortalama çürük olmayan yoğunluk)

. . .

kombinatorik yöntemler

Yaklaşımlar, herhangi bir yaklaşımın daha iyi olması ya da hiç bir yararı olması açısından değil, hesaplamanın basitliği sırasına göre düzenlenmiştir. Hangi yaklaşımın kullanılacağının seçilmesi, popülasyonun hangi özelliklerinin bilindiğine veya varsayıldığına bağlıdır. Örneğin, mağaza popülasyonundaki meyve kütleleri normal olarak dağılmışsa ve çaplardan ve çürük durumundan bağımsızsa, daha karmaşık yaklaşımlar kullanmanın herhangi bir avantajı (veya çoklu değişkenlerin örnekleme hatasının dezavantajları) olmadan ilk, en basit yaklaşımı kullanabilir. . Bağımsız olarak aynı dağılmamış rasgele değişkenler değilse, popülasyon hakkında bilinen veya varsayılan bilgilere bağlı olarak daha karmaşık bir seçim daha iyi olabilir.


3
Bunlardan herhangi biri neden iyi? Ne gibi varsayımlar yapıyorlar? Biri diğerini nasıl seçer? (Onlar da bir anlamda iyilik artan sırada mı?)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.