Bu kişinin kadın olma olasılığı nedir?


32

Bir perdenin arkasında bir kişi var - o kişinin kadın mı yoksa erkek mi olduğunu bilmiyorum.

Kişinin uzun saçlı olduğunu ve uzun saçlı insanların% 90'ının kadın olduğunu biliyorum.

Kişinin nadir kan grubu AX3 olduğunu ve bu kan grubuna sahip bütün kişilerin% 80'inin kadın olduğunu biliyorum.

İnsanın kadın olma olasılığı nedir?

NOT: Bu orijinal formülasyon iki başka varsayımla genişletilmiştir: 1. Kan grubu ve saç uzunluğu bağımsızdır 2. Erkek: Kadın nüfusu en fazla 50:50

(Buradaki özel senaryo o kadar önemli değil - daha doğrusu, bunu yanıtlamak için doğru yaklaşımı aklımdan almamı gerektiren acil bir projem var. farklı istatistiksel teorilere göre çok sayıda tartışılabilir cevabı olan bir şeyden daha fazlası.)


1
Birden fazla olasılık teorisi yoktur, ancak insanların olasılıklar hakkında doğru düşünmekte zorlandıkları çok açık bir şekilde doğrudur. (İyi bir matematikçi olan Augustus DeMorgan, zorluklarından dolayı olasılık çalışmasından vazgeçti.) Tartışmalara bakmayın: olasılık ilkelerine (Kolmogorov aksiyomları gibi) itirazlarını arayın. Bunun demokratik olarak çözülmesine izin vermeyin: Sorunuz, bazıları kabul etmiş olsalar bile, sadece toplu olarak yanlış olan birçok kötü niyetli cevabı çekiyor. @ Michael C iyi rehberlik eder; Cevabım size neden haklı olduğunu göstermeye çalışıyor.
whuber

@Whuber, bağımsızlık varsayılırsa, 0.97297'nin doğru cevap olduğu konusunda hemfikir misiniz? (Bu varsayım olmadan cevabın% 0 ile% 100 arasında herhangi bir yerde olabileceğine inanıyorum - diyagramlarınız bunu güzel gösteriyor).
Muhtemelen

Tam olarak neyin bağımsızlığı? Kadın ve erkek saç stillerinin aynı olduğunu mu söylüyorsunuz? Sorunuzda söylediğiniz gibi, cinsiyet / saç / kan türünü içeren bu özel senaryo alakalı olmayabilir: bu bana genel olarak bu gibi problemleri nasıl çözeceğinizi anlamanız gerektiğini söyler. Bunu yapmak için, hangi varsayımların hangi sonuçları ima ettiğini bilmeniz gerekir. Bu nedenle, yapmak istediğinize ve tam olarak ne kadar sonuçlandırmanıza izin verdiğini belirlemek istediğiniz varsayımlara dikkatle odaklanmanız gerekir.
whuber

3
Araştırılacak bağımsızlık türü, üç özelliğin birleşimiyle ilgilidir. Örneğin, eğer AX3 kadınlarda kellik içeren (ancak erkeklerde olmayan) bir sendrom belirteci ise, AX3'lü uzun saçlı herhangi bir kişi mutlaka erkektir, bu durum% 97,3 değil,% 0 kadın olma olasılığını ortaya koymaktadır. Ben bunun bu soruya kesin bir cevap üretmek herkes bu belirginleştirir umut gerekir onlar onları açıkça kabul olmasa bile, ek varsayımlarda olun. Gerçekten yararlı cevaplar, IMHO, farklı varsayımların farklı sonuçlara nasıl yol açtığını doğrudan gösteren cevaplar olacaktır.
whuber

2
Bir dişinin uzun saçlı olmaması ihtimalini özlüyorsun . Bu kritik bir önlem.
Daniel R Hicks,

Yanıtlar:


35

Birçok insan “popülasyon”, içindeki alt gruplar ve oranlar (olasılıklar yerine) açısından düşünmeyi faydalı bulmaktadır . Bu, kendisini görsel akıl yürütmeye borç verir.

Rakamları ayrıntılı olarak açıklayacağım, ancak amaç, iki rakamın hızlı bir şekilde karşılaştırılmasının derhal ve ikna edici bir şekilde, soruya nasıl ve neden belirli bir cevabın verilemeyeceğini göstermesi gerektiğidir. Biraz daha uzun bir inceleme, bir cevabı belirlemek ya da en azından cevapları sınırlamak için hangi ek bilgilerin faydalı olacağına işaret edecektir.

Venn şeması

efsane

Çapraz tarama : dişi / Katı arka plan : erkek.

Üst : uzun saçlı / Alt : kısa saçlı.

Sağ (ve renkli) : AX3 / Sol (renksiz) : AX3 olmayan.

Veri

Üst tarama, üst dikdörtgenin% 90'ıdır ("uzun saçlı insanların% 90'ı kadındır").

Sağ renkli dikdörtgendeki toplam çapraz tarama, bu dikdörtgenin% 80'idir ("Bu kan grubuna sahip tüm kişilerin% 80'i kadındır").

açıklama

Bu şema, popülasyonun (incelenen tüm kadın ve kadın olmayan kadınların) eşzamanlı olarak kadın / kadın olmayan, AX3 / AX3 olmayan ve uzun saçlı / uzun saçlı ("kısa") olarak nasıl bölündüğünü göstermektedir. En azından yaklaşık olarak oranları temsil etmek için alan kullanır (resmi daha net hale getirmek için biraz abartı vardır).

Bu üç ikili sınıflamanın sekiz olası grup oluşturduğu açıktır. Her grup burada belirir.

Verilen bilgiler, çapraz çizgili üst dikdörtgenin (uzun saçlı dişiler) üst dikdörtgenin% 90'ını (uzun saçlı insanların tümü) oluşturduğunu belirtir. Ayrıca, renkli dikdörtgenlerin (AX3 ile uzun saçlı kadınlar ve AX3 ile kısa saçlı kadınlar) birleştirilmiş çapraz taranmış bölümlerinin sağdaki renkli bölgenin% 80'ini (AX3'lü tüm insanlar) oluşturduğunu belirtir. Birinin sağ üst köşesinde (ok) yalan söylediği söylenir: AX3'lü uzun saçlı insanlar. Bu dikdörtgenin yüzde kaçı çapraz çizgilidir (dişi)?

Ayrıca (dolaylı olarak) kan grubunun ve saç uzunluğunun bağımsız olduğunu varsaydım. grubunun : Renkli olan üst dikdörtgenin (uzun saç) oranı (AX3) renkli alt dikdörtgenin (kısa saç) oranına eşittir (AX3). Bağımsızlığın anlamı budur. Bu gibi soruları ele alırken yapmak adil ve doğal bir varsayımdır, ancak elbette belirtilmesi gerekir.

Çapraz çizgili üstteki dikdörtgenin (uzun saçlı dişiler) konumu bilinmemektedir. Çapraz çizgili taranmış dikdörtgeni yan yana kaydırmayı ve alt taranmış taranmış dikdörtgeni yana kaydırmayı ve genişliğini değiştirmeyi hayal edebiliyoruz. Bunu yaparsak, renkli dikdörtgenin% 80'i çapraz çizgili kalır, böyle bir değişiklik belirtilen bilgilerin hiçbirini değiştirmez ancak yine de sağ üst dikdörtgenin içindeki kadınların oranını değiştirebilir. Açıkçası, oran% 0 ile% 100 arasında herhangi bir yerde olabilir ve yine de bu resimde olduğu gibi verilen bilgilerle tutarlı olabilir:

şekil 2


Bu yöntemin bir gücü , soruya birden fazla cevabın varlığını tespit etmesidir. Biri tüm bunları cebirsel olarak çevirebilir ve olasılıkları belirleyerek, olası örnekler olarak spesifik durumlar sunabilir, ancak bu durumda bu örneklerin verilerle gerçekten tutarlı olup olmadığı sorusu ortaya çıkacaktır. Örneğin, birileri uzun saçlı insanların belki de% 50'sinin AX3 olduğunu söylerse, başlangıçta, mevcut tüm bilgiler verildiğinde bunun mümkün olduğu açık değildir. Nüfusun ve alt gruplarının bu (Venn) şemaları bu gibi şeyleri açıkça ortaya koymaktadır.


3
Whuber, kan grubunun ve saç uzunluğunun bağımsız olduğunu varsayarsak, AX3 tipi uzun saçlı kadınların mutlaka AX3 tipi kısa saçlı kadınların kısımlarıyla aynı olması gerekir mi? Yani, önerdiğiniz şekilde dikdörtgenleri değiştirme esnekliğine sahip değilsiniz ... Ayrıca, kadın ve erkeklerin tüm nüfusta 50:50 olduğunu varsayarsak, bu bize bu soruyu tek bir kişi ile çözecek kadar bilgi vermiyor tartışılmaz cevap?
Muhtemelen

@whuber +1 çok güzel.
Michael R. Chernick

5
Muhtemelen, yanlış, yorumunuzdaki soruyu yakından inceleyin: kadınlarla ilgilendiği için , cinsiyete bağlı olarak bağımsızlık konusunda ek bir varsayımda bulunuyor . Saçın ve kan türünün (koşulsuz) bağımsızlığı varsayımı, cinsiyetten hiç bahsetmiyor, bu yüzden ne anlama geldiğini anlamak için , çapraz taramadan rakamları silmek. Bu, umarım neden çapraz taramadan üst ve alt dikdörtgenlerin içinde istediğimiz yere yerleştirme esnekliğine sahip olduğumuzu gösterir.
whuber

1
@whuber, bunu beğendim. Bununla birlikte, 2 sorum var / açıklama var: 1. rakamlar, uzun ve kısa saçlar için (yaklaşık 6: 4) ve ~ AX3 - AX3 (yaklaşık 85:15) için nüfus oranlarını varsayıyor gibi görünüyor, ancak bu, orijinal soruda belirtilmemiştir. ne de rakamları açıklamalarınızda tartışılmadı. Pop oranlarının alakalı olmadığını düşünüyorum. Haklı mıyım / açıklamalarda bunu netleştirebilir misiniz? 2. Bu durumun nihayetinde, Simpson'ın Paradoksu ile aynı fenomenle sonuçlandığını düşünüyorum , sadece farklı şekilde çerçevelendi (konuya olduğu gibi diğer yönden geliyor). Bu adil bir değerlendirme mi?
gung - Reinstate Monica

3
@gung, bu açıklamaları yaptığınız için teşekkür ederiz. Elbette rakamlar, çalışabilmek için bazı oranları temsil etmelidir , ancak problem beyanında açıkça belirtilmeyen oranların değişmesi serbesttir. (Rakamı, nüfusun yaklaşık% 50'sinin kadın göründüğü şekilde yaptım, bunun varsayıldığı bir düzenlemeyi bekledik.) Bu grafiksel gösterimi, Simpson'un Paradoksunu anlamak için uygulama fikri merak uyandırıcı; Bence haklı.
whuber

13

Bu şartlı bir olasılık sorunudur. Kişinin uzun saçlı ve kanlı Ax3 tipi olduğunu biliyorsun. Let A = { 'kişi uzun saçlı' } Demek P ( C | A ve B ) . P ( C | A ) = 0.9 ve P ( C | B ) = 0.8 olduğunu biliyorsunuz. Bu P ( C | A ve B ) ' yi hesaplamak için yeterlimi? Diyelim ki P ( A ve B ve C ) = 0.7

     A={'The person has long hair'}              B={'The person has blood type Ax3'}C={'The person is female'}.

P(C|A and B)P(C|A)=0.9P(C|B)=0.8
P(C|A and B)P(A and B and C)=0.7. Then
P(C|A and B)=P(A and B and C)/P(A and B)=0.7/P(A and B).
Suppose P(A and B)=0.8. Then, by the above, P(C|A and B)=0.875P(A and B)=0.9P(C|A and B)

Şimdi her ikisi de olduğunda mümkündürP(C|A)=0.9 and P(C|B)=0.8. So we can't tell for sure what P(C|A and B) is.


Hi Michael, If I read you correctly, you're saying the question as posed can't be answered, is that right? Or to put it another way, you'd need more information to answer this question? 1. Let's assume that the rare blood type in my original question doesn't have any impact on a person's desire or ability to grow their hair long. Can the question now be answered? 2. Would you agree that the answer must be GREATER than 0.9? (Because you have a second piece of independent information - blood type - that reinforces the hypothesis that the person is a female)
Muhtemelen

2
If P(A and B) is independant, then P(A and B)=P(A)P(B) and you'll need to specify what fraction of persons have long hair, i.e., P(A) and what fraction of persons have blood type Ax3, i.e., P(B). Also, you can't say that the answer must be greather than 0.9, which is equivalent to stating that P(C|A and B)>0.9 (I really don't see why).
Néstor

2
@ProbablyWrong. Yes the problem as initially stated has insufficient information for a unique answer.
Michael R. Chernick

@Néstor, Micahael, I disagree that we need to know what fraction of persons have long hair, or what fraction of persons have blood type AX3. I think the answer to the original question resolves uniquely without knowing these (assuming A and B are independent, which we all have, and assuming we know the split of men and woman in the whole population - not unreasonable to suppose that's about 50:50, I think).
ProbablyWrong

7
Why does
P(C|A and B)=P(A and B and C)×P(A and B)??
I thought that
P(C|AB)=P(C(AB))P(AB)=P(ABC)P(AB)
using the definition of conditional probability.
Dilip Sarwate

4

Fascinating discussion ! I am wondering if we specified P(A) and P(B) as well whether the ranges of P(C| A,B) will not be much narrower than the full interval [0,1], simply because of the many constraints we have.

Sticking to the notation introduced above:

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female

P(C|A) = 0.9

P(C|B) = 0.8

P(C) = 0.5 (i.e. let's assume an equal ratio of men and women in the population at large)

it does not seem possible to assume that events A and B are conditionally independent given C ! That leads directly to a contradiction: if P(AB|C)=P(A|C)P(B|C)=P(C|A)P(A)P(C)P(C|B)P(B)P(C)

then

P(C|AB)=P(AB|C)(P(C)P(AB))=P(C|A)P(A)P(C)P(C|B)P(B)P(C)(P(C)P(AB))

If we now assume that A and B are independent as well: P(AB)=P(A)P(B) most terms cancel and we end up with

P(C|AB)=P(C|A)P(C|B)P(C)=0.90.80.5>1

Following up on whuber's wonderful geometric representation of the problem: While it is true that generally speaking P(C|AB) can assume any value in the interval [0,1] the geometric constraints do narrow the range of possible values significantly for values of P(A) and P(B) that are not "too small". (Though we can also upper bound the marginals: P(A) and P(B))

Let us compute the {\bf smallest possible value} for P(C|AB) under the following geometric constraints:

1. The fraction of the upper area (A TRUE) covered by the upper rectangle must be equal to P(C|A)=0.9

2. The sum of the areas of the two rectangles must be equal to P(C)=0.5

3. The sum of the fraction of the areas of the two colored rectangles (i.e. their overlap with event B) must be equal to P(C|B)=0.8

4. (trivial) The upper rectangle cannot be moved beyond the left boundary and should not be moved beyond its minimum overlap to the left.

5. (trivial) The lower rectangle cannot be moved beyond the right boundary and should not be moved beyond its maximum overlap to the right.

These constraints limit how freely we can slide the hashed rectangles and in turn generate lower bounds for P(C|AB). The figure below (created with this R script ) shows two examples enter image description here

Running through a range of possible values for P(A) and P(B) (R script) generates this graph enter image description here

In conclusion, we can lower bound the conditional probability P(c|A,B) for given P(A), P(B)


2
Markus, the first paragraph belongs as a separate question rather than within an answer. The subsequent material looks like a good observation but it is hard to follow without being told what A,B, and C represent. Please bear in mind that different users will see the answers in different sequences, according to their preferences and when the answers were last edited, so each answer has to be readable independently of the others (although of course you can link to other answers).
whuber

1
@whuber: thanks for the useful comment ! I hope the new edits make it more readable and clear.
Markus Loecher

@whuber and others: I had hoped to reignite the discussion but the thread seems to have gone inactive ? No more comments by anyone ?
Markus Loecher

1

Make the hypotheses is that the person behind a curtain is a woman.

We area given 2 pieces of evidence, namely:

Evidence 1: We know the person has long hair (and we're told that 90% of all people with long hair are female)

Evidence 2: We know the person has a rare blood type AX3 (and we're told that 80% of all people with this blood type are female)

Given just Evidence 1, we can state that the person behind a curtain has a 0.9 probability value of being a woman (assuming 50:50 split between men and women).

Regarding the question posed earlier in the thread, namely "Would you agree that the answer must be GREATER than 0.9?", without doing any Math, I would say intuitively, the answer must be "yes" (it is GREATER than 0.9). The logic is that Evidence 2 is supporting evidence (again, assuming a 50:50 split for the number of men and women in the world). If we were told that 50% of all people with AX3 type blood were female, then Evidence 2 would be neutral and have no bearing. But since we're told that 80% of all people with this blood type are female, Evidence 2 is supporting evidence and logically should push the final probability of a woman above 0.9.

To calculate a specific probability, we can apply Bayes' rule for Evidence 1 and then use Bayesian updating to apply Evidence 2 to the new hypothesis.

Suppose:

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female (assume 50%)

Applying Bayes rule to Evidence 1:

P(C|A) = (P(A|C) * P(C)) / P(A)

In this case, again if we assume 50:50 split between men and women:

P(A) = (0.5 * 0.9) + (0.5 * 0.1) = 0.5

So, P(C|A) = (0.9 * 0.5) / 0.5 = 0.9 (Not surprising, but it would be different if we didn't have 50:50 split between men and women)

Using Bayesian updating to apply Evidence 2 and plugging in 0.9 as the new prior probability, we have:

P(C|A AND B) = (P(B|C) * 0.9) / P(E)

Here, P(E) is the probability of Evidence 2, given the hypotheses that the person already has a 90% chance of being female.

P(E) = (0.9 * 0.8) + (0.1 * 0.2) [this is law of total probability: (P(woman)*P(AX3|woman) + P(man)*P(AX3|man)] So, P(E) = 0.74

So, P(C|A AND B) = (0.8 * 0.9) / 0.74 = 0.97297


1
There are a few statements in your answer that do not make sense to me. (1) P(C|A)=0.9 by assumption. Nowhere was it said that P(C)=0.9. We assumed P(C)=0.5. (2) How did you get the result for P(E)? P(woman)=P(man)=0.5 by assumption where you write P(woman)=0.9.
Michael R. Chernick

The value of P(C) is assumed at 0.5, which is what I've used. The value for P(E) is the probability of Evidence 2 after applying Evidence 1 (which leads to a new hypotheses that the probability that the person is female is 0.9). P(E) = (probability that the person is a woman (given Evience 1) * probability the the person has AX3 if a woman) + (probability that the person is a man (given Evience 1) * probability the the person has AX3 if a man) = (0.9 * 0.8) + (0.1 * 0.2) = 0.74
RandomAnswer

Your definition of probability of E is a bit confusing and the terms you are using to calculate it look different from what you wrote before. It really doesn't matter though. The answer is apparently correct based on Huu's nicely presented answer.
Michael R. Chernick

@Michael Except it appears Huu made mistakes.
whuber

2
This answer is simply wrong. There may be other errors, but this one is glaring. You state a definitive answer for P("Has Long Hair") (your P(A)), and then use that to give your final definitive answer. There simply isn't enough information to determine this, even assuming P(F) = 0.5. Your line to calculate P(A) seems to come from nowhere. Here is the correct formula using Bayes theroem: P(A) = P(A|F)P(F)/P(F|A) from which, using your stated assumptions, get to P(A) = P(A|F)*5/9. However we still don't know P(A|F), which could be anything.
Bogdanovist

0

Question Restatement and Generalisation

A, B, and C are binary unknowns whose possible values are 0 and 1. Let Zi stand for the proposition, "The value of Z is i". Also let (X|Y) stand for "The probability that X, given that Y". What is (Aa|BbCcI), given that

  1. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2
  2. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (BC|I)=(B|I)(C|I)
  3. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12
  4. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12 and (BC|I)=(B|I)(C|I)

and that I contains no relevant information besides what is implicit in the assignments? The last conjunct of conditions 2 and 4 is shorthand for the independence statement

(BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1
Treat each of the four cases in turn.

Answers

Case 1

We have to specify the distribution (ABC|I). The problem is underdetermined, because (ABC|I) requires eight numbers, but we have only three equations---the two given conditions and the normalisation condition.

It has been shown by various esoteric means that the distribution to assign when the information doesn't otherwise determine a solution is the one that, of all distributions consistent with the known information, has the greatest entropy. Any other distribution implies that we know more than the known information, which of course is a contradiction.

All we need to do, therefore, is assign the maximum entropy distribution. This is more easily said than done, and I have not found a general closed-form solution. But particular solutions can be found using a numerical optimiser. We maximise

i,j,k(AiBjCk|I)ln(AiBjCk|I)
subject to the constraints
i,j,k(AiBjCk|I)=1
and
(Aa1|Bb1I)=u1i.e.k(Aa1Bb1Ck|I)i,k(AiBb1Ck|I)=u1
and
(Aa2|Cc2I)=u2i.e.j(Aa2BjCc2|I)i,j(AiBjCc2|I)=u2
Now let's apply this to the question. If we have

  1. "The person is female" A1
  2. "The person has long hair" B1
  3. "The person has blood type AX3" C1

then a=1, b=1, c=1, a1=1, b1=1, a2=1, c2=1, u1=0.9, u2=0.8, and we find that for the maximum entropy solution, (A1|B1C1I)0.932. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.932.

Case 2

Now we repeat the exercise with the extra constraint that for a given person, knowing the value of B (the hair state) does not affect our estimate of the value of C (the blood type state), and vice versa. Everything is the same as in Case 1, except there are two extra constraints in the optimisation, namely:

(B0|ClI)=(B0|I),l=0,1
i.e.
i(AiB0Cl|I)i,j(AiBjCl|I)=i,k(AiB0Ck|I),l=0,1
This gives (A1|B1C1I)0.936, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.936.

Case 3

Now we remove the independence condition and replace it with the prior condition that there is an equal chance that a given person is male or female:

(A0|I)=12i.e.j,k(A0BjCk|I)=12
This time (A1|B1C1I)0.973, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.973.

Case 4

Finally we reintroduce the independence constraints of Case 2, and find that (A1|B1C1I)0.989. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.989.


-2

I believe now that, if we assume a ratio of men and women in the population at large, then there is a single indisputable answer.

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female

P(C|A) = 0.9

P(C|B) = 0.8

P(C) = 0.5 (i.e. let's assume an equal ratio of men and women in the population at large)

Then P(C|A and B) = [P(C|A) x P(C|B) / P(C)] / [[P(C|A) x P(C|B) / P(C)] + [[1-P(C|A)] x [1-P(C|B)] / [1-P(C)]]]

in this case, P(C|A and B) = 0.972973


P[C|A and B)= P(A and B and C)/P(A and B)=P(A and B and C)/ [P(A|B) P(B)]. How did you get your formula?
Michael R. Chernick

There is probably a way to add conditions so that you get a unique answer.
Michael R. Chernick

To add by independence of A and B the formula simplifies to P(A and B and C}/[P(A) P(B)]=P(B and C|A)/P(B).
Michael R. Chernick

2
The intent of my question was really for you to justify the formula. I don't understand how it would be derived.
Michael R. Chernick

2
No, the answer that supposedly used Bayes Rule is incorrect. I'm not sure why you are confused, MC's formula above is correct and cannot be used to get any result, that's what his and Whuber's answers to the question explained!
Bogdanovist

-2

Note: In order to get a definitive answer, the below answers assume that the probability of a person, a long-haired man, and a long-haired women having AX3 are approximately the same. If more accuracy is desired, this should be verified.

You start out with the knowledge that the person has long hair, so at this point the odds are:

90:10

Note: The ratio of males to females in the general population does not matter to us once we find out the person has long hair. For example, if there were 1 female in a hundred in the general population, a randomly-selected long-haired person would still be a female 90% of the time. The ratio of females to males DOES matter! (see the update below for details)

Next, we learn that the person has AX3. Because AX3 is unrelated to long hair, the ratio of men to women is known to be 50:50, and because of our assumption of the probabilities being the same, we can simply multiply each side of the probability and normalize so that the sum of the sides of the probability equals 100:

(90:10) * (80:20)
==> 7200:200

    Normalize by dividing each side by (7200+200)/100 = 74

==> 7200/74:200/74
==> 97.297.. : 2.702..

Thus, the chance that the person behind the curtain is female is approximately 97.297%.

UPDATE

Here's a further exploration of the problem:

Definitions:

f - number of females
m - number of males
fl - number of females with long hair
ml - number of males with long hair
fx - number of females with AX3
mx - number of males with AX3
flx - number of females with long hair and AX3
mlx - number of males with long hair and AX3
pfl - probability that a female has long hair
pml - probability that a male has long hair
pfx - probability that a female has AX3
pmx - probability that a male has AX3

First, we are given that 90% of long-haired people are females, and 80% of people with AX3 are female, so:

fl = 9 * ml
pfl = fl / f
pml = ml / m 
    = fl / (9 * m)

fx = 4 * mx
pfx = fx / f
pmx = mx / m 
    = fx / (4 * m)

Because we assumed that the probability of AX3 is independent of gender and long hair, our calculated pfx will apply to women with long hair, and pmx will apply to men with long-hair to find the number of them that likely have AX3:

flx = fl * pfx 
    = fl * (fx / f) 
    = (fl * fx) / f
mlx = ml * pmx 
    = (fl / 9) * (fx / (4 * m)) 
    = (fl * fx) / (36 * m)

Thus, the likely ratio of the number of females with long-hair and AX3 to the number of males with long-hair and AX3 is:

flx             :   mlx
(fl * fx) / f   :   (fl * fx) / (36 * m)
1/f             :   1 / (36m)
36m             :   f

Because it is given that there is an equal number of 50:50, you can cancel both sides and end with 36 females to every male. Otherwise, there are 36*m/f females for every male in the specified subgroup. For example, if there were twice as many women as men, there would be 72 females to each male of those that have long-hair and AX3.


1
This solution relies on assuming more than is currently stated in the problem: namely, that long hair, AX3, and gender are independent. Otherwise, you cannot justify "applying" pfx to women with long hair, etc.
whuber

@whuber: Yes, I do make that assumption. However, isn't the purpose of probability to give the best approximation based on the data that you have? Thus, since you already know that long-hair and AX3 are independent for the general population, you SHOULD carry forward that assumption to males and females until you explicitly learn otherwise. Granted, it is not a universally correct one, but it is the best one you can make until you get more info. Q: With only the current data, if you had to give the % chance that it was a woman behind the curtain, would you really say "between 0 and 100%"?
Briguy37

1
We have an important difference in philosophy, @Briguy. I strongly believe in not making unfounded assumptions. It is not clear in what sense the mutual independence assumption is "best": I will grant it may be in certain applications. But in general, that seems dangerous to me. I would prefer being clear about the assumptions needed to solve a problem, so people can decide whether it is worthwhile collecting the data to check those assumptions, rather than assuming things that are mathematically convenient for the sake of obtaining an answer. That's the difference between stats and math.
whuber

To answer your question: yes, 0% - 100% is exactly the answer I would give. (I have given similar answers to comparable questions on this site.) That range accurately reflects the uncertainty. This issue is closely related to the Ellsberg paradox. Ellsberg's original paper is well written and clear: I recommend it.
whuber

@whuber: Thanks for taking the time to dialogue with me. I see your point about the importance of thinking through and listing the assumptions made, and have updated my answer accordingly. However, in regards to your answer, I believe it is incomplete. The reason for this is that you can consider all unknown cases and find the average probability of across all of them to arrive at your final answer. E.G. Though both are still possible, probabilities above 50% are much more prevalent than probabilities below 50% across all cases, so we are surely better off guessing that it is a woman.
Briguy37

-4

98% Female, simple interpolation. First premise 90% female, leaves 10%, second premise only leaves 2% of the existing 10%, hence 98% female

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.