FPR (yanlış pozitif oran) - FDR (yanlış keşif oranı)


20

Aşağıdaki alıntı ünlü araştırma makalesinden gelmektedir. Storey & Tibshirani'nin (2003) genom geneli çalışmaları için istatistiksel önemi :

Örneğin,% 5'lik bir yanlış pozitif oran, çalışmadaki gerçekten sıfır özelliklerin ortalama% 5'inin anlamlı olarak adlandırılacağı anlamına gelir. % 5'lik bir FDR (Yanlış Keşif oranı), önemli olarak adlandırılan tüm özellikler arasında, bunların% 5'inin ortalama olarak boş olduğu anlamına gelir.

Birisi bunun ne anlama geldiğini basit bir sayısal veya görsel örnek kullanarak açıklayabilir mi? Bunun ne anlama geldiğini anlamakta zorlanıyorum. Yalnızca FDR veya FPR ile ilgili çeşitli yayınlar buldum, ancak belirli bir karşılaştırmanın yapıldığı herhangi bir yer bulamadım.

Bu alanda uzman birisinin diğerinden daha iyi olduğu veya her ikisinin de iyi veya kötü olduğu durumları göstermesi özellikle iyi olacaktır.


3
@ Mkt'nin cevabını ödül olarak verdiğini fark ettim, Naseer. Bu yanıt sorunuzu sizin için çözdüyse, ödül göstergesinin altında solundaki onay işaretini tıklayarak da kabul edebilirsiniz.
gung - Monica'yı eski

Yanıtlar:


29

Bunları birkaç farklı şekilde açıklayacağım çünkü anlamama yardımcı oldu.

Belirli bir örnek verelim. Bir grup insanda bir hastalık testi yapıyorsunuz. Şimdi bazı terimler tanımlayalım. Aşağıdakilerin her biri için, test edilmiş bir kişiye atıfta bulunuyorum:

Gerçek pozitif (TP) : Hastalığa sahip olduğu tespit edilen hastalığa sahiptir

Yanlış pozitif (FP) : Hastalığa sahip olmadığı tespit edilen hastalığa sahip değil

Gerçek negatif (TN) : Hastalığa sahip olmadığı tespit edilen hastalığa sahip değil

Yanlış negatif (FN) : Hastalığa sahip olmadığı belirlenen hastalık var mı?

Görsel olarak, bu genellikle karışıklık matrisi kullanılarak gösterilir :

resim açıklamasını buraya girin

Yalancı pozitiflik oranı (FPR) hastalığı yok ama hastalığı (hepsi FP), olduğu tespit edilen kişilerin sayısıdır hastalığı olmayan kişilerin toplam sayısına bölünmesiyle (kapsamaktadır tüm FP ve TNa) .

FPR,=FPFP+TN-

Yanlış keşif oranı (FDR) hastalığı yok ama hastalığı (hepsi FP) olduğu tespit edilen kişi sayısı, bir hastalığı olduğu tespit edilen kişilerin toplam sayısına bölünmesiyle (bütün aile hekimlerini ve TP'leri içerir ).

FDR,=FPFP+TP


Peki, fark paydada yani yanlış pozitiflerin sayısını neyle karşılaştırıyorsunuz?

FPR size hasta olarak tanımlanması edilecek hastalığa sahip olmayan tüm kişilerin oranının anlatıyor.

FDR size hastalık yok hasta olarak tanımlanması tüm insanların oranını anlatıyor.

Bu nedenle, her ikisi de yararlı, farklı başarısızlık ölçümleridir. TP'lerin, FP'lerin, TN'lerin ve FN'lerin durumuna ve oranlarına bağlı olarak, diğerinden daha fazla önem verebilirsiniz.


Şimdi buna bazı sayılar koyalım. Hastalık için 100 kişiyi ölçtünüz ve aşağıdakileri alıyorsunuz:

Gerçek pozitifler (TP'ler) : 12

Yanlış pozitifler (FP) : 4

Gerçek negatifler (TN) : 76

Yanlış negatifler (FN'ler) : 8

Bunu karışıklık matrisini kullanarak göstermek için:

resim açıklamasını buraya girin

Sonra,

FPR,=FPFP+TN-=44+76=480=0.05=5%

FDR,=FPFP+TP=44+12=416=0.25=25%

Diğer bir deyişle,

FPR, hastalığı olmayan insanların% 5'inin hastalığa sahip olduğunu belirlediğini söylüyor. FDR, hastalığa yakalandığı tespit edilen insanların% 25'inin aslında hastalığa sahip olmadığını söyler.


@ Amoeba'nın yorumuna dayanan EDIT (ayrıca yukarıdaki örnekte yer alan sayılar):

n

[Yan not: Wikipedia, FPR'nin matematiksel olarak tip I hata oranına eşdeğer olmasına rağmen, kavramsal olarak farklı olduğu düşünülür , çünkü biri tipik olarak bir priori olarak ayarlanır , diğeri ise tipik olarak daha sonra bir testin performansını ölçmek için kullanılır. Bu önemli ama bunu burada tartışmayacağım].


Ve biraz daha eksiksiz olmak için:

Açıkçası, FPR ve FDR, karışıklık matrisindeki dört miktarla hesaplayabileceğiniz tek alakalı metrik değildir. Of farklı bağlamlarda yararlı olabilecek birçok olası metrikleri , sen karşılaşma olasılığı iki nispeten yaygın olanları şunlardır:

Duyarlılık olarak da bilinen Gerçek Pozitif Oran (TPR) , hastalığı olan kişilerin oranıdır.

TPR,=TPTP+FN-

Gerçek Negatif Oranı (TNR) olarak da bilinen, özgüllük , hastası olmayan olarak tanımlanır hastalığı olmayan kişiler oranıdır.

TN-R,=TN-TN-+FP


3
+1. Sayısal örneği FPR =% 5 olacak şekilde ayarlamak mantıklı olabilir, çünkü kriter olarak p <0.05 kullanırsanız (testin doğru boyuta sahip olduğu varsayılarak) sahip olacağınız şey budur. Ya da p <0.01 ise% 1, neyse. Bu bağlantıyı belirtmek bazı okuyucular için yararlı olabilir.
amip, Reinstate Monica

1
@amoeba Teşekkür ederim, bu iyi bir fikir. Bunu daha sonra yapmaya çalışacağım.
mkt - Monica

2

Tabloyu https://en.wikipedia.org/wiki/Confusion_matrix adresinde incelemelisiniz . FDR yatay konumdayken FPR'nin dikey olarak yerleştirildiğini lütfen unutmayın.

  • Boş hipoteziniz doğruysa FP olur, ancak reddedersiniz
  • FD, önemli bir şey tahmin ederseniz gerçekleşir, ancak

Bunu biliyorum ama özellikle ilginç olan sayıları desteklemek için bu sayı ve görselleştirme ile bu kavramı açıklamak yardımcı olabilir gibi karşılaştırma ile ilgileniyorum.
慕 慕
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.