Outlier ve Inlier arasındaki fark


10

LOF ölçüsünde (Yerel Outlier Faktörü) inlier terimini tökezledim , aykırı değerlerin terimini biliyorum (temelde yalancılar - örneklerin geri kalanı gibi davranmayan durumlar).

Anormallik tespiti bağlamında 'İnliers' ne anlama geliyor? ve aykırı değerlerle nasıl ilişkilidir?


Yanıtlar:


9

Bu, bazı istatistiksel tartışmaları karıştırmanın talihsiz etkisi olan terminolojide biraz tutarsızlığın olduğu bir alandır. " Inlier " kavramı"genellikle hatalı olan (yani ölçüm hatasına tabi olan) ancak yine de doğru ölçülen değerlerin dağılımının" iç kısmında "olan bir veri değerini belirtmek için kullanılır. ) ilgili değer dağılımının iç kısmında bulunur ve (2) hatalı bir değerdir Buna karşılık, bir "aykırı değer" karşılık gelen kavramı genellikle, Bu terminoloji talihsiz bir tutarsızlık verir, burada "içsel" hatalı bir veri noktasıdır (tanım gereği), ancak "aykırı" mutlaka hatalı bir veri noktası değildir. bu terminoloji altında, "inliers" ve "outliers" birliğiya tüm verilere, hatta tüm hatalı verilere karşılık gelmez.

Aykırı değerlerle başa çıkma : Burada ve burada başka sorularda aykırı değerlerle başa çıkmayı tartıştım , ancak kolaylık olması açısından, bu sözlerden bazılarını tekrarlayacağım. Aykırı değerler, bir dağılımdaki diğer noktaların büyük bir kısmından uzak olan noktalardır ve bir "aykırı değer" tanısı, veri noktasının varsayılan bazı dağıtım formlarıyla karşılaştırılmasıyla yapılır. Aykırı değerlere zaman zaman ölçüm hatası neden olabilse de, veriler yüksek basıklık (yani yağ kuyrukları) ile bir dağılımı takip ettiğinde aykırı değerlerin teşhisi de yapılabilir, ancak analist veri noktalarını düşük basıklık ile varsayılan bir dağılım formuyla (ör. normal dağılım).

“Aykırı değerlerin” aykırı testlerde işaretlenmesi, sadece kullandığınız model dağılımının gözlemlenen verileri doğru bir şekilde temsil edecek kadar yağ kuyruğuna sahip olmadığı anlamına gelir. Bunun nedeni, bazı verilerin ölçüm hatası içermesi veya sadece yağ kuyruklarıyla yapılan bir dağıtımdan kaynaklanması olabilir. Varsayılan model formundan sapmanın ölçüm hatasına (dağıtım varsayımı için teorik bir dayanak gerektirecek) kanıt oluşturduğunu düşünmek için bir neden olmadığı sürece, aykırı değerlerin varlığı genellikle modelinizi yağ ile bir dağılım kullanacak şekilde değiştirmeniz gerektiği anlamına gelir. kuyrukları. Altta yatan dağılımın bir parçası olan ölçüm hatası ile yüksek basıklık arasında ayrım yapmak doğal olarak zordur.

(Gerçekten genellikle içerir inliers uğraşmak değil onlarla uğraşırken): Eğer ölçüm hatasını belirten harici bilgi kaynağı yoksa, "inliers" tespit etmek esasen mümkün değildir. Tanım olarak, bunlar, diğer verilerin çoğunun meydana geldiği dağıtımın "iç" kısmında bulunan veri noktalarıdır. Bu nedenle, diğer veri noktalarından "aberasyon" olan verileri arayan testler tarafından algılanmaz. (Bazı durumlarda, bir dağıtımın içinde gibi görünen ancak dağıtımın daha karmaşık bir temsili ile ilgili alındığında aslında "aykırı" olan "aykırıcıları" tespit edebilirsiniz. Bu durumda nokta aslında bir aykırı değerdir,

Bazı nadir durumlarda, verilerinizin bir alt kümesini ölçüm hatasına tabi olarak tanımlayan harici bir bilgi kaynağınız olabilir (örneğin, büyük bir anket yapıyorsanız ve anketörlerinizden birinin verilerini oluşturduğunu öğrenirseniz) ). Bu durumda, dağıtımın iç kısmında yer alan bu alt kümedeki veri noktaları "duyarsız" dır ve harici bilgiler aracılığıyla ölçüm hatasına tabi tutulacakları bilinir. Bu durumda, bir kısmı dağıtımın iç kısmında olmasını beklediğiniz "inliers" olsa bile, genellikle hatalı olduğu bilinen tüm verileri silebilirsiniz. Buradaki nokta, bir veri noktasının dağıtımın kuyruklarında olmasa bile hatalı olabileceğidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.