Anomali ve Aykırı Değerler Arasındaki Fark


13

Makine öğrenimi bağlamında Outlier ve Anomaly arasındaki fark nedir? Anladığım kadarıyla, her ikisi de aynı şeyi ifade ediyor.


3
Meraktan, literatürde nerede böyle bir ayrım yapılır? Yüksek kaldıraç ve yüksek etki gözlemleri dışında, "aykırı değerlerin" resmi bir tanımı olmadığı izlenimindeydim. Etki ve kaldıraç yapmak matematiksel tanımları var, ama bir şey "en yüksek" dikkate keyfidir. Öyle görünüyor ki, keyfi kelimeler değiş tokuş ediliyor.
AdamO

"Inlier" kelimesini kullanan insanlar, "anomali" ve "outlier" arasında dolaylı olarak bir tür ayrım yaparlar, çünkü inlier bir çeşit anomali. Ne "aykırı" ne de "anomali" kesin, yaygın olarak anlaşılan teknik tanımlara sahip olmadığından, bu sorunun birbirinden farklı (en azından biraz) farklı cevaplara sahip olmasını beklemeliyiz.
whuber

Yanıtlar:


9

İki terim şuna göre eşanlamlıdır:

Aggarwal, Charu C. Aykırı Analiz. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1

1. sayfadan alıntı:

Aykırı değerlere ayrıca veri madenciliği ve istatistik literatüründe anormallikler, uyumsuzluklar, sapmalar veya anormallikler denir .

Kalın metin, orijinal metnin bir parçası değildir.

Kitabın yazarından indirilebilecek ücretsiz pdf dosyasını burada bulabilirsiniz.


"Aşırılıkların" olması, olarak anılacaktır "anomali" yok değil onlar eşanlamlı olduğu anlamına gelir. "Köpekler" bu konuda bazen "hayvanlar" olarak anılır. Bu cevapta bunu daha ayrıntılı olarak ele almaya çalıştım (soru korunamadığından buraya gönderemedim).
Marco13

9

Yanakta bir dil yanıtı:

Aykırı: Verilerinizde modelinizin düzgün çalışmadığını gösteren tahmin ettiğiniz bir değer

Anomali: verilerinizde bulduğunuz tüm olasılıklara karşı modelinizin düzgün çalıştığını gösteren bir değer

Daha ciddi, daha az şifreli bir cevap:

Aykırı değerler kavramı, veriler hakkında varsayımlarda bulunan bir model oluşturma konusundan başlar. Aykırı değerler genellikle modelin verileri doğru bir şekilde tanımlamadığının göstergeleridir ve bu nedenle modelimizin sonuçlarını veya verilerimizin kalitesini sorgulamalıyız.

Anormallikler kavramı teorik dünyanın dışında ve uygulamalı dünyada başlar: verilerimizde alışılmadık davranışlar aramak isteriz, bazen birisinin gizlemeye çalıştığı davranışı bulmakla ilgilenmemiz gerçeğiyle motive oluruz ( e-posta). Sorun şu ki, insanlar yaptıklarını saklamaya çalıştıklarından, ne arayacağımızı gerçekten bilmiyoruz. Bu yüzden bir dizi "iyi" veri alıyoruz ve yeni veri setimizde bulduğumuz her şeyin "iyi" görünmeyen bir anormallik olduğuna ve daha ayrıntılı bir şekilde ödeme yapmak için zamanımıza değer olduğuna karar veriyoruz. Genellikle, anormallik aramak, yeni veri kümenizde aykırı değerlerin aranması anlamına gelir. Ancak , eski veri kümenizde nadir olmasına rağmen , bu değerlerin yeni veri kümenizde çok yaygın olabileceğini unutmayın !

Özetle, iki kavram, arkalarındaki istatistikler açısından çok benzerdir (yani, takılan modelinize göre olağandışı değerler), ancak farklı açılardan fikre gelir. Ek olarak, aykırı değerlerden bahsettiğimizde, tipik olarak modelimize uymak için kullanılan verilerde olağandışı bir veri noktası anlamına gelir ; burada anomali olarak genellikle modelimize uymak için kullanılan verilerin dışındaki bir veri kümesinde olağandışı bir veri noktası anlamına gelir .

Not: Bu cevap, resmi tanımlardan ziyade sık kullanılan iki terimi nasıl gördüğümü temel alır. Kullanıcı deneyimleri farklı olabilir.


6

Anomali, baz dağılımı göz önüne alındığında açıklanamayan bir sonuçtur (varsayımlarımız doğruysa imkansızdır). Bir aykırı değer, taban dağılımı göz önüne alındığında beklenmedik bir olaydır (olasılık dışı).


7
Tanımlar ve örnek için kaynak alıntılamak cevabı oldukça geliştirecektir.
Tim

4
Bildiğim kadarıyla eşanlamlılar. Yani @H. Iqbal gerçekten kaynağı alıntılamalıdır ve tüm okuyucular sayd kaynağının otoritesini değerlendirmelidir
Jacques

2
İmkansızlığın P (X = ANOMALY) = 0 (yani tam olarak 0) anlamına geldiği görülmektedir. Anomali tespiti konusundaki anlayışım, araştırmacının olumlu olasılığı olabilecek olaylarla ilgilenebileceğidir.
Cliff AB

4

Terimler büyük ölçüde değiştirilebilir bir şekilde kullanılır. "Outlier" norm dışında kalan bir şeyi ifade eder - bu yüzden "anormaldir". Ama "aykırı" genellikle çok nadir gözlemler için kullanılan bir baskı var . İstatistiklerde, normal bir dağılımda, üç sigmanın aykırı olduğunu düşünürdünüz. Yani nesnelerinizin% 99,7'si "normal" olmalıdır. "Anomali" çok daha liberal olarak kullanılır. Web sitenizde aniden milyonlarca ziyaretçiniz varsa, bunlar nadir ziyaretçi değildir. Ancak ziyaretçilerdeki ani artış hala "anormaldir", oysa her bir ziyaretçi bir "aykırı" değildir.

Bu farklılıkların tartışıldığını gördüğüm bu makalede olabilir, ama şu anda maalesef erişemiyorum.

İstatistiksel Analiz ve Veri Madenciliği, Cilt 5, Sayı 5, Ekim 2012, Sayfa 363-387 Yüksek boyutlu sayısal verilerde denetimsiz aykırı tespiti üzerine bir araştırma


1
Bence aykırı değerler ile anormallikler arasındaki farkı açıkça ima etmişsinizdir; aykırı değerler genel bir eğilime uymayan verileri, anormallikler bir sunucudaki olağandışı trafiği tanımlar. % 50 jk.
Cliff AB

2

Sadece suları daha da çamurlamak için, klimatolojide anomali sadece değer ve ortalama veya bir sapma arasındaki farkı ima eder:

Terimi, sıcaklık anomalisi bir referans değeri ya da uzun süreli ortalama bir ayrılma anlamına gelir. Pozitif bir anomali gözlenen sıcaklığın referans değerden daha sıcak olduğunu gösterirken, negatif bir anomali gözlenen sıcaklığın referans değerden daha soğuk olduğunu gösterir.

bkz.

Bu, dışarıdan makine öğrenimi olarak kabul edilebilir, ancak soruyla ilgilenen insanlar bununla ilgilenebilir.


1

Aykırı değer, bir modele sığmayı zorlaştıran bir veri noktasıdır. Veri kümenize bir model sığdırmaya çalışırken, genellikle isteksizce aykırı değerlerle karşılaşırsınız. Aykırı değerlerin kaldırılması daha iyi (yani daha genelleştirilebilir) modellerin oluşturulmasını sağlar. Bir nokta modeli için bir aykırı değerdir . Diğer tüm noktalarınızın , , daha yakından uyduğu gerçeğini göz ardı ederseniz .(1,5)y=x(1,1)(5,5)(3,3.1)y=x

Bir anomali bir veri noktası olabilir veya bir model oluşturulduktan sonra verilerde gözlemlenen genel bir eğilim veya davranış veya oluşturulan veri oluşturma sürecinin anlaşılması olabilir. Sisteminiz farklı davranmaya başladığı için anormalliklerle karşılaşıyorsunuz veya bu tür veri noktalarını araştırıyorsunuz çünkü modelinizin geçerli olmadığı bir olay meydana geldiğinde bilgilendirilmek istiyorsunuz. Okyanus dalgalarının genliklerinde herhangi bir anormal davranışı gözlemlemeyi önemseyebilirsiniz, bu veri noktalarını atmak ve daha iyi bir model oluşturmak istediğiniz için değil, bir tsunami'nin ne zaman olabileceğini bilmek istediğiniz için.


2
Bunların çoğuna katılmıyorum. Birincisi, ilk cümle isterseniz aykırı tanımınız olabilir, ancak diğer birçok tanım veya kullanımla uzlaştırmak zordur. Veriler (1, 1), (2, 2), (3, 3), (çok daha büyük, çok daha büyük) ise, daha büyük nokta genellikle bir aykırı değer olarak tanımlanır, ancak bir modelin takılmasında sorun yoktur. Verilerin neden bu şekilde geldiğini merak etmelisiniz (ve yapmalısınız), ancak bir modelin takılması kolaydır. Daha genel olarak, bir aykırı değer, verilerin ana gövdesinden ayrılabileceği, ancak yine de makul bir modelle tutarlı olabileceğidir.
Nick Cox

İkincisi, aykırı değerlerin çıkarılmasının sadece yapmanız gereken şey olması durumunda, (a) aykırı değerlerin hangileri olduğunu söylemek bile sorunludur (b) başka birçok çözüm vardır. İleti dizisi istatistik.stackexchange.com/questions/78063/… başlıktan çok daha geniş bir aralıkta değişir.
Nick Cox

1
Bağlantımı takip ederseniz, zaten aykırı değerlerde uzun bir süre gönderdiğimi göreceksiniz. Takarken aykırı değerlerin çıkarılması hakkında konuştuğunuzdan, yanıtınızı geriye dönük olarak düşündüğünüzü yeniden okumanın bir anlamı yok. Tekrar okurken, ikinci paragrafınızın ilk cümlesinin, bir anormalliğin 'genel bir eğilim veya davranış' olabileceği fikrini içerdiğini, yani ne demek istediğinize benzemediğini - ya da öyleyse anlamadım.
Nick Cox

1

İyi soru. Ancak, "aykırı değerler ve anormallikler sitesi: .edu arasındaki fark" google araması, bu iki terim arasında teorik bir fark olmadığını gösterir. Bunlar literatürde birbirinin yerine kullanılmaktadır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.