Makine öğrenimi bağlamında Outlier ve Anomaly arasındaki fark nedir? Anladığım kadarıyla, her ikisi de aynı şeyi ifade ediyor.
Makine öğrenimi bağlamında Outlier ve Anomaly arasındaki fark nedir? Anladığım kadarıyla, her ikisi de aynı şeyi ifade ediyor.
Yanıtlar:
İki terim şuna göre eşanlamlıdır:
Aggarwal, Charu C. Aykırı Analiz. Springer New York, 2017, doi: http://dx.doi.org/10.1007/978-3-319-47578-3_1
1. sayfadan alıntı:
Aykırı değerlere ayrıca veri madenciliği ve istatistik literatüründe anormallikler, uyumsuzluklar, sapmalar veya anormallikler denir .
Kalın metin, orijinal metnin bir parçası değildir.
Kitabın yazarından indirilebilecek ücretsiz pdf dosyasını burada bulabilirsiniz.
Yanakta bir dil yanıtı:
Aykırı: Verilerinizde modelinizin düzgün çalışmadığını gösteren tahmin ettiğiniz bir değer
Anomali: verilerinizde bulduğunuz tüm olasılıklara karşı modelinizin düzgün çalıştığını gösteren bir değer
Daha ciddi, daha az şifreli bir cevap:
Aykırı değerler kavramı, veriler hakkında varsayımlarda bulunan bir model oluşturma konusundan başlar. Aykırı değerler genellikle modelin verileri doğru bir şekilde tanımlamadığının göstergeleridir ve bu nedenle modelimizin sonuçlarını veya verilerimizin kalitesini sorgulamalıyız.
Anormallikler kavramı teorik dünyanın dışında ve uygulamalı dünyada başlar: verilerimizde alışılmadık davranışlar aramak isteriz, bazen birisinin gizlemeye çalıştığı davranışı bulmakla ilgilenmemiz gerçeğiyle motive oluruz ( e-posta). Sorun şu ki, insanlar yaptıklarını saklamaya çalıştıklarından, ne arayacağımızı gerçekten bilmiyoruz. Bu yüzden bir dizi "iyi" veri alıyoruz ve yeni veri setimizde bulduğumuz her şeyin "iyi" görünmeyen bir anormallik olduğuna ve daha ayrıntılı bir şekilde ödeme yapmak için zamanımıza değer olduğuna karar veriyoruz. Genellikle, anormallik aramak, yeni veri kümenizde aykırı değerlerin aranması anlamına gelir. Ancak , eski veri kümenizde nadir olmasına rağmen , bu değerlerin yeni veri kümenizde çok yaygın olabileceğini unutmayın !
Özetle, iki kavram, arkalarındaki istatistikler açısından çok benzerdir (yani, takılan modelinize göre olağandışı değerler), ancak farklı açılardan fikre gelir. Ek olarak, aykırı değerlerden bahsettiğimizde, tipik olarak modelimize uymak için kullanılan verilerde olağandışı bir veri noktası anlamına gelir ; burada anomali olarak genellikle modelimize uymak için kullanılan verilerin dışındaki bir veri kümesinde olağandışı bir veri noktası anlamına gelir .
Not: Bu cevap, resmi tanımlardan ziyade sık kullanılan iki terimi nasıl gördüğümü temel alır. Kullanıcı deneyimleri farklı olabilir.
Anomali, baz dağılımı göz önüne alındığında açıklanamayan bir sonuçtur (varsayımlarımız doğruysa imkansızdır). Bir aykırı değer, taban dağılımı göz önüne alındığında beklenmedik bir olaydır (olasılık dışı).
Terimler büyük ölçüde değiştirilebilir bir şekilde kullanılır. "Outlier" norm dışında kalan bir şeyi ifade eder - bu yüzden "anormaldir". Ama "aykırı" genellikle çok nadir gözlemler için kullanılan bir baskı var . İstatistiklerde, normal bir dağılımda, üç sigmanın aykırı olduğunu düşünürdünüz. Yani nesnelerinizin% 99,7'si "normal" olmalıdır. "Anomali" çok daha liberal olarak kullanılır. Web sitenizde aniden milyonlarca ziyaretçiniz varsa, bunlar nadir ziyaretçi değildir. Ancak ziyaretçilerdeki ani artış hala "anormaldir", oysa her bir ziyaretçi bir "aykırı" değildir.
Bu farklılıkların tartışıldığını gördüğüm bu makalede olabilir, ama şu anda maalesef erişemiyorum.
İstatistiksel Analiz ve Veri Madenciliği, Cilt 5, Sayı 5, Ekim 2012, Sayfa 363-387 Yüksek boyutlu sayısal verilerde denetimsiz aykırı tespiti üzerine bir araştırma
Sadece suları daha da çamurlamak için, klimatolojide anomali sadece değer ve ortalama veya bir sapma arasındaki farkı ima eder:
Terimi, sıcaklık anomalisi bir referans değeri ya da uzun süreli ortalama bir ayrılma anlamına gelir. Pozitif bir anomali gözlenen sıcaklığın referans değerden daha sıcak olduğunu gösterirken, negatif bir anomali gözlenen sıcaklığın referans değerden daha soğuk olduğunu gösterir.
Bu, dışarıdan makine öğrenimi olarak kabul edilebilir, ancak soruyla ilgilenen insanlar bununla ilgilenebilir.
Aykırı değer, bir modele sığmayı zorlaştıran bir veri noktasıdır. Veri kümenize bir model sığdırmaya çalışırken, genellikle isteksizce aykırı değerlerle karşılaşırsınız. Aykırı değerlerin kaldırılması daha iyi (yani daha genelleştirilebilir) modellerin oluşturulmasını sağlar. Bir nokta modeli için bir aykırı değerdir . Diğer tüm noktalarınızın , , daha yakından uyduğu gerçeğini göz ardı ederseniz .
Bir anomali bir veri noktası olabilir veya bir model oluşturulduktan sonra verilerde gözlemlenen genel bir eğilim veya davranış veya oluşturulan veri oluşturma sürecinin anlaşılması olabilir. Sisteminiz farklı davranmaya başladığı için anormalliklerle karşılaşıyorsunuz veya bu tür veri noktalarını araştırıyorsunuz çünkü modelinizin geçerli olmadığı bir olay meydana geldiğinde bilgilendirilmek istiyorsunuz. Okyanus dalgalarının genliklerinde herhangi bir anormal davranışı gözlemlemeyi önemseyebilirsiniz, bu veri noktalarını atmak ve daha iyi bir model oluşturmak istediğiniz için değil, bir tsunami'nin ne zaman olabileceğini bilmek istediğiniz için.