Yerel Aykırı Faktör (LOF) algılama analizi için k-değeri seçme


9

Üç boyutlu veri kümesi var ve en benzersiz veya garip değerleri belirlemek için yerel aykırı faktör analizi kullanmaya çalışıyorum. LOF analizinde kullanılacak k-değerine nasıl karar verilir? K-değerinin ne belirlediğini anlıyorum ve bu yüzden farklı k'ler kullanarak biraz farklı sonuçlar gördüğüme şaşırmadım, ancak veri setimin beni başkaları üzerinde bir değere doğru itmesi gereken özellikler olup olmadığından emin değilim . Teşekkürler!

Yanıtlar:


11

Bunu gelecekte sorumla karşılaşan herkes için yayınlamak - yerel aykırı faktör algoritmasını tanımlayan orijinal makale, "LOF: Yoğunluğa Dayalı Yerel Aykırı Değerleri Tanımlamak" (Breunig ve ark.), Bir k-değeri seçme yöntemi önerir . Bir hatırlatma olarak, LOF algoritması her bir noktanın yoğunluğunu kendi yoğunluğuyla karşılaştırır.k- en yakın komşular. Makalenin yazarları, en azk ve maksimum kve her nokta için, her biri için maksimum LOF değerini alarak ko aralıkta. Sınırları seçmek için çeşitli yönergeler sunarlar.

Minimum değer için, LOF değerleri, eşit dağılımdaki noktaları çılgınca dalgalandırır. k<10, eşit dağılımlı noktalar bazen aykırı değerler olarak gösterildiğinden, en azından min(k)=10. İkincisi, minimumk-değer, bir şeyin "küme" olarak kabul edilmesi için minimum boyut olarak işlev görür, böylece noktalar bu kümeye göre aykırı değerler olabilir. Eğerk=15ve bir grup var 12 puan ve bir puan p, gruptaki her nokta şunları içerecektir p en yakın komşularında ve pbu noktaları içerecek ve çok benzer LOF'lara sahip olmalarını sağlayacaktır. Yani bir grubun yakınındaki bir noktayıN bu grubun bir parçası olmaktan ziyade bir aykırı değer olarak k değerinizin en azından N.

Maksimum değer için, benzer bir ölçüt uygulanır, çünkü birlikte kümelenmişse aykırı olarak değerlendirilmesini istediğiniz maksimum nesne sayısı olmalıdır. Bir grupN ana kümeden izole edilen nesneler bir küme olabilir veya Nkomutlar; içink<N, onlar ilk olacak; içink>N, ikinci olacaklar.

Umarım bu benzer bir sorunu olan herkese yardımcı olur. Makalenin tamamı buradadır ve maks / min k-değerleri tartışması sayfa 7'de başlar ve sayfa 9'a kadar devam eder.kdeğeri MinPts olarak .)


Sadece bir şeyi anlamak istiyorum. Diyelim ki herhangi bir veri kümesi için k = 20'yi seçiyorum ve her nokta için LOF üretiyoruz ve sonra tüm noktaları LOF'un azalan düzeninde gösteriyorum. Şimdi verileri analiz ederken verinin (alan bilgisine göre) bir aykırı olduğunu düşündüğüm aralığı seçebilir miyim? Ben sadece şu anki gibi k'nin değeri hakkında endişelenmem gerekmiyor ve alan bilgimi LOF sıralamasına göre aykırı değerleri analiz etmek için kullanıyorum. Teşekkürler,
Swapnil Bhure
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.