Kovalaştırma nedir?


10

Ben şanssız makine öğrenme "kova" net bir açıklama bulmak için dolaşmak. Şimdiye kadar anladığım şey, kovalamanın, bir dizi sürekli değerin bir ayrı değerle değiştirildiği dijital sinyal işlemedeki nicemlemeye benzer olmasıdır. Bu doğru mu?

Kovalamanın uygulanmasının artıları ve eksileri (bilgi kaybetmenin bariz etkisinin yanı sıra) nelerdir? Kovalamanın nasıl uygulanacağına dair genel kurallar var mı? Makine öğrenmesini uygulamadan önce kovalamayı uygulamak için herhangi bir yönerge / algoritma var mı?


Doğru cevaba sahip olmayabilirim ancak Kaba sınıflandırma ve İnce sınıflandırma [WoE ve IV] kovalamaya yardımcı olur. Eğer beklediğiniz gibi değilse affedersiniz.
Srikanth Guhan

Yanıtlar:


4

Bu geniş bir konudur ve verilerin neden gruplandırılmış olması veya zaten gruplandırılmış olması gibi bir dizi nedenle karşılaşacaksınız. Hepsi tahmin doğruluğu ile ilgili değildir.

İlk olarak, bir modelcinin kovalamak isteyebileceği bir örnek. Bir kredi puanlama modeli oluşturduğumu varsayalım: Bir kredide insanların temerrüde düşme eğilimini bilmek istiyorum. Verilerimde, kredi raporunun durumunu gösteren bir sütun var. Yani, raporu bir derecelendirme ajansından sipariş ettim ve ajans, örneğin, bu puanın güvenilirliğini gösteren kategorik bir değişkenle birlikte kendi tescilli puanını döndürdü. Bu gösterge, amaçlarım için ihtiyacım olandan çok daha ayrıntılı taneli olabilir. Örneğin, "güvenilir puan için yeterli bilgi yok", "20 yaşından küçük", "son zamanlarda ülkeye taşındı", "önceki kredi geçmişi yok" vb. Gibi birçok sınıfa ayrılabilir. Bu sınıfların çoğu seyrek nüfuslu olabilir ve bu nedenle bir regresyon veya başka bir modelde işe yaramaz. Bununla başa çıkmak için, istatistiksel gücü "temsili" bir sınıfa birleştirmek için sınıflar gibi bir araya gelmek isteyebilirim. Örneğin, yalnızca "iyi bilgi döndürüldü" veya "bilgi döndürülmedi" gibi ikili bir gösterge kullanmak benim için makul olabilir. Deneyimlerime göre, birçok kovalaştırma uygulaması bu genelseyrek nüfuslu kategori türünün çöküşü .

Bazı algoritmalar gruplandırmayı dahili olarak kullanır. Örneğin, güçlendirici algoritmaların içine uyan ağaçlar genellikle zamanlarının çoğunu her bir düğümdeki sürekli verilerin ayrık olduğu ve her bir gruptaki yanıtın ortalama değerinin hesaplandığı bir özetleme adımında harcarlar. Bu, artıştan dolayı doğruluktan fazla fedakarlık etmeden uygun bir bölünme bulmanın hesaplama karmaşıklığını büyük ölçüde azaltır.

Önceden gruplandırılmış verileri de alabilirsiniz . Ayrık verilerin sıkıştırılması ve saklanması daha kolaydır - uzun bir kayan nokta sayısı dizisi neredeyse sıkıştırılamaz, ancak "yüksek", "orta" ve "düşük" olarak ayrıldığında, veritabanınızda çok fazla alan tasarrufu yapabilirsiniz. Verileriniz modelleme dışı bir uygulamayı hedefleyen bir kaynaktan da olabilir. Daha az analitik çalışma yapan kuruluşlardan veri aldığımda bu çok olur. Verileri genellikle raporlama için kullanılır ve raporların laymenlere yorumlanmasına yardımcı olmak için yüksek düzeyde özetlenir. Bu veriler yine de yararlı olabilir, ancak çoğu zaman bir miktar güç kaybedilir.

Daha az değer gördüğüm, ancak düzeltilebilme ihtimalim olsa da, modelleme amacıyla sürekli ölçümlerin ön gruplandırılmasıdır. Sürekli öngörücülere doğrusal olmayan efektler sığdırmak için çok sayıda güçlü yöntem vardır ve buckeization bunları kullanma yeteneğinizi kaldırır. Bunu kötü bir uygulama olarak görme eğilimindeyim.


4

Makaleye göre "Düşük Seviye Veri Versus Science High Level" bucketization olduğunu

Kovalaştırma adımı (bazen çok değişkenli binning olarak adlandırılır), kovaları yeterince büyük tutarken kova içi varyansı azaltmak için, yüksek tahmin gücüne sahip metrikleri (ve 2-3 metrik kombinasyonunu) tanımlamaktan, bunları uygun şekilde birleştirip depolamaktan oluşur.

Benim anlayışım, verileri en öngörücü özelliklere göre açgözlülükle atmanız ve ardından alt grupları analiz etmenizdir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.