Bu geniş bir konudur ve verilerin neden gruplandırılmış olması veya zaten gruplandırılmış olması gibi bir dizi nedenle karşılaşacaksınız. Hepsi tahmin doğruluğu ile ilgili değildir.
İlk olarak, bir modelcinin kovalamak isteyebileceği bir örnek. Bir kredi puanlama modeli oluşturduğumu varsayalım: Bir kredide insanların temerrüde düşme eğilimini bilmek istiyorum. Verilerimde, kredi raporunun durumunu gösteren bir sütun var. Yani, raporu bir derecelendirme ajansından sipariş ettim ve ajans, örneğin, bu puanın güvenilirliğini gösteren kategorik bir değişkenle birlikte kendi tescilli puanını döndürdü. Bu gösterge, amaçlarım için ihtiyacım olandan çok daha ayrıntılı taneli olabilir. Örneğin, "güvenilir puan için yeterli bilgi yok", "20 yaşından küçük", "son zamanlarda ülkeye taşındı", "önceki kredi geçmişi yok" vb. Gibi birçok sınıfa ayrılabilir. Bu sınıfların çoğu seyrek nüfuslu olabilir ve bu nedenle bir regresyon veya başka bir modelde işe yaramaz. Bununla başa çıkmak için, istatistiksel gücü "temsili" bir sınıfa birleştirmek için sınıflar gibi bir araya gelmek isteyebilirim. Örneğin, yalnızca "iyi bilgi döndürüldü" veya "bilgi döndürülmedi" gibi ikili bir gösterge kullanmak benim için makul olabilir. Deneyimlerime göre, birçok kovalaştırma uygulaması bu genelseyrek nüfuslu kategori türünün çöküşü .
Bazı algoritmalar gruplandırmayı dahili olarak kullanır. Örneğin, güçlendirici algoritmaların içine uyan ağaçlar genellikle zamanlarının çoğunu her bir düğümdeki sürekli verilerin ayrık olduğu ve her bir gruptaki yanıtın ortalama değerinin hesaplandığı bir özetleme adımında harcarlar. Bu, artıştan dolayı doğruluktan fazla fedakarlık etmeden uygun bir bölünme bulmanın hesaplama karmaşıklığını büyük ölçüde azaltır.
Önceden gruplandırılmış verileri de alabilirsiniz . Ayrık verilerin sıkıştırılması ve saklanması daha kolaydır - uzun bir kayan nokta sayısı dizisi neredeyse sıkıştırılamaz, ancak "yüksek", "orta" ve "düşük" olarak ayrıldığında, veritabanınızda çok fazla alan tasarrufu yapabilirsiniz. Verileriniz modelleme dışı bir uygulamayı hedefleyen bir kaynaktan da olabilir. Daha az analitik çalışma yapan kuruluşlardan veri aldığımda bu çok olur. Verileri genellikle raporlama için kullanılır ve raporların laymenlere yorumlanmasına yardımcı olmak için yüksek düzeyde özetlenir. Bu veriler yine de yararlı olabilir, ancak çoğu zaman bir miktar güç kaybedilir.
Daha az değer gördüğüm, ancak düzeltilebilme ihtimalim olsa da, modelleme amacıyla sürekli ölçümlerin ön gruplandırılmasıdır. Sürekli öngörücülere doğrusal olmayan efektler sığdırmak için çok sayıda güçlü yöntem vardır ve buckeization bunları kullanma yeteneğinizi kaldırır. Bunu kötü bir uygulama olarak görme eğilimindeyim.