Binning her ne pahasına olursa olsun kaçınılmalıdır?


10

Bu yüzden binning neden her zaman kaçınılması gerektiği hakkında birkaç yazı okudum . Bu iddia için popüler bir referans bu bağlantıdır .

Ana kaçamak, binleşme noktalarının (veya kesme noktalarının) ve sonuçta ortaya çıkan bilgi kaybının oldukça keyfi olması ve spline'ların tercih edilmesidir.

Bununla birlikte, şu anda birçok özelliği için bir dizi sürekli güven önlemine sahip Spotify API ile çalışıyorum.

Bir özelliğe, "araçsallığa" bakıldığında, referanslar şunları ifade eder:

Bir parçanın vokal içerip içermediğini tahmin eder. “Ooh” ve “aah” sesleri bu bağlamda araçsal olarak ele alınır. Rap veya konuşulan kelime parçaları açıkça “vokal” dir. Enstrümanlık değeri 1.0'a ne kadar yakın olursa, parçanın hiç ses içeriği içermemesi de o kadar büyük olur. 0.5'in üzerindeki değerlerin enstrümantal parçaları temsil etmesi amaçlanmıştır , ancak değer 1.0'a yaklaştıkça güven daha yüksektir.

Verilerimin çok sol eğimli dağılımı göz önüne alındığında (örneklerin yaklaşık% 90'ı neredeyse 0'ın üzerindeyken, bu özelliği iki kategorik özelliğe dönüştürmenin mantıklı olduğunu gördüm: "enstrümantal" (değeri 0,5'in üzerinde olan tüm numuneler) ve "enstrümantal olmayan "(değeri 0,5'in altında olan tüm numuneler için).

Bu yanlış mı? Ve (sürekli) verilerimin neredeyse tamamı tek bir değer etrafında dönerken alternatif ne olurdu? Spline hakkında anladığım kadarıyla, onlar da sınıflandırma problemleriyle (yaptığım şey) işe yaramazlar.


10
Açıkladığınız kurulum, binning'in iyi bir fikir olduğunu ima etmiyor gibi görünüyor. Bir değerin 1.0'a ne kadar yakın olduğuna dair bilgi olduğunu kendiniz söylediniz . IMHO, araçsal olma olasılığı ile ilgili sürekli bir özelliğe sahip olmak için iyi yapardınız. Belki sorunuzu genişletebilirsiniz.
Frank Harrell

Benim sorum temelde binning kullanmanın ne zaman uygun olduğu. Benim durumumda, bir alanın temelinde (enstrümantal / enstrümantal değil) kullandım, çünkü bir parçanın enstrümantal olmaya ne kadar yakın olduğunu söylemekten daha öngörülü olduğuna inanıyorum (bir parça ya araçsal ya da araçsal değil). Ancak bu mantığa karşı, yayınınızın 8. noktasında tartıştınız. Bir acemi olarak, bunun neden olması gerektiğini gerçekten anlamakta zorlanıyorum.
Okuyucu

1
Bu konuda öngörülü modelleme bağlamında uzun bir yazı yazdım: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury

Çok bilgilendirici ve kapsamlı, teşekkürler. Ancak, sorumla olan ilişkiyi görmüyorum (yine de bazı yeni görüşler edindim, bu yüzden her şey yolunda!). Yazınızın regresyon sorunları belirleyicisi değişkeni binning bahsediyor ve neden bu kötü bir fikir (makale ikna edici karşı savundu) ve neden olduğu eğrileri kullanarak regresyon modelleme için yardımcı olur. Neden bir sınıflandırma probleminde sürekli bir özelliğin (bir girdi) değerlerini takdir etmenin kötü olduğunu soruyordum (kestirim değişkenleri doğası gereği "kutu", yani sınıflar).
Readler

2
Neredeyse tüm özellikleriniz bir noktada ise, ne yaparsanız yapın modelinize yararsızdır.
Biriktirme

Yanıtlar:


15

Binning'in her ne pahasına olursa olsun kaçınılması gerektiğini söylemek biraz abartılıdır , ancak binning'in analize biraz keyfilik getiren bin seçenekleri getirdiği kesinlikle doğrudur. Modern istatistiksel yöntemlerle, binnasyona girmek genellikle gerekli değildir, çünkü ayrıklaştırılmış "binned" veriler üzerinde yapılabilecek her şey genellikle altta yatan sürekli değerler üzerinde yapılabilir.

İstatistiklerde “binning” in en yaygın kullanımı histogram yapımındadır. Histogramlar, seçilen bölmelerde basamak fonksiyonlarının toplanmasını içerdikleri sürece, genel çekirdek çekirdek tahmin edicileri (KDE) sınıfına benzerken, KDE daha pürüzsüz çekirdeklerin toplanmasını içerir. Bir histogramda kullanılan adım işlevi düzgün bir işlev değildir ve genellikle verilerin temeldeki yoğunluğunun daha iyi tahminlerini veren KDE yöntemi altında daha az keyfi olan daha iyi çekirdek işlevlerinin seçilebilmesidir. Öğrencilere genellikle bir histogramın sadece "fakir bir adamın KDE'si" olduğunu söylüyorum. Kişisel olarak, asla kullanmam, çünkü verileri bölmeden KDE elde etmek çok kolaydır ve bu, keyfi bir binning seçeneği olmadan üstün sonuçlar verir.

"Binning" in başka bir yaygın kullanımı, bir analist, ayrık değerler kullanan analitik teknikleri kullanmak için sürekli verileri kutulara ayırmak istediğinde ortaya çıkar. Vokal seslerin tahmini hakkında alıntı yaptığınız bölümde önerilen bu gibi görünüyor. Bu gibi durumlarda, binning tarafından getirilen bazı keyfilikler vardır ve ayrıca bilgi kaybı da vardır. Ayrık "binned" değerler üzerinde bir model oluşturmak yerine, doğrudan altta yatan sürekli değerler üzerinde bir model oluşturmaya çalışarak mümkünse bundan kaçınmak en iyisidir.

Genel bir kural olarak, istatistikçilerin, özellikle bu varsayımlardan kolayca kaçınmak için alternatif tekniklerin mevcut olduğu durumlarda, keyfi varsayımlar getiren analitik tekniklerden kaçınmaları arzu edilir. Bu yüzden binning'in genellikle gereksiz olduğu fikrine katılıyorum. Kesinlikle kaçınılması gereken her ne pahasına maliyetleri önemli olduğundan, ancak herhangi bir ciddi rahatsızlık vermeden korunmasını sağlar basit alternatif teknikler vardır ne zaman genellikle kaçınılmalıdır.


Anlıyorum. Örneğin dağılımına bakarak yukarıda belirtilen: gerçi, soru Takip buraya bakınız olan, sadece neredeyse tüm numuneler yaklaşık bir değer (burada 0 olmak üzere) döner bir sürekli değişkendeki yararını görmek için başarısız (ironik bir histogram) başlangıçta beni bu özelliğe binmeye iten şeydi. Alternatiflikten bahsettiniz - daha fazla bilgi edinebileceğim yer konusunda beni nazikçe hazırlar mıydınız yoksa doğru yöne yönlendirir misiniz?
Okuyucu


Ben histogramın her yerde değerleri görüyorum (ama evet, çoğunlukla sıfıra yakın). Spline fit kullanmanın bir sakıncası olmamalıdır ve bu kesinlikle daha fazla bilgi verecektir. Takılan spline'ı çizin! ve eğer herhangi bir nedenle takdir etmeniz gerekiyorsa , bu plan size nasıl yardımcı olabilir. Özel kullanımınız için 0,5'ten başka bir kesme noktası daha iyi olabilir.
kjetil b halvorsen

2
Bir histogram KDE olarak doğru şekilde yorumlanamaz. Çekirdek ne olurdu?
whuber

1
Üçüncü paragrafınızla ilgili olarak, bazı sayısal verilerle bilgi kazancını hesaplamaya çalışırken benzer bir sorum vardı. Bu soruya bakıp bu durumda ne yapacağınızı açıklayabilir misiniz? stats.stackexchange.com/questions/384684/…
astel

4

Normalde, diğerlerinin saygın Frank Harrell tarafından iyi ifade edilen nedenlerden dolayı sürekli değişkenlerin kategorize edilmesine şiddetle karşı çıkacağım. Bu durumda, puanları oluşturan süreci kendinize sormak faydalı olabilir. Görünüşe göre skorların çoğu belki biraz gürültü eklenmiş olarak etkili bir şekilde sıfırdır. Bunlardan birkaçı yine gürültü ile birliğe oldukça yakın. Aralarında çok az yalan var. Bu durumda, modülasyonun gürültünün ikili bir değişken olduğunu iddia edebileceğinden, sınıflandırma için daha fazla gerekçe vardır. Eğer bir kişi sürekli değişken olarak uyuyorsa, katsayıların öngörücü değişkendeki değişim açısından bir anlamı olacaktır, ancak bu durumda aralığının çoğunda değişken çok seyrek olarak doldurulur, bu da çekici görünmemektedir.


4
Binning'in ne zaman kullanılacağına dair kısa cevabım şudur: Verilere bakmadan önce süreksizlik noktaları zaten biliniyorsa (bunlar bin uç noktalarıdır) ve her bölmedeki x ve y arasındaki ilişkinin sıfır olmayan uzunluk düzdür.
Frank Harrell

2

Sadece saatleri gösteren bir saatiniz olduğunu düşünün. Sadece demek istediğim, sadece bir saat okunun saatte bir kez başka bir saate 1/12 atlaması yapması, düzgün hareket etmemesi. Böyle bir saat çok yararlı olmaz, çünkü saat ikiyi beş geçiyor, ikiyi yarım geçiyor mu, yoksa ondan üçe mi bilmiyorsunuz. Bu, ikili verilerle ilgili sorun , ayrıntıları kaybediyor ve "gergin" değişiklikleri getiriyor.


1
(+1) Evet, ve buna ek olarak saat üreticisinin saatlik artışları seçemeyebileceğini, ancak saatinin 19 dakikalık artışlarla olacağına keyfi olarak karar verebileceğini ve yalnızca bilgi kaybının ötesinde ek bir sorununuz olduğunu da ekleyin. .
Ben - Monica

2

Görünüşte düşündüğünüz uygulama da dahil olmak üzere bazı uygulamalar için, binning kesinlikle gerekli olabilir. Açıkçası bir kategorizasyon problemi gerçekleştirmek için, bir noktada kategorik verileri modelinizden çekmeniz gerekir ve girdileriniz de kategorik değilse, binning yapmanız gerekir. Bir örnek düşünün:

Sofistike bir yapay zeka poker oynuyor. Elinin diğer oyuncuların elinden üstün olma olasılığını% 70 olarak değerlendirmiştir. Bahse girme sırasıdır, ancak her ne pahasına olursa olsun binning'ten kaçınması gerektiği ve bunun sonucunda asla bahis oynaması gerektiği söylenmiştir; varsayılan olarak katlanır.

Bununla birlikte, duyduğunuz şey doğru olabilir, çünkü ara değerlerin zamanından önce depolanması korunmuş olabilecek bilgileri teslim eder. Projenizin nihai amacı, söz konusu şarkıyı iki faktörle belirlenebilecek: "enstrümantalite" ve "rockitude" tarafından belirlenip belirlenmeyeceğini belirlemekse, bunları sürekli değişkenler olarak saklamak daha iyi olur. kategorik bir değişken olarak "beğenme" yi çıkarması gerekir.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

veya en uygun gördüğünüz katsayıları veya eğitim setinize uygun başka bir modeli.

Bunun yerine bir şeyin "enstrümantal" (doğru veya yanlış) ve "kayalar" (doğru veya yanlış) olup olmadığına karar verirseniz, 4 kategorinizi gün olarak düzleştirmeden önce düzenlersiniz:

  1. enstrümantal, kayalar
  2. aletsiz, kayalar
  3. enstrümantal, taşsız
  4. aletsiz, taşsız

Ama sonra karar vermeniz gereken bu 4 kategoriden hangisini "beğeneceğiniz". Son kararınızda esnekliği teslim ettiniz.

Çöp kutusu koyup koymama kararı tamamen hedefinize bağlıdır. İyi şanslar.


2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

OP sorusu bağlamında , keyfi eşik 0.5'in güvenilir minimum ve maksimum değerler arasında çeşitli değerlere ayarlanması ve analizinin temel sonuçlarının seçimden büyük ölçüde bağımsız olduğunu görmek memnun olurum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.