Sürekli bir tahmin değişkeninden ayrılmanın faydası nedir?


78

Bir modelde kullanmadan önce, sürekli bir yordayıcı değişkenini almanın ve onu parçalara ayırmanın (örn. Quintiles) ne olduğunu merak ediyorum.

Bana öyle geliyor ki değişkeni binerek bilgiyi kaybediyoruz.

  • Bu sadece doğrusal olmayan etkileri modelleyebilmemiz için mi?
  • Değişkeni sürekli tutsak ve gerçekten düz bir doğrusal ilişki olmasaydı verilere en iyi şekilde uyacak bir eğri bulmamız gerekir mi?

12
1) Hayır. Dengelemenin bilgi kaybedeceği konusunda haklısınız. Mümkünse kaçınılmalıdır. 2) Genel olarak, verinin arkasındaki teori ile tutarlı olan eğri işlevi tercih edilir.
O_Devinyak

8
Avantajları bilmiyorum, ancak yaygın olarak tanınan çok
Glen_b

2
Ara sıra, bunun için isteksiz bir argüman: Klinik yorumlamayı ve sonuçların sunumunu kolaylaştırabilir - örneğin. kan basıncı genellikle ikinci dereceden bir yordayıcıdır ve bir klinisyen düşük, normal ve yüksek KB için oyukların kullanımını destekleyebilir ve bu geniş grupları karşılaştırmakla ilgilenebilir.
user20650,

4
@ user20650: Sizi anladığımdan emin değilim, ancak yapabileceğiniz en iyi modele uyması daha iyi olmaz mıydı ve sonra bu modelin tahminlerini geniş gruplar hakkında söylemek istediğiniz herhangi bir şeyi söylemek için kullanmak daha iyi olmaz mı? Çalışmamdaki 'yüksek tansiyon grubu' genel nüfus ile aynı basınç dağılımına sahip olmayacak, dolayısıyla sonuçları genelleşmeyecek.
Scortchi

7
Basitleştirilmiş klinik yorum bir serap. Kategorize edilmiş sürekli değişkenlerden etki tahminlerinin bilinen bir yorumu yoktur.
Frank Harrell,

Yanıtlar:


64

Her iki konuda da haklısın. Frank Harrell'in sayfasına bakın burada sürekli değişkenler binning ile sorunların uzun bir liste için. Birkaç kutu kullanırsanız, tahminlerde çok fazla bilgi atarsınız; eğer çok kullanırsanız, kükürtleri pürüzsüz olması gereken, hatta doğrusal olmasa bile, ilişkide bulunacak ve çok fazla serbestlik derecesi kullanacak şekilde yerleştirme eğilimindesiniz. Tahminciler için polinomları ( ) veya spline'ları (pürüzsüz bir şekilde birleştirilen parça parça polinomları) kullanmak genellikle daha iyidir . Binning, sadece kesme noktalarındaki tepkilerde bir süreksizlik beklediğiniz zaman gerçekten iyi bir fikirdir - bir şeyin kaynadığı sıcaklığı veya sürüş için yasal yaşını söyleyin - ve yanıt aralarında düz olduğunda ..x+x2+...

Değer? - iyi, düşünmek zorunda kalmadan eğriliği hesaba katmanın hızlı ve kolay bir yolu; ve model, onu kullandığınız şey için yeterince iyi olabilir. Tahmin edicilerin sayısına kıyasla çok fazla veri olduğunda, her tahmincinin bolca kategoriye ayrıldığı zaman işe yarar. Bu durumda her bir tahmin bandında cevap aralığı küçüktür ve ortalama cevap tam olarak belirlenir.

[Yorumlara cevap olarak düzenleyin:

Bazen, sürekli bir değişken için bir alanda kullanılan standart kesimler vardır: örneğin, tıpta kan basıncı ölçümleri, düşük, orta veya yüksek olarak kategorize edilebilir. Bir model sunarken veya uygularken bu tür kesintileri kullanmak için birçok iyi neden olabilir. Özellikle, karar kuralları genellikle bir modele girenden daha az bilgiye dayanır ve uygulanması basit olabilir. Ancak bu kesmelerin, modele uyduğunuzda öngörücülerin bindirilmesi için uygun olduğunu takip etmez.

Bazı yanıtların kan basıncında sürekli değiştiğini varsayalım. Yüksek tansiyon grubunu çalışmanızın belirleyicisi olarak tanımlarsanız, tahmin ettiğiniz etki, o gruptaki kişilerin belirli tansiyonları üzerindeki ortalama tepkidir. O var değilGenel popülasyonda yüksek tansiyonu olan veya başka bir çalışmada yüksek tansiyon grubundaki kişilerin ortalama tepkisine dair bir tahmin, eğer bunu yapmak için özel önlemler almazsanız. Kan basıncı genel popülasyondaki dağılımı biliniyorsa, tahmin ettiğim gibi, tansiyonu yüksek olan modelden tahminlere dayanarak genel popülasyonda yüksek tansiyonu olan kişilerin ortalama tepkisini hesaplamak daha iyi olacaktır. sürekli değişken Ham binicilik, modelinizi yalnızca genelleştirilebilir kılar.

Genel olarak, kesintiler arasındaki yanıtın davranışına ilişkin sorularınız varsa, önce yapabileceğiniz en iyi modele uyun ve sonra bunları yanıtlamak için kullanın.]

[Sunum ile ilgili olarak; Bunun kırmızı bir ringa balığı olduğunu düşünüyorum:

(1) Sunum kolaylığı, kötü modelleme kararlarını haklı çıkarmaz. (Ve, gölgelemenin iyi bir modelleme kararı olduğu durumlarda, ek bir gerekçeye ihtiyaç duymaz.) Kesinlikle bu açıktır. Hiç kimse bir modelden önemli bir etkileşim almayı önermez, çünkü bunu sunmak zor.

(2) Ne tür bir model uyursanız olun, yorumlamaya yardımcı olacağını düşünüyorsanız, sonuçlarını kategoriler halinde sunabilirsiniz. Rağmen ...

(3) Yukarıda belirtilen sebeplerden dolayı yanlış yorumlamaya yardımcı olmadığından emin olmak için dikkatli olmalısınız .

(4) Doğrusal olmayan tepkileri sunmak aslında zor değildir. Kişisel görüş, açıkça ve kitleler farklıdır; ama tahmin edicilere karşı takılı yanıt değerlerinin grafiğini hiç görmedim, çünkü sadece kavisli olduğu için birini. Etkileşim, logit, rastgele etkiler, çoklu bağlantı, ... - bunların açıklanması daha zordur.]

[@Roland tarafından gündeme getirilen bir başka nokta, tahmincilerin ölçümünün kesinliğidir; Sanırım, kategorize edilmenin özellikle kesin olmadıklarında uygun olabileceğini düşünüyor. Sağduyu, daha az kesin olarak tekrar söyleyerek sorunları iyileştirmediğinizi önerebilir ve sağduyu doğru olacaktır: MacCallum ve diğerleri (2002), "Kantitatif Değişkenlerin Dikotomisi Uygulaması", Psikolojik Yöntemler , 7 , 1, sayfa 17-19.]


6
Yaygın bir konuda mükemmel yorumlar. Burada tamamen nicel düşünme için propaganda yapmak önemlidir. Bazı seviyelerdeki felaketlerin üzerinde, örneğin bazı seviyelerde felaketlerin üzerinde, bazı seviyelerde rahatlığın altında çok fazla vurgu var.
Nick Cox

14
Herkese, doktorlar tarafından kullanılan herhangi bir kesintiyi onayladığını söylerdim.
Frank Harrell

Bu bindirme yaklaşımının diğer alanlarda bazı yararları olduğunu belirtmekte fayda var - özellikle araç yönlendirmesi gibi çok modlu dağılımları tahmin etmek için büyük sinir ağları ile birleştiğinde popülerdir. Örneğin, arxiv.org/abs/1612.00496 adresine bakınız .
N. McA.

11

Bunu sorduğumdan beri öğrendiğim bu cevabın bir kısmı, bindirme ve bindirme yapmamanın iki farklı soruya cevap vermeye çalıştığıdır - Verilerdeki artan değişiklik nedir? ve En düşük ile en yüksek arasındaki fark nedir? .

Binicilik, "bu, verilerde görülen eğilimin bir ölçüsüdür" ve binicilik, "her artışta bunun ne kadar değiştiğini söyleyecek kadar bilgim yok, ancak tepenin alttan farklı olduğunu söyleyebilirim" diyor. .


5

Bir klinisyen olarak cevabın ne yapmak istediğinize bağlı olduğunu düşünüyorum. En iyisini yapmak veya en iyi ayarı yapmak istiyorsanız sürekli ve kare değişkenleri kullanabilirsiniz.

İstatistiksel olarak yönlendirilmemiş bir izleyici kitlesi için karmaşık ilişkileri tanımlamak ve iletmek istiyorsanız, kategorize edilmiş değişkenlerin kullanımı daha iyidir, son ondalık basamağa biraz hafif taraflı sonuçlar verebileceğinizi kabul etmek. Doğrusal olmayan ilişkileri göstermek için en az üç kategori kullanmayı tercih ediyorum. Alternatif, belirli noktalarda grafikler ve öngörülen sonuçlar üretmektir. O zaman ilginç olabilecek her sürekli değişken için grafik ailesi üretmeniz gerekebilir. Çok fazla önyargı almaktan korkuyorsanız, her iki modeli de test edip farkın önemli olup olmadığını görebilirsiniz. Pratik ve gerçekçi olman gerekiyor.

Sanırım, birçok klinik durumda hesaplamalarımızın kesin verilere dayanmadığını ve örneğin bir yetişkine ilaç yazdığımda, bunu zaten kilo başına tam mg'ın (cerrahi ile tıbbi tedavi arasında seçim yapmayı seçerek) yapmadığımı fark edebilirim. sadece saçmalık).


1
Neden analoji saçmalık tam olarak? Çünkü sürekli değişkenleri kategorize etmek asla önemli ölçüde daha kötü modeller üretmez? Ya da çok daha kötü bir model kullanmanın hiçbir zaman pratik bir sonucu olmaz mı?
Scortchi

9
@Roland'da durum böyle değil. Kesiklerden elde edilen tahminler sadece basittir çünkü insanlar tahminlerin ne olduğunu tahmin edemezler. Bunun nedeni, bilimsel bir niceliği, yani numune veya deney dışında bir anlamı olan bir miktarı tahmin etmemeleridir. Örneğin, yüksek: düşük oran oranı veya ortalama fark, veri kümesine ultra yüksek veya ultra düşük değerleri olan hastaları eklerseniz artacaktır. Ayrıca, kesiklerin kullanımı, biyolojinin süreksiz olduğu anlamına gelir ki bu durum böyle değildir.
Frank Harrell

@Scortchi Medikal tedaviden cerrahi tedaviye geçmek açıklamak daha kolaydır (gerçekten mi?) Açıklayıcı değişken olarak yaşın yüksekliği ile değiştirmek gibidir.
Roland

İkili değişkenlerden kaçınmak konusunda hemfikirim. Klinik tıp, son ondalık basamağın önemli olduğu bir kaya bilimi değildir. Sonuçlarla çalıştığım modellerde sadece yaş ve yaş kategorilerini sürekli ve kare değişkenler olarak kullanırsam, ancak derneklerin anlaşılabilirliğini ve iletişim kabiliyetini büyük ölçüde arttırırsam, son ondalık basamağında değişir.
Roland

4

Önceki posterlerin belirttiği gibi, sürekli bir değişkeni diktoplamaktan kaçınmak en iyisidir. Ancak, sorunuza cevaben, sürekli bir değişkeni dikotomlaştırmanın avantajlar sağladığı durumlar vardır.

Örneğin, belirli bir değişken popülasyonun önemli bir kısmı için eksik değerler içeriyorsa, ancak yüksek oranda tahmin edici olduğu ve eksik değerlerin de kendisinin öngörücü değeri taşıdığı bilinmektedir. Örneğin, bir kredi puanlama modelinde, bir değişkeni göz önünde bulundurun, diyelim ki ortalama döner kredi bakiyesi (verilen teknik olarak sürekli değildir, ancak bu durumda, bu şekilde ele alınacak kadar yakın normal bir dağılımı yansıtır). belirli bir hedef pazarda başvuru sahibi havuzunun yaklaşık% 20'si için eksik değerler. Bu durumda, bu değişken için eksik değerler, açık, döner bir kredi hattına sahip olmayanlar; Bu müşteriler, örneğin döner kredisi mevcut olanlara göre tamamen düzenli davranış sergileyenlere göre tamamen farklı davranışlar sergileyeceklerdir.

Dikhotomizasyonun bir diğer yararı: Katsayıları eğrilten, ancak ele alınması gereken gerçekçi vakaları temsil eden önemli aykırı değerlerin etkilerini azaltmak için kullanılabilir. Aykırı değerler, en yakın yüzdelik değerlerdeki diğer değerlerden elde edilen sonuçlarda büyük ölçüde farklılık göstermiyorsa, ancak marjinal doğruluğu etkilemek için parametreleri yeterince eğriltiyorsa, bunları benzer etkileri gösteren değerlerle gruplamak yararlı olabilir.

Bazen bir dağıtım doğal olarak kendisini bir dizi sınıfa verir; bu durumda dikotomizasyon size sürekli bir fonksiyondan daha yüksek bir doğruluk derecesi verir.

Ayrıca, daha önce de belirtildiği gibi, izleyiciye bağlı olarak, sunum kolaylığı kayıpları doğruluktan daha ağır basabilir. Örnek olarak tekrar kredi puanlama kullanmak için, uygulamada, yüksek düzenleme derecesi zaman zaman ayrıklaştırma için pratik bir durum ortaya koymaktadır. Yüksek doğruluk derecesi borç verenin zararları azaltmasına yardımcı olabilirken, uygulayıcılar ayrıca modellerin düzenleyiciler (binlerce sayfa model dokümantasyon isteyebilecek olan) ve kredisi reddedilen yasal olarak hak sahibi olan tüketiciler tarafından kolayca anlaşılması gerektiğini düşünmelidir. nedeninin açıklaması.

Bunların hepsi eldeki soruna ve verilere göre değişiyor, fakat kesinlikle dikotomlaşmanın yararı olduğu durumlar var.


Dikotomizasyon iki kutuya giriyor - isteğe bağlılaştırma demek mi istiyorsun?
Scortchi

2
İlk iki örneğinizin her ikisinde de, takdirsizlik, iyi niyetli bir misafirin üzerine tutunarak parti içine girmeye çalışıyor. Kanmayın. (1) Açık bir döner kredi hattının farklı bir sınıf olarak bulunmamasını modellemek istiyorsanız, bu koşulu göstermek için ortalama bir değişken kullanın ve ortalama döner kredi bakiyesi için herhangi bir sabit değer atayın . (2) Bazı aşırı tahmin değerlerini "büyük" veya "küçük" olarak aynı şekilde ele almak istiyorsanız, bunları kısaltın; geri kalan değerlerle uğraşmanıza gerek yok. Üçüncü davaya itiraz edilemez - örnekler eklemekten çekinmeyin.
Scortchi

3

Bir değişkenin belirli bir eşikte bir etkisi varsa, bunu eşleştirerek yeni bir değişken oluşturun. Yapılması iyi bir şeydir. Her iki değişkeni de saklarım, orjinalini ve birini bindirir ve hangi değişkenin daha iyi bir tahmin olduğunu kontrol ederim.


3

Ben Frank Harrell'in analistlerin sürekli verilerin öncelikli takdirine karşı koymaları konusunda tavsiyesinde bulunduğuna dair kararlı bir hayranıyım. Ve CV ve SO hakkında sürekli değişkenler arasındaki etkileşimlerin nasıl görselleştirileceğini gösteren birkaç cevabım var, çünkü bunun daha da değerli bir araştırma hattı olduğunu düşünüyorum. Bununla birlikte, bu tavsiyeye uymanın önündeki engellerin tıp dünyasında da gerçek dünya deneyimim var. Hem klinisyenlerin hem de klinisyen olmayanların "bölmeler" için bekledikleri çekici bölümler vardır. Geleneksel "normal üst limit" böyle bir "doğal" ayrılma noktasıdır. Birincisi, öncelikle bir ilişkinin istatistiksel temelini incelemek ve daha sonra bulguların içeriğini izleyicinizin beklediği ve kolayca anlayabileceği şekilde iletmektir. "Alerjime" rağmen Barutlara, bilimsel ve tıbbi söylemde fazlasıyla yaygındır. Dolayısıyla, izleyiciler onları işlemek için hazır bir bilişsel yapıya sahip olacak ve sonuçları kendi bilgi tabanlarına entegre edebilecekler.

Ayrıca, doğrusal olmayan tahmin değişkenlerinin formları arasındaki modellenen etkileşimlerin grafiksel gösterimi, izleyicinin sindirimi zorlaştıracağı kontur grafikleri veya tel kafes gösterimlerinin sunumunu gerektirir. Tıbbi ve genel halkı, ayrıklaştırılmış ve bölümlendirilmiş sonuçları olan sunumlara daha alıcı buldum. Dolayısıyla, sonucun istatistiksel analizin tamamlanmasından sonra düzgün bir şekilde yapıldığına inanıyorum ; ve sunum aşamasında yapılır.


1

Çoğu zaman sürekli değişkenleri dengelemek, kaybedilen bilgiler nedeniyle hasara neden olma konusunda huzursuz bir his uyandırır. Ancak, yalnızca bilgi kaybını sınırlandırmakla kalmaz, bilgi kazanabilir ve daha fazla avantaj elde edebilirsiniz.

Binning kullanıyorsanız ve kategorize edilmiş değişkenleri kullanıyorsanız, sürekli değişkenler için geçerli olmayan öğrenme algoritmaları uygulayabilirsiniz. Veri kümeniz bu algoritmalardan birine daha uygun olabilir, bu yüzden ilk avantajınız burada.

Bindirmeden kaynaklanan zararı tahmin etme fikri, “PAC'ın alakasız niteliklerle öğrenmesi” adlı makaleye dayanmaktadır. Konseptimizin ikili olduğunu varsayalım, böylece örnekleri pozitif ve negatif olarak ayırabiliriz. Her bir negatif ve pozitif örnek çifti için, kavramdaki fark, özelliklerden birindeki farkla açıklanabilir (veya aksi takdirde verilen özelliklerle açıklanamaz). Özellik farkları seti, konsept farkına olası bir açıklama kümesidir, dolayısıyla konsepti belirlemek için kullanılacak verilerdir. Eğer para kazanırsak ve çiftler için hala aynı açıklamaları yaparsak, (bu tür karşılaştırmalar ile çalışan öğrenme algoritmaları ile ilgili) herhangi bir bilgiyi kaybetmedik. Eğer kategorizasyonumuz çok katı olacaksa, muhtemelen daha küçük bir olası açıklama setimiz olacak, ancak ne kadar ve nerede kaybettiğimizi doğru bir şekilde ölçebileceğiz. Bu, depo sayıları ile açıklama kümeleri arasında işlem yapmamızı sağlayacaktır.

Şimdiye kadar kategorileştirme nedeniyle kaybedemeyeceğimizi gördük, ancak böyle bir adım atmayı düşünürsek faydalanmak istiyoruz. Gerçekten, kategorizasyondan faydalanabiliriz

Tren setinde görülmeyen değerlerle bir örneği sınıflandırması istenen birçok öğrenme algoritması, değeri "bilinmeyen" olarak değerlendirecektir. Bu nedenle, tren sırasında görülmeyen (hatta yeterince görülmemiş) TÜM değerleri içeren bir "bilinmeyen" kutusu alacağız. Bu tür algoritmalar için, bilinmeyen değerler çiftleri arasındaki fark sınıflandırmayı geliştirmek için kullanılmayacaktır. Eşleştirmeden sonra çiftlerinizi bilinmeyen çiftlerle karşılaştırın ve eşleştirmenizin yararlı olup olmadığını ve kazandığınızı görün.

Her özelliğin değer dağılımını kontrol ederek bilinmeyen değerlerin ne kadar yaygın olacağını tahmin edebilirsiniz. Özellik, sadece birkaç kez görünen değerlerdi, dağıtımlarının önemli bir kısmı binicilik için iyi adaylardı. Birçok senaryoda, bir numunenin bilinmeyen değer içerme olasılığını artıran bilinmeyen birçok özelliğe sahip olacağınızı unutmayın. Özelliklerin tümünü veya bir çoğunu tedavi eden algoritmalar, bu gibi durumlarda hataya açıktır.

A. Dhagat ve L. Hellerstein, 'IEEE Symp. Bilgisayar Bilimleri Vakfı ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.