Lojistik regresyon katsayılarının önemi nedir?


42

Şu anda 2000 ve 2004 seçimlerinde oy kullanma yeri ve oy kullanma tercihi ile ilgili bir makale okuyorum . İçinde lojistik regresyon katsayılarını gösteren bir grafik var. Yıllar öncesinden dersler ve biraz okumaLojistik regresyonun çoklu bağımsız değişkenler ile ikili yanıt değişkeni arasındaki ilişkiyi tanımlamanın bir yolu olduğunu anlıyorum. Kafam karıştı, aşağıdaki tabloya bakıldığında, Güney'in 0,903'lük bir lojistik regresyon katsayısına sahip olması nedeniyle, bu, Güneylilerin% 90,3'ünün cumhuriyetçi oy kullandığı anlamına mı geliyor? Metriğin lojistik doğası nedeniyle, bu doğrudan korelasyonun mevcut olmadığıdır. Bunun yerine, yalnızca güneyin .903 ile .506 gerilemesiyle Cumhuriyetçi'ye Dağlardan / ovalardan daha fazla oy verdiğini söyleyebilirim. İkincisi ise, neyin önemli olduğunu, neyin olmadığını ve bu lojistik regresyon katsayısı göz önüne alındığında cumhuriyetçi oylarının bir yüzdesini tahmin etmenin mümkün olup olmadığını nasıl bilebilirim. Lojistik regresyon katsayılarını gösteren tablo

Yan not olarak, yanlış bir şey belirtilirse lütfen yazımı düzenleyin


Bu daha çok bir takip sorgusu (ve muhtemelen göndermemeliyim), ama aradığım şey oldukça fazla olduğu için "yüzde belirtmek mümkün mü" demenin iyi bir yolunu buldunuz.
Stefan Andersson

2
Bunu, tek başına bir soru olarak formüle etmeniz ve burada bir cevaptan ziyade, ayrı olarak göndermenizin daha iyi olacağını düşünüyorum.
kardinal,

Kimse gazeteyi merak ediyorsa, SC McKee ve JM Teijen'in Kırmızıları ve Mavileri Söylemesi : 2000 ve 2004 ABD başkanlık seçimlerinde seksiyonelcilik ve seçmenlerin konumu (2009) Siyasi Coğrafya
Alex Nelson

Yanıtlar:


36

Hala - Bu uygulama neden zorlayıcı illüstrasyon gibi bir soru sormak zorunda olduğu yazar düşünceli olarak birini zorladığını yolu çok yaygın - Böyle bir tabloya regresyon modeli sonuçlarının raporlanması hapsetmesi yüzden kabul edilemez.

  1. Belirtildiği gibi, logit katsayısını söz konusu yordayıcı için tahmin edilen etkinin anlamlı bir göstergesine dönüştürmeyi deneyebilirsiniz, ancak bu çok zahmetlidir ve tahminlerin kesinliği hakkında bilgi vermez. lojistik regresyon modeli (özellikle oylamada).

  2. Ayrıca, önem seviyelerinin "seviyelerini" bildirmek için çoklu yıldızların kullanılması, p değerlerinin bazı anlamlı etki büyüklüğü indeksi olduğu ("vay - 3 yıldıza sahip !!"); yüksek sesle ağlamak için, 10.000 - 20.000 arası w / N'ler, tamamen önemsiz farklılıklar p <.001 filanında "önemli" olacaktır.

  3. Bu şekilde gizemli olmaya kesinlikle gerek yoktur. Lojistik regresyon modeli, ölçüm hatasına bağlı olarak, öngörülen değerler için öngörülen değerler üzerinde koşullu bir sonucun olasılığını tahmin etmek için kullanılabilecek bir hesaplamadır (hesaplama belirlenir veya daha iyi durgun simülasyon). Yani araştırmacı rapor vermeliilgilendiren tahmincilerin etkisinin, ilgilenilen sonuç değişkeninin olasılığı üzerine ne olduğu ve pratik önemi kolayca kavranabilecek birimlerde ölçüldüğü gibi ilişkili CI. Hazır kavrama için, sonuçlar grafiksel olarak gösterilmelidir. Örneğin, araştırmacı, kentli seçmenlerin aksine kırsal kesimde olmanın Cumhuriyetçi oy kullanma olasılığını X pct puanları ile artırdığını bildirebilir (2000'de 17 civarında tahmin ediyorum; "4'e bölün", makul bir sezgisel) +/-% 0,95 güven düzeyinde - bilmek yararlı bir şeyse.

  4. Sahte R ^ 2'nin bildirilmesi, modelleyicinin aydınlatma girişimi yerine istatistiksel ritüelle meşgul olduğunun bir işaretidir. "Sözde R ^ 2" yi hesaplamanın puanları vardır; Burada kullanılan birinin belirtilmediğinden şikayet edilebilir, ama neden rahatsız ediyor? Hepsi anlamsız yanında. Herhangi birinin sahte R ^ 2 kullanmasının tek nedeni, kendilerine veya onlara işkence eden inceleme uzmanının OLS lineer regresyonunun istatistiklerin kutsal kâğıdı olduğunu ve birinin anlamaya çalıştığı tek şeyi düşündüğünü öğrenmesidir. "varyans açıklandı" dır. Lojistik analize uygun genel modelin yeterliliğini değerlendirmek için pek çok savunulabilir yol vardır ve olasılık oranı alternatif hipotezleri yansıtan modelleri karşılaştırmak için anlamlı bilgiler sunar. King, G. İstatistiklerle Nasıl Yalan Yok. Am. J. Pol. Sci. 30, 666-687 (1986).

  5. Raporlamanın böyle bir tabloyla sınırlı kaldığı bir yazı okuduysanız, kafanız karışmaz, korkutmayın, kesinlikle etkilenmeyin; bunun yerine sinirlenin ve araştırmacıya berbat bir iş yaptığını söyleyin (özellikle, yerel entelektüel ortamınızı mistisizmle ve huşu ile kirletiyorsa - şaşkın bir şekilde ne kadar vasat düşünürlerin akıllı insanları sadece bir şey bildiklerini düşünmeye kandırdıklarını anlayın. / c ikincisinin anlayamadığı bir tablo üretebilirler). Bu fikirlerin akıllı, ılıman, açıklamaları için bkz. King, G., Tomz, M. ve Wittenberg., J. İstatistiksel Analizlerden En İyi Şekilde Yararlanma : Yorumlama ve Sunumu İyileştirme . Am. J. Pol. Sci. 44, 347-361 (2000); ve Gelman, A., Pasarica, C. ve Dodhia, R.Şimdi Neyi Vaaz Verdiğimizi Pratik Yapalım: Tabloları Grafiğe Dönüştürmek . Am. Stat. 56, 121-130 (2002).


19

Buradaki düşünce, lojistik regresyonda, bir güneycinin Cumhuriyetçi oy kullanması olasılığını değil, dönüşümlü bir versiyonunu "log odds" olarak tahmin ediyoruz. olasılığı yerine, ile ilgileniyoruz ve log oranları için lineer regresyon katsayılarını buluyoruz.plogp/(1p)

Mesela, kentsel bir Kuzeydoğu vatandaşının Cumhuriyetçi bir oy kullanma olasılığının 0,3 olduğunu varsayalım. (Tabii ki bu regresyonun bir parçası olur; orijinal belgede olduğunu varsaysam da, bu tabloda rapor edildiğini görmüyorum.) Şimdi, verir ; bu, , "log odds", karşılık gelir . Bu "kütük oranları" doğrusal olarak davranır; tekabül eden günlük oran olan . Öyleyse kentli bir Southerner oy veren Cumhuriyetçi için kütük olasılıkları (Wikipedia'nın kesişme , ) artı Güney için lojistik regresyon katsayısı,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - yani, . Fakat gerçek bir olasılık istiyorsanız, fonksiyonunu tersine çevirmeliyiz . Bu . Gerçek oran gitmiş için için ile ; oranı olan , lojistik regresyon katsayısı üstel.0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

Dahası, örneğin, ülkenin bölge ve kent / banliyö / kırsal bölgelere etkileri de etkilenmiyor. Öyleyse, kırsalda yaşayan Orta oy veren Cumhuriyetçi’nin kütük olasılıkları, bu modele göre ; olasılık .f ( 0.20 ) = 1 / ( 1 + e - 0.20 ) = 0.550.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
sezgisel: 4 - logit katsayısı / 4 ile bölme, prob için yaklaşık pct-pt diff'dir. 1 birim değişikliğinden. Bu, "w / βsubn charcteristic = z için% x olması muhtemel bir kişi" demekle aynı şey değildir. Sadece (belirtildiği gibi) birinin classsub0 eklemesi ve ref sınıfı ile ilişkili olma olasılığını çıkarması gerekmez. Ayrıca yordayıcı eşdüzeyliğini dikkate almak da gereklidir. B / c'nin güneyi diğer tahmincilerle koreledir, bu prob için doğru olmaz. Güney Kıbrıs Türk Cumhuriyeti için oy kullanma repubı βsub0 - NE için dönüştürülmüş log oranları ve güney için dönüştürülmüş log oranları. "Her şey eşit, güneyden olmak,
xtp

1
'Gerçek oran 0,43' den 1 'e yükseldi. İlk başta 0,43 mü geldi?
Monica Heddneck

orijinal olasılık, olasılık olarak ifade edildiğinde, . 0.3 / ( 1 - 0.3 ) 0.430.30.3/(10.3)0.43
Michael Lugo

6

Lojistik regresyondaki katsayılar, belirli bir bölgenin / demografinin Cumhuriyetçi oy kullanma eğilimini, referans kategorisine göre gösterir. Olumlu bir katsayı, bölgenin Cumhuriyetçi oy kullanma olasılığının daha yüksek olduğu ve bunun tersi bir olumsuz katsayı için olduğu anlamına gelir; daha büyük bir mutlak değer, daha küçük bir değerden daha güçlü bir eğilim anlamına gelir.

Referans kategorileri "Kuzeydoğu" ve "kentsel seçmen" dir, bu nedenle tüm katsayılar bu seçmen türüyle zıtlıkları temsil eder.

Genel olarak, lojistik regresyondaki katsayılar üzerinde mutlak değerde bile olsa [0, 1] olacak bir kısıtlama yoktur. Wikipedia makalesinin kendisinin -5 ve 2 katsayılı bir lojistik regresyon örneği olduğuna dikkat edin.


5

Ayrıca neyin önemli neyin önemli olmadığını nasıl bilebilirim? (İstatistiksel olarak anlamlı demek istediğinizi varsayalım, çünkü pratik veya önemli önem başka bir konudur.) Tablodaki yıldızlar dipnotta belirtilmektedir: bazı etkiler küçük p değerlerine sahip olarak belirtilmiştir . Bunlar, her katsayının önemine dair bir Wald testi kullanılarak elde edilir. Rasgele örneklemenin varsayılması, p <.05, eğer daha büyük popülasyonda böyle bir etki olmasaydı, bu boyuttaki bir örnekte gözlenen bağlantıdan daha güçlü ya da daha güçlü bir bağlantı görme olasılığının 0,05'ten daha az olacağı anlamına gelir. . O ince ama önemli İlgili noktayı tartışırken bu sitede birçok konuları göreceksiniz p <.05 yapar değil daha büyük popülasyonda hiçbir bağlantının olmaması ihtimalinin 0,05 olduğu anlamına gelir.


5

Sadece rolando2 ve dmk38’in her ikisinin de not ettiği şeyin önemini vurgulayayım: önem genellikle yanlış anlaşılıyor ve sonuçların bu tablo halinde sunulmasıyla ortaya çıkma riski yüksek.

Paul Schrodt kısa süre önce konuyla ilgili güzel bir açıklama yaptı:

Araştırmacılar, anlamlılık testinin doğru yorumlanmasına uymanın neredeyse imkansız olduğunu düşünüyor. P-değeri size, yalnızca sıfır hipotezinin tamamen gerçekçi olmayan koşullarında sonuç alma olasılığınızı gösterir. Hangisini bilmek istediğinizi değil - genellikle verilere göre, bağımsız bir değişkenin etkisinin büyüklüğünü bilmek istersiniz. Bu bir Bayesian sorusu, sıkça sorulan bir soru değil. Bunun yerine, sürekli olarak görüyoruz ki, p değeri, birlikteliğin gücünü vermiş gibi yorumlandı: bu, dergilerimize izin veren her yerde bulunan Mistik Yıldız Kültü ve P-Değerleridir. (Fn) P-değerinin söylediği bu değil. ne de olmayacak.

Tecrübelerime göre, bu hatadan kaçınmak neredeyse imkansız: Sorunu tamamen bilen çok dikkatli analistler bile, sonuçları yazılı bir açıklamada sorundan kaçınmış olsalar bile, sözlü olarak tartışırken sık sık mod değiştireceklerdir. Ve bunu lisansüstü gazetelerde düzeltmek için harcadığımız binlerce saat ve galon mürekkebi bile tahmin edelim.

(fn) Dipnotta ayrıca, dmk38'den bahseden başka bir konu hakkında da bilgi verilmektedir: “[her yerde bulunan Yıldızların ve P-Değerlerinin her yerde bulunan Mistik Kültü], Kral tarafından (1986) yıkılan… en yüksek R2'nin Kültü'nü daha erken ve eşit derecede yaygınlaştırdı. .”


oh-- Ben sadece King cevabını düzenlediğim cevabımı ekledim. Bu makale, istatistiklerin bir anlamı olsa bile, gerçekten de R ^ 2 manisini (hala ekonometriye özgü) yıkıyor - OLS regresyonu için. King, sözde R ^ 2'nin "açıklanan varyans" ile ilişkili düşüncesizliği artırmak için üretilmiş saçma olduğunu da not ediyor.
dmk38
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.