Hosmer ve ark. 2013. R Uygulamalı Lojistik Regresyon


17

Bu benim ilk yazı StackExchange, ama bir süredir kaynak olarak kullanıyorum, uygun formatı kullanmak ve uygun düzenlemeleri yapmak için elimden geleni yapacağım. Ayrıca, bu çok parçalı bir soru. Soruyu birkaç farklı gönderiye mi yoksa sadece bir tanesine mi bölmem gerektiğinden emin değildim. Soruların hepsi aynı metindeki bir bölümden geldiğinden, tek bir soru olarak yayınlamanın daha alakalı olacağını düşündüm.

Yüksek Lisans Tezi için büyük memeli türlerinin habitat kullanımını araştırıyorum. Bu projenin amacı, orman yöneticilerine (büyük olasılıkla istatistikçi olmayan) bu türle ilgili olarak yönettikleri arazilerdeki yaşam alanlarının kalitesini değerlendirmek için pratik bir çerçeve sunmaktır. Bu hayvan nispeten zor, bir habitat uzmanıdır ve genellikle uzak bölgelerde bulunur. Özellikle mevsimsel olarak türlerin dağılımı ile ilgili nispeten az sayıda çalışma yapılmıştır. Birkaç hayvana bir yıl boyunca GPS yakaları takılmıştır. Her bir hayvanın GPS yaka verilerinden yüz konum (50 yaz ve 50 kış) rastgele seçilmiştir. Ek olarak, "mevcut" veya "yalancı yokluk" konumları olarak hizmet etmek üzere her bir hayvanın ev aralığında 50 puan rastgele oluşturuldu.

Her bir konum için, arazide çeşitli habitat değişkenleri (ağaç çapları, yatay örtü, kaba odunsu enkaz, vb.) Örneklenmiştir ve birçoğu CBS (yükseklik, yola uzaklık, sağlamlık, vb.) İle uzaktan örneklenmiştir. 7 seviyeli 1 kategorik değişken hariç değişkenler çoğunlukla süreklidir.

Amacım, kaynak birimlerinin göreceli kullanım olasılığını modellemek için kaynak seçim fonksiyonları (RSF) oluşturmak için regresyon modellemeyi kullanmaktır. Hayvanların popülasyonu (tasarım tip I) ve her bir hayvan için (tasarım tip III) mevsimsel (kış ve yaz) bir RSF oluşturmak istiyorum.

İstatistiksel analiz yapmak için R kullanıyorum.

Kullandığım birincil metin

  • "Hosmer, DW, Lemeshow, S. ve Sturdivant, RX 2013. Uygulamalı Lojistik Regresyon. Wiley, Chicester".

Hosmer ve ark. STATA kullanın, R ile ilgili olarak aşağıdaki 2 metni de kullanıyorum .

  • "Crawley, MJ 2005. İstatistikler: RJ Wiley, Chichester, Batı Sussex, İngiltere kullanarak bir giriş."
  • "Plant, RE 2012. R. CRC Press, Ekoloji ve Tarımda Mekansal Veri Analizi, Londra, GBR."

Şu anda Hosmer ve ark. "Ortak Değişkenlerin Amaçlı Seçimi" ve süreçle ilgili birkaç sorunuz var. Sorularıma yardımcı olmak için aşağıdaki metindeki ilk birkaç adımı özetledim.

  1. Adım 1: Her bağımsız değişkenin tek değişkenli analizi (Tek değişkenli lojistik regresyon kullandım). Tek değişkenli testi p değeri 0,25'in altında olan herhangi bir değişken ilk çok değişkenli modele dahil edilmelidir.
  2. Adım 2: Adım 1'e dahil edilmek üzere tanımlanan tüm ortak değişkenleri içeren ve Wald istatistiklerinin p değerini kullanarak her bir değişkenin önemini değerlendirmek için çok değişkenli bir model takın. Geleneksel önem düzeylerine katkıda bulunmayan değişkenler ortadan kaldırılmalı ve yeni bir model uygun olmalıdır. Daha yeni, daha küçük model, kısmi olabilirlik oranı testi kullanılarak eski, daha büyük modelle karşılaştırılmalıdır.
  3. Adım 3: Daha küçük modeldeki tahmini katsayıların değerlerini büyük modeldeki ilgili değerlerle karşılaştırın. Katsayısı büyüklükte belirgin bir şekilde değişmiş olan herhangi bir değişken, modelde kalan değişkenlerin etkisinin gerekli bir ayarlamasının sağlanması açısından önemli olduğu için modele geri eklenmelidir. Tüm önemli değişkenlerin modele dahil edildiği ve hariç tutulanların klinik ve / veya istatistiksel olarak önemsiz olduğu görünene kadar 2. ve 3. adımlar arasında dolaşın. Hosmer ve diğ. "kullanmak delta-beta-hat-yüzde katsayılarının büyüklük değişimin bir ölçüsü olarak". Delta-beta-şapka yüzdesi olarak>% 20 olarak önemli bir değişiklik önermektedirler . Hosmer ve diğ. tanımlar , delta-beta-hat-yüzde olarak . Buradaθ1küçük modelinden katsayısıdır veβ1daha büyük bir modelden katsayısıdır.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Adım 4: Adım 1'de seçilmeyen her bir değişkeni, adım 3'ün sonunda elde edilen modele birer birer ekleyin ve bunun önemini Wald istatistiki p değeri veya kategorik ise kısmi olabilirlik oranı testi ile kontrol edin. 2'den fazla seviyesi olan değişken. Bu adım, kendi başına, sonuçla önemli ölçüde ilişkili olmayan, ancak diğer değişkenlerin varlığında önemli bir katkıda bulunan değişkenleri tanımlamak için hayati öneme sahiptir. 4. Adımın sonundaki modele ön ana etki modeli olarak atıfta bulunuyoruz .
  5. Adım 5-7: Bu noktaya ilerlemedim, bu yüzden bu adımları şimdilik dışarıda bırakacağım veya farklı bir soru için kaydedeceğim.

Sorularım:

  1. 2. adımda, geleneksel anlamlılık düzeyi, p <değeri <0,05 gibi daha büyük bir şey olarak uygun olan nedir?
  2. 2. adımda, kısmi olabilirlik testi için kullandığım R kodunun doğru olduğundan emin olmak ve sonuçları doğru şekilde yorumladığımdan emin olmak istiyorum. İşte yaptığım şey… anova(smallmodel,largemodel,test='Chisq')Eğer p değeri önemli ise (<0.05) Değişkeni modele geri eklerim, eğer önemsizse silmeye devam eder miyim?
  3. 3. adımda, delta-beta-şapka yüzdesi ve modele hariç tutulan bir değişkenin eklenmesinin uygun olduğu bir sorum var . Örneğin, model bir değişken dahil değildir ve bu değişikliği >% 20 farklı bir değişken için. Ancak, içinde>% 20 değişiklik ile değişken ö β % o Adımlar 2 önümüzdeki birkaç döngülerinde modeli dışında tutulacaktır ve 3. Nasıl her iki değişken ise bir durumu tespit edebilir sanki önemsiz ve bakışlar gibi görünüyor modele dahil edilmeli veya modelden çıkarılmalı mı? İlk önce en az önemli değişkenleri silerek bir anda 1 değişkeni hariç tutarak ilerlediğim için, bir değişkeni sıra dışı bırakmaktan çekiniyorum.Δβ^%Δβ^%
  4. Son olarak, Eminim hesaplamak için kullanıyorum kod yapmak istiyorum doğrudur. Aşağıdaki kodu kullanıyorum. Bunu benim için yapacak bir paket veya bunu yapmanın daha basit bir yolu varsa, önerilere açığım. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


meraktan çalıştığınız türler nelerdir?
tahminci

Yanıtlar:


24

Önerilen yöntemlerin hiçbiri simülasyon çalışmaları ile işe yaramadı. Çabalarınızı eksiksiz bir model oluşturarak geçirin ve sonra ona uyun. Tek değişkenli tarama model formülasyonuna korkunç bir yaklaşımdır ve kullanmayı umduğunuz kademeli değişken seçiminin diğer bileşenlerinden de kaçınılmalıdır. Bu, bu sitede ayrıntılı olarak tartışılmıştır. İlk etapta değişkenlerin bazen “önemli” olmadıkları için modellerden çıkarılması gerektiği fikrini veren nedir? Kullanmayın içinde-değerlerine veya değişiklikler p modeli şartnamenin herhangi rehberlik etmek.Pβ


3
Evet, alan bilgisi + sadelikte sağlıklı bir güvensizlik dozu, örneğin, doğrusallığı gösteren önceden verileriniz yoksa sürekli değişkenlerin doğrusal olarak davrandığını varsaymayın.
Frank Harrell

6
OP, üçüncü baskısında alana büyük katkılarda bulunan yazarlarla ana akım bir metinden bahsediyor. Soruda ele alınan diğer noktalar, diğer etkili metinlerde (Agresti, Gelman) tartışılmaktadır. Bunu, bu stratejiye katıldığım için değil, daha ziyade saygın istatistikçiler tarafından ana akım metinlerde bu stratejilerin önerildiğini belirtmek istiyorum. Özetle: buna karşı çok sayıda literatür önermekle birlikte, istatistik topluluğu tarafından reddedilmiş gibi görünmemektedir.
julieth

2
Bu benim düşünceme göre oldukça yanlış yönlendirilmiş. Bazı metinlerde bu kadar zorlanan stratejiler hiçbir zaman doğrulanmadı. Simülasyona inanmayan yazarlar, reklamı yapılmayan yöntemlerin kullanılmasını savunmak için kendilerini riske atarlar.
Frank Harrell

2
Evet biliyorum. Metninize ve makalelerinize sık sık atıfta bulunuyorum ve bu, yukarıdaki stratejiye katılmama sonucuna varmak için kullandığım kaynaklardan biri. Ben sadece uygulanan kullanıcının ikilemini aktarıyorum. Her şeyi test edemeyiz. Sizin gibi uzmanlara güveniyoruz.
julieth

3
@GNG: FH, benzetimden, model seçimine yönelik bu yaklaşımın tipik uygulamalarda aslında yapması gerekeni (muhtemelen modelinizin tahminlerinin doğruluğunu artırmak için) yaptığını göstermenin bir yolu olarak bahsediyor. (Zekice) sorularınız, "geleneksel" düzeylerde belirsiz sayıda anlamlılık testine oldukça keyfi, ad hoc, doğaya dayalı değişken katılımını teorik olarak hiçbir şeyin optimizasyonunu garanti etmek için gösteremez.
Scortchi - Monica'yı eski durumuna döndürün

5

Klasik metin Hosmer ve arkadaşlarında P gibi istatistiği kullanarak değişken seçim için belirtilen yöntemlerden kaçınılmalıdır.

Geçenlerde uluslararası tahmin dergisinde " Öngörülebilirlik yanılsamaları " başlıklı bir makaleye ve Keith ord tarafından bu makaleye ilişkin bir makaleye rastladım . Regresyon istatistiği kullanmanın genellikle yanıltıcı olduğunu açıkça gösterdikleri için bu makalelerin her ikisini de şiddetle tavsiye ediyorum. Follwoing, Keith Ord'un değişken seçim için adım adım regresyonun (p istatistiği kullanır) neden kötü olduğunu gösteren makalesinin bir ekran görüntüsüdür.

enter image description here

Scott Armstrong tarafından derginin aynı sayısında yer alan bir başka harika makale , vaka çalışmaları ile deneysel olmayan veriler üzerinde regresyon analizini neden çok dikkatli olması gerektiğini gösteriyor. Bu makaleleri okuduğumdan beri, deneysel olmayan veriler üzerinde nedensel çıkarımlar çizmek için regresyon analizinden kaçınıyorum. Bir uygulayıcı olarak, uzun yıllar böyle kötü kararlar vermekten ve maliyetli hatalardan kaçınmamı sağlayacak makaleleri okumuş olsaydım.

Özel probleminizde, sizin durumunuzda randomize deneylerin mümkün olduğunu düşünmüyorum, bu yüzden değişkenleri seçmek için çapraz doğrulamayı kullanmanızı tavsiye ederim . Bu ücretsiz çevrimiçi kitapta , değişkenleri seçmek için öngörücü doğruluğu nasıl kullanacağınıza dair güzel bir çalışma örneği mevcuttur . Aynı zamanda birçok değişkenli seçim yöntemi, ancak çapraz doğrulamayla sınırlı kalıyorum.

Ben şahsen Armstrong'un sözünü beğendim. "Bir yerlerde istatistiklerin iletişime yardımcı olması gerektiği fikriyle karşılaştım. Karmaşık regresyon yöntemleri ve bir dizi tanı istatistikleri bizi diğer yöne götürdü"

Aşağıda kendi fikrim var. Ben istatistikçi değilim.

  • Bir biyolog olarak bu noktayı takdir edeceğinizi düşünüyorum. Doğa çok karmaşıktır, lojistik işlev varsayılır ve değişkenler arasında etkileşim doğada gerçekleşmez. Ayrıca, lojistik regresyonun aşağıdaki varsayımları vardır :

  • Gerçek koşullu olasılıklar bağımsız değişkenlerin lojistik fonksiyonudur.

  • Hiçbir önemli değişken atlanmaz. Hiçbir yabancı değişken dahil edilmemiştir.

  • Bağımsız değişkenler hatasız ölçülür.
  • Gözlemler bağımsızdır.
  • Bağımsız değişkenler birbirlerinin doğrusal kombinasyonları değildir.

Bu tür analizler için lojistik regresyona alternatif olarak sınıflandırma ve regresyon ağacını (CART (r)) tavsiye ederim çünkü varsayımlar ücretsizdir:

  1. Parametrik olmayan / Veriye Dayalı / Çıktı olasılıklarınızın lojistik işlevini izlediği varsayımı yoktur.
  2. Doğrusal olmayan
  3. karmaşık değişken etkileşime izin verir.
  4. Orman yöneticileri gibi istatistikçi olmayan bir kişinin takdir edeceği oldukça yorumlanabilir görsel ağaçlar sağlar.
  5. Eksik değerleri kolayca işler.
  6. SEPET kullanmak için bir istatistikçi olmak gerekmez !!
  7. çapraz doğrulamayı kullanarak değişkenleri otomatik olarak seçer.

CART, Salford Systems'ın ticari markasıdır. CART'ın tanıtımı ve geçmişi için bu videoyu izleyin . Aynı sitede cart - lojistik regrssion melezleri gibi başka videolar da var. Ben kontrol ediyorum. R'de açık kaynaklı bir gösterim Tree olarak adlandırılır ve R'de çıngırak gibi birçok paket vardır. Zaman bulursam, Homser'in metninde ilk örneği CART kullanarak yayınlayacağım. Lojistik regresyon kullanmakta ısrar ediyorsanız, en azından değişkenleri seçmek ve daha sonra lojistik regresyon uygulamak için CART gibi yöntemleri kullanırdım.

Kişisel olarak yukarıda belirtilen avantajlar nedeniyle CART'ı lojistik regresyona tercih ediyorum. Ama yine de, hem lojistik regresyonu hem de CART veya CART-Logistc Regresyon Hibritini deneyeceğim ve hangisinin daha iyi tahmin doğruluğu ve daha da önemlisi daha iyi yorumlanabilirlik verdiğini görüyorum ve verileri daha net " ileteceğini " düşündüğünüzü seçiyorum.

Ayrıca, FYI CART büyük istatistik dergileri tarafından reddedildi ve son olarak CART mucitleri bir monograf ile çıktı. CART, Random Forest (r), Gradient Boosting Machines (GBM), Çok Değişkenli Uyarlanabilir Regresyon Spline'lar gibi modern ve son derece başarılı makine öğrenme algoritmalarına yol açtı. Randomforest ve GBM, CART'tan daha doğrudur, ancak CART'tan daha az yorumlanabilir (kara kutu gibi).

Umarım bu yardımcı olur. Bu gönderiyi yararlı bulursanız bana bildirin?


8
Hayır. Lojistik model, diğer modellerden daha fazla varsayımda bulunmaz. Başlıca benzersiz varsayımı,Ygerçekten ya hep ya hiç. CART, lojistik regresyon ile çok daha iyi performans gösterir. CART , olası tüm etkileşimlere izin verdiği için lojistik regresyondan çok daha fazla parametreye etkili bir şekilde uyar . İroni, maksimum esnekliğe izin veren bir yöntemin daha yapılandırılmış bir yöntemden daha muhafazakar olmasıdır. CART modellerinin iyi kalibre edilebilmesi için, kestirimci küçük ayrımcılık yapmak için modeli budamak zorunda olduğunuzu göreceksiniz.
Frank Harrell

3
Bu cevap, birçoğu benim için tartışmasız görünen genel yorumlardan, seçim yöntemi olarak oldukça spesifik ve oldukça kişisel bir CART onayına atlamaktadır. Başkalarının itirazlarına hak kazanacağından görüşlerinize hak kazanırsınız. Benim önerim, cevabınızın iki yönlü lezzetini daha açık bir şekilde işaretlemenizdir.
Nick Cox

2
Lojistik regresyon, genelleştirilmiş doğrusal bir modeldir, ancak aksi takdirde, normal olarak uygun olan doğal olarak doğrusal olmayan bir model (eğrilere veya eşdeğer değil, çizgilere veya eşdeğere uyması anlamında) gerçekten iyi motive edilmiş olarak savunulabilir. ikili yanıtlar. Buradaki biyolojiye itiraz iki yönlüdür; Tarihsel olarak ikili yanıtlar için lojistik modeller biyolojide lojistik büyüme modelleri (örneğin popülasyonlar) tarafından esinlenmiştir!
Nick Cox

Soyer ve ark. gazete, Armstrong gazetesi ve yorumların hepsi çok iyi. Bu hafta sonu onlarý okuyordum. Onları önerdiğiniz için teşekkürler. İstatistikçi olmamak, lojistik regresyon üzerinde CART kullanımı hakkında yorum yapamam. Ancak, cevabınız çok iyi yazılmış, yararlı ve anlayışlı yorumlar aldı. CART, MaxEnt gibi makine öğrenimi yöntemlerini okudum ve regresyon ağaçlarını güçlendirdim ve içgörüleri almak için bunları komitemle tartışmayı planlıyorum. Boş zamanlarım olduğunda, CART videosu da ilginç olmalı.
GNG

3
Bir gülümseme ile lineer modeller hakkındaki yorumlarınızı tersine çevirebiliriz ve varsayımdan arınmış olmaktan, hatta varsayım ışığı olmaktan çok ısrar edebiliriz, CART gerçekliğin bir ağaç gibi olduğunu varsayar (başka ne?). Doğanın sorunsuz değişen bir süreklilik olduğunu düşünüyorsanız, ters yönde koşmalısınız.
Nick Cox

3

Ekoloji ve Evrim Yöntemleri, Ekografi vb. Dergilerde iyi belgelenmiş bir varlık / arka plan yaklaşımıyla türlerin varlığını tahmin etmeye çalıştığınızı düşünüyorum. Belki de R paketi dismo probleminiz için yararlıdır. Güzel bir skeç içerir. Dismo ya da benzeri bir paketin kullanılması, soruna yaklaşımınızı değiştirmeyi gerektirir, ancak bir göz atmaya değer olduğuna inanıyorum.


2
Sizi sadece bir model belirtmekten alıkoyan nedir? Neden modelde büyük belirsizlik olmalı? Neden GLM kullanarak model seçimine ihtiyaç var?
Frank Harrell

1
Korkarım bazı kavramları karıştırıyorsunuz. (1) aslında maxent bir varlık / arka plan verisi veya varlık / sözde yokluk verisidir. Böylece, maxent yalnızca varlık verilerini kullanır ve manzaradan, yani arka plan / sözde eksikliklerden bazı noktalar ekler. Böylece, sizin durumunuzda kullanılabilir. (2) GLM 'gerçek' yokluklarla kullanılmak üzere tasarlanmıştır. Bununla birlikte, GLM, mevcudiyet / sözde yokluk verileri için uyarlanmıştır. (3) dismo paketi sadece regresyon ağaçlarını değil, aynı zamanda artırılmış regresyon ağaçlarını sunar. GLM'yi de takabilirsiniz, sadece paketin vinyetlerinden birini takip edin (2 tane var).
Hugo

1
Sorunuz öngörücü olarak hangi değişkenleri dahil etmeniz gerektiğiyle ilgili ise, şu belgelere göz atın: Sheppard 2013. İklim değişkenlerinin seçimi tür dağılımlarının tahminlerini nasıl etkiler? Yeni Zelanda'da üç yeni yabani ot örneği. Yabancı Ot Araştırmaları; Harris ve diğ. 2013. Olmak ya da Olmamak? Değişken seçim, gelecek iklim altında tehdit altındaki bir türün öngörülen kaderini değiştirebilir. EcoL. Yön. ReSTOR.
Hugo

2
Değişken seçim tekniklerinin aşırı takmayı bir şekilde azalttığı düşüncesi gariptir. Değişkenlerin modelin azaltılmasından elde edilen görünür tasarrufları, verilerin kendisinden azalma olduğunda tamamen bir yanılsamadır.
Frank Harrell

1
@GNG: "modelinde değişkenlerin tümünü terk My belirsizlik ben Eşdoğrusallık ve aşırı uydurma konusunda öğretilmiş her şeyi geliyor" - Does modeliniz çok aynı doğrultudaki yordayıcılarını içeriyor? Is modeliniz aşırı uydurma?
Scortchi - Monica'yı eski durumuna getirin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.