İstatistiksel olarak anlamlı olmayan değişkenler bir model oluştururken 'tutulmalı' mı?


39

Bir model için hesaplamamda çeşitli değişkenler var ve hepsi istatistiksel olarak anlamlı değil. Bunları çıkarmamalı mıyım?

Bu soru olayı tartışıyor, ancak sorumu cevaplamıyor: Bir değişkenin ANCOVA'daki anlamlı olmayan etkisini nasıl yorumlayabilirim?

Bu sorunun cevabında önemli olmayan eş değişkenlerin çıkarılmasını öneren hiçbir şey yok, ancak şu anda içeri girmeleri gerektiğine inanmaya meyilliyim. Bu cevabı okumadan önce aynı şeyi bir eşdeğerden beri düşünüyordum. varyansın bir kısmını açıklayabilir (ve böylece modele yardımcı olabilir), bazı eşik değerlerin ötesinde bir miktar açıklamak zorunda kalmadan (eşdeğerler için geçerli olmadığını düşündüğüm önem eşiği).

Özgeçmişin bir başka sorusu var ki, cevabın değişkenlerin önemine bakılmaksızın tutulması gerektiği anlamına geldiği söyleniyor. (Bu soruya bağlantı vermek istiyorum, ancak şimdi tekrar izleyemedim.)

Öyleyse ... İstatistiksel olarak anlamlı olmayan değişkenler modelin hesaplanmasında tutulmalı mı? (Bu soruyu, değişkenlerin hiçbir zaman hesaplamada asla model çıktısında olmadıklarını açıklığa kavuşturmak için düzenledim)

Komplikasyon eklemek için, eğer değişkenler verilerin bazı alt kümeleri için (ayrı ayrı işlenmesi gereken alt kümeler) istatistiksel olarak anlamlıysa ne olur . Bu tür bir değişkeni tutmaya varsayılan olarak karar verirdim, aksi takdirde farklı modellerin kullanılması gerekecek ya da vakalardan birinde eksik olan istatistiksel olarak anlamlı bir değişken olacaktı. Yine de, bu bölünmüş davaya bir cevabınız varsa, lütfen belirtiniz.


6
Genel olarak konuşursak, verileriniz etkilerini desteklemese de, teorik olarak önemli veya önceki çalışmalarda önemli olan değişkenleri korumanız gerektiğini söyleyebilirim. Daha spesifik bir cevap almak için, modelinizi ve amacını açıklamak için birkaç satır eklemeniz gerektiğini düşünüyorum (örneğin, risk faktörlerini belirlemek, tahmin etmek,…).
ocram

Bağımlı olduğunu söyleyebilirim. Testler sadece göstergedir. Küçük bir bağımlılığın olması gerektiğine inanıyorsanız, modelde kalmayı düşünün. Bağımlılığın orada olmaması gerektiğine inanıyorsanız, dışarıda bırakın.
Bene

Tamam, yani her ikiniz de önemsizliğin, bir değişkenin dikkate alınmadan kaldırılmasını zorunlu kılmadığını söylüyorsunuz , bu yüzden her ikisi de sorumu cevapladınız. Aslına sorduğum soruyu daha açık bir şekilde yeniden ifade etmeliyim ki, sorduğum şeyin bir değişkenin istatistiksel olarak anlamlı olmasının onu tutmak için gerekli bir koşul olup olmadığını (“Bir değişkenin önemsizliği ortadan kaldırılması gerektiği…”) ve Yorumlarınızın ikisini de cevap olarak kabul ediyorum.
AM

Bunu yapmadan önce, doğru terminolojiyi kullandığımdan emin olmak istiyorum. Başlangıçta "modelde tutuldum" yazdım, ancak bu doğru görünmüyordu çünkü değişkenler modelde hiç görünmüyordu. “ Modelin hesabında tutuldum ” (ve “ dikkate alınmadan kaldırıldı ”) için yerleştim, ancak bunu söylemenin daha iyi bir yolu var mı? Değişkenlerin tutulduğu veya çıkarıldığı şey için doğru terim nedir?
AM

3
Bu seçim prosedürlerinin doğru performansını doğrulamanız gerekir. Diğerleri başarısız oldu.
Frank Harrell,

Yanıtlar:


32

Zaten birkaç iyi cevap aldınız. Eş değişkenleri tutmak için nedenler ve eş değişkenleri düşürmek için sebepler var. İstatistiksel anlamlılık, çoğu durumda, önemli bir faktör olmamalıdır.

  1. Değişkenler, orada olmaları gerektiği kadar büyük öneme sahip olabilir.
  2. Bir değişkenin etki büyüklüğü, anlamlı olmasa bile yüksek olabilir.
  3. Değişken, modelin diğer yönlerini etkileyebilir.
  4. Değişken, hipotezinizin nasıl ifade edildiğinin bir parçası olabilir.

Çok keşif kipindeyseniz ve değişkenler literatürde önemli değilse ve etki büyüklüğü küçükse ve değişken değişken modeliniz üzerinde çok az etkiye sahipse ve değişken değişken hipotezinizde olmasaydı, muhtemelen sadece basitlik için silebilirsiniz. .


6
Çok önemli ama çoğu zaman ihmal edilen bir durum burada 4 numara ile kaplıdır, ancak onu heceleyeceğim. Genelde - gerçekten de genellikle - sonuçlarınızı önceki çalışanların sonuçlarıyla benzer verilerle karşılaştırmanız gerekir. Diğerleri, modellerine dahil edilmeye değer özel değişkenler bulmuşlarsa, değişkenlerinizin (geleneksel) anlamlılık seviyelerine ulaşıp ulaşmadığına bakılmaksızın, sonuçlarını kendi sonuçlarıyla karşılaştırmak istemelisiniz. Buradaki durumların, karar verdiğiniz modellerden (özellikle) iyi olmadığına, karar verdiğiniz modellere kadar iyi olabileceğini unutmayın.
Nick Cox,

1
Kesinlikle “devam et” e eğildim (ve ilk etapta değişkenler için çok fazla p değeri yapmıyordum), ancak cevabınız bir azınlığın çıkarması için çok güzel bir kontrol listesi (yani ... iki) yapar. Etki büyüklüğü, göz önünde bulundurmadığım bir şeydi ve hipotezler düşünürken, @NickCox'un bahsettiği nedenlerden ve basitçe balık avından vazgeçme nedenlerinden çok hoşunuza gitti.
AM

25

P


10
Uzun cevap "evet"! +1 ve bir LOL.
Peter Flom - Eski Monica

P değerleri değilse, yordayıcıları kaldırmak için başka nedenler nelerdir? Güven aralıklarını yorumlamaktan bahsediyorsunuz, ancak "ilginç bir aralık" sıfıra benziyor, bu da insanların CI'leri p-değerleri gibi yorumlayacağı anlamına geliyor (sıfırı dahil etme veya hariç tutma).
Mark White,

1
Bu istatistiksel özellikleri bozduğunda öngörücüleri kaldırmak için sebepler nelerdir? Sorunuz ve "sıfır" ile ilgili net değil.
Frank Harrell

7

Yararlı bir kavrayış, istatistiksel olarak konuşulan değişkenler hakkında özel bir şey olmadığı, örneğin değişkenlerin regresyon formülüne yazılmasına yardımcı olun . Bu arada, neden covariateetiket olmadığını açıklayabilir . Sonuç olarak, burada ve başka yerlerde, lineer bir modelde anlamlı olmayan terimlerle ilgili materyaller, ANCOVA açıkça belirtilmese bile, kademeli regresyonun iyi bilinen eleştirmenleri ile ilgilidir.

Genel olarak konuşursak, yalnızca önemine göre tahmin edicileri seçmek kötü bir fikirdir. Herhangi bir sebepten dolayı modeli önceden belirleyemiyorsanız, diğer yaklaşımları göz önünde bulundurmalısınız, ancak bunları ilk etapta dahil etmeyi planladıysanız, buna göre toplanmış veriler varsa ve belirli sorunlarla karşı karşıya kalmıyorsanız (örneğin, eşliklilik), sadece saklayın.

Onları saklama nedenleriyle ilgili olarak, ortaya çıkan itirazlar bana sağlam geliyor. Diğer bir sebep de, anlamlı olmayan tahmin edicilerin kaldırılmasının, modele dayalı çıkarımlarda önyargı olması olabilir. Tüm bunlara bakmanın bir başka yolu da, bu değişkenleri gerçeğin ardından kaldırarak ne kazanacağını sormak.


4

Bu soruyu cevaplamak için hedefleriniz hakkında gerçekten daha fazla bilgiye ihtiyacımız var. Regresyonlar iki ana amaç için kullanılmaktadır:

  1. tahmin
  2. sonuç

Öngörü, hedefiniz, örneklemde bulunmayan gözlemler için sonuç değişkeninin değerlerini tahmin edebilmek olduğunda olabilir (genellikle örnek veri aralığında olmalarına rağmen - aksi halde bazen "öngörme" kelimesini kullanırız). Tahmin, reklamcılık, finans vb. İçin faydalıdır. Bazı sonuç değişkenlerini önceden tahmin etmekle ilgileniyorsanız, size sunacak çok az şeyim var.

Çıkarım, eğlencenin olduğu yerdir (paranın olduğu yerde olmasa bile). Çıkarım, belirli model parametreleri hakkında sonuç çıkarmaya çalıştığınız yerdir - genellikle bir değişkenin diğeri üzerindeki nedensel etkisini belirlemek için. Yaygın algıya rağmen, regresyon analizi nedensel çıkarım için hiçbir zaman yeterli değildir. Regresyonunuzun nedensel etkiyi yakalayıp yakalamadığını bilmek için veri oluşturma süreci hakkında her zaman daha fazla bilgi sahibi olmalısınız. Regresyonlardan nedensel çıkarım için anahtar mesele, hatanın koşullu ortalamasının (regresörlerde koşullu) sıfır olup olmadığıdır. Bu regresörlerdeki p-değerlerinden bilinemez. Objektif tahmin edicilerin tarafsız veya tutarlı olması mümkündür, ancak bu sadece bazı belirgin kontrolleri regresyona sokmaktan ve önemli olanları almayı ummaktan çok daha fazla çaba gerektirir.Mastering 'Metrics: Sebepten Etkiye Giden Yol ve En Zararsız Ekonometri ). Metrik Mastering daha kolay okunur ve oldukça ucuzdur, ancak gerilemenin nasıl yapılacağına değil, ne anlama geldiğinin bir tedavisi olmadığı konusunda uyarılmalıdır. İyi ve kötü gözlemsel araştırma tasarım örneklerinin iyi bir kapsamı için, David Freedman'ın (1991) "İstatistiksel Modeller ve Ayakkabı Deri", Sosyolojik Metodoloji , cilt 21'i (büyüleyici örneklerle kısa ve kolay okunur ) öneririm .

Bir kenara: Birçok üniversite dersinde iyi araştırma tasarımı üzerine istatistiksel teknik takıntısı benim pedagojik bir bakış açımdır.

İkincisi, bu konunun şu andaki önemini motive etmek için bir kenara: tahmin ve çıkarım arasındaki fark, büyük verinin neden bilim yerine geçmediğidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.