İstatistiksel altyapısı olmayan kişilere genelleştirilmiş doğrusal modelleri nasıl açıklarsınız?


16

İstatistiksel arka planı olmayan kitleye istatistiksel teknikleri açıklamakta her zaman zorlanırım. Böyle bir kitleye GLM'nin ne olduğunu açıklamak isteseydim (istatistiksel jargon çıkarmadan), en iyi ya da en etkili yol ne olurdu?

Genelde GLM'yi üç bölümle açıklarım - (1) tepki değişkeni olan rastgele bileşen, (2) doğrusal öngörücüler olan sistematik bileşen ve (3) bağlamanın (1) "anahtarı" olan bağlantı işlevi ve (2). Sonra doğrusal veya lojistik regresyon örneği verebilir ve yanıt değişkenine göre bağlantı işlevinin nasıl seçildiğini açıklarım. Dolayısıyla iki bileşeni birbirine bağlayan anahtar görevi görür.


İzleyicilerin nasıl bir geçmişi var? GLM'yi bir matematikçiye veya biyologa açıklamak çok farklı.

1
İstatistik arka planı olmayan birkaç matematikçi olacak, @Prostrastinator. Ancak önemli olan iyi bir nokta: hedef kitle hakkında daha net bir fikre sahip olmak, yanıtların tutarlı ve odaklanmış olmasına yardımcı olacaktır. Bu konuyu genişletmek için soruyu düzenler misiniz, Ken?
whuber

1
Ne demek istediğini görüyorum, @Prostrastinator ama genel olarak herkes için (matematikçiler ve / veya biyologlar) anlaşılması kolay bir cevap almayı umuyordum, çünkü matematik veya biyoloji arka planım yoksa (bu durumda), Zaten GLM'yi onlara geçmişleri açısından nasıl açıklayacağımı bilemezdim.
Ken

4
Bence, bir çok üniversitede bile bir istatistik dersi almadan biyoloji alanında lisans, yüksek lisans ve hatta doktora alabileceğinizi akılda tutmak önemlidir. Biyokimya derecem iki yarıyıl giriş hesabı ve bir yarıyıl diferansiyel denklem gerektiriyordu. Bu sınıfların özü hızla unutulur, çünkü birçok öğrenci bu becerileri bir daha asla kullanmayacaktır! Bu yüzden, tipik istatistikçi olmayanların açıklamasını küçümsemek gerektiğini düşünüyorum.
Alexander

Aşağıdaki cevaplara eklenecek bir yorum; bir çizgiyi (yani bağlantı fonksiyonu ve doğrusal öngörücüler) uydurmayı başarabiliyorsanız, etkili ters-varyans ağırlıklandırmasıyla bağlantı kurmak çok zor değildir; sadece kesin katkıları hafifletmek ve geri kalanını hafifletmek istiyoruz. Bu, sonuçların rasgeleliği hakkında çok teknik bir şey söylemekten kaçınmanızı sağlar. NB GLM'ler, (sadece) IWLS'nin MLE'yi vermek için kullanılabileceği modeller olarak tasarlandı, bu yüzden yukarıda tarif edilen düşünce şekli, aslında neden yararlı olduklarının çoğunu yakalar.
konuk

Yanıtlar:


25

Seyircinin gerçekten istatistiksel bir arka planı yoksa, açıklamayı biraz daha basitleştirmeye çalışacağımı düşünüyorum. İlk olarak, tahtada bir çizgi ile bir koordinat düzlemi çizerdim, şöyle:

y = mx + b

 y=mx+b

 mx+b=y

Bu denklemin basit bir doğrusal regresyon örneği olduğunu söyleyebilirim. Daha sonra, siz (veya bir bilgisayar) bu görüntüde gösterilen gibi, veri noktalarının dağılım grafiğine nasıl böyle bir denklem sığdıracağını açıklarım:

Dağılım grafiği

Burada çalıştığımız organizmanın yaşını, ne kadar büyük olduğunu tahmin etmek için kullandığımızı ve elde ettiğimiz (resimde gösterilen) ortaya çıkan doğrusal regresyon denkleminin bir organizmanın ne kadar büyük olduğunu tahmin etmek için kullanılabileceğini söyleyebilirim. yaşını biliyorsak.

 mx+b=y

Sonra tekrar bunun basit bir doğrusal regresyon denkleminin bir örneği olduğunu ve aslında daha karmaşık çeşitlerin olduğunu açıklayacağım. Örneğin, lojistik regresyon denilen bir çeşitlilikte , y'lerin sadece 1 veya 0 olmasına izin verilir. Birisinin hastalığı olup olmadığı gibi bir "evet" veya "hayır" cevabı tahmin etmeye çalışıyorsanız, bu tür bir modeli kullanmak isteyebilirsiniz. Başka bir özel çeşitlilik ise , "sayım" veya "olay" verilerini analiz etmek için kullanılan Poisson regresyonu denilen bir şeydir (gerçekten gerekli olmadıkça bunu daha fazla araştırmayacağım).

Daha sonra, doğrusal regresyon, lojistik regresyon ve Poisson regresyonunun gerçekten "genelleştirilmiş doğrusal model" adı verilen daha genel bir yöntemin özel örnekleri olduğunu açıklarım. "Genelleştirilmiş doğrusal modeller" ile ilgili en iyi şey, herhangi bir değer alabilen (bir organizmanın lineer regresyonda ne kadar büyük olduğu gibi), sadece 1 veya 0 (örneğin, lojistik regresyonda hastalık) veya ayrı sayımlar (Poisson regresyonundaki olay sayısı gibi) alın.

Daha sonra bu tür denklemlerde x'lerin (yordayıcılar) istatistikçilere "bağlantı fonksiyonu" dediği bir şey aracılığıyla y'nin (yanıtlar) bağlı olduğunu söyleyebilirim. Bu "link fonksiyonlarını" x'lerin y'lerle doğrusal olmayan bir şekilde ilişkili olmadığı durumlarda kullanıyoruz.

Her neyse, bunlar benim iki sentim! Belki benim önerdiğim açıklama biraz hokey ve aptalca geliyor, ama eğer bu alıştırmanın amacı izleyiciye “özü” yakalamaksa, belki de böyle bir açıklama çok kötü değil. Kavramın sezgisel bir şekilde açıklanması ve "rastgele bileşen", "sistematik bileşen", "bağlantı işlevi", "deterministik", "logit işlevi" gibi kelimeleri atmaktan kaçınmanızın önemli olduğunu düşünüyorum. Tipik bir biyolog ya da doktor gibi, hiçbir istatistiki geçmişi olmayan insanlarla konuşurken, bu kelimeleri duyurken gözleri sırlanacak. Olasılık dağılımının ne olduğunu bilmiyorlar, bir link fonksiyonunu hiç duymamışlar ve "logit" in ne olduğunu bilmiyorlar

İstatistiksel olmayan bir kitleye yaptığınız açıklamada, hangi modelin ne zaman kullanılacağına da odaklanacağım. Denklemin sol tarafına kaç tahmin edicinin dahil edilmesine izin verileceğinden bahsedebilirim (örnek boyutunuzdan bölündüğünüz gibi başparmak kurallarını duydum). Ayrıca, verileri içeren bir örnek tablo eklemek ve kitleye bir model oluşturmak için istatistiksel bir yazılım paketinin nasıl kullanılacağını açıklamak da iyi olur. Daha sonra bu modelin çıktısını adım adım izler ve tüm farklı harf ve rakamların ne anlama geldiğini açıklamaya çalışırdım. Biyologlar bu konuda clueless ve SPSS GUI'nin arkasındaki matematiği anlamaktan ziyade hangi testin kullanılacağını öğrenmekle daha çok ilgileniyorlar!

Özellikle herhangi biri hataları açıklamak veya açıklamak için daha iyi bir yol düşünüyorsa, önerilen açıklamamla ilgili herhangi bir yorum veya öneriyi takdir ediyorum!


4
Herkes bir çizginin denklemine aşina değildir; lisansüstü öğrencileri bile değil, doktora sahibi olan herkes bile.
Peter Flom - Monica'yı eski durumuna döndürün

6
Demek istediğim, eminim dünyada bir çizgi için denklemi bilmeyen bir lisansüstü öğrencisi var, ama muhtemelen genelleştirilmiş doğrusal modelleri açıklamak istediğiniz bir izleyici en azından yüksek hakkında yarım ipucuna sahip olacak okul düzeyinde cebir! : -o
İskender

Sana katılıyorum Alexander ve yaklaşımın benim için çok doğal görünüyor. Ben glm "g" çok (veya çok erken) odaklanmak olmaz ve ayrıca rastgele vs sabit ayrımlara gitmek olmaz. Tabii ki tüm bunları açıklamanız gereken süreye bağlıdır.
Dominic Comtois

Y=αX+βα

10

Yanıtı rastgele bir bileşen olarak adlandırmazdım. Deterministik ve rastgele bir bileşenin birleşimidir.

log(p/(1p))[0,1]


3
Bu "yanıt" ın kullanımını merak ediyorum. Hedef kitlemiz muhtemelen gözlemlenen yanıt anlamına gelecektir : evet veya hayır, 0 veya 1, vb. Lojistik regresyonda gözlemlenmeyen (ve asla doğrudan gözlemlenemeyen) bir şeyi modelliyoruz ; yani, yanıtın varsayımsal şansı. "Bağlantı" sadece bu şansları olasılıktan ziyade log olasılıkları olarak ifade etme meselesidir. Lojistik regresyon, log oranlarının IV'lerle doğrusal olarak değiştiğini varsayar. ("Model" ve "tahmin" yerine "model", "varsayım" ve "varsayımsal" kullanımım da farklı bir bilişsel ve ontolojik bakış açısını gösterir.)
whuber

1
İyi nokta whuber.
Michael R.Chickick

-2

Bunu bazen öngörülen şeylere ihtiyacım olduğunu söyleyerek açıklarım. Örneğin, bir evin fiyatı hakkında bazı bilgiler verildi. Diyelim ki, büyüklüğü, konumu, inşaatın kaç yaşında olduğu, vb. Fiyat tahmininde bu faktörlerin etkisini dikkate alan bir modele bunu hesaba katmak istiyorum.

Şimdi bir alt örnek alalım, diyelim ki sadece evin büyüklüğünü göz önünde bulunduruyorum. Bu, başka hiçbir şeyin fiyatı etkilemediği anlamına gelir. Aynı bölgede bulunan, aynı zamanda inşa edilmiş evler vb. Karşılaştırdığımda bir durum olabilir. Ya da kendim için işleri karmaşıklaştırmak istememem ve dolayısıyla gerçek hayatın düşünebilirim. Devam edersek, benzer özelliklerin boyutlarının ve karşılık gelen fiyatlarının bir listesine sahip olduğum bir model yapıyorum (örneğin, son zamanlarda gerçekleşen satışlardan ... ancak satılık olmayan ve dolayısıyla fiyatı etkileyen evlerden ciddi bir önyargıya sahip olacaktım) ama görmezden gelelim).

Şimdi 100 metrekarelik bir evin 1 milyon dolara mal olduğunu görüyorum (kendiniz üstesinden gelin, bu basitleştirilmiş bir örnek). Yani, doğal olarak 200 metrekarelik bir evin iki katına çıkmasını beklersiniz. Ve buna "doğrusal model" diyoruz. Tabii ki verileri topladığımızda ve arsa büyüklüğü ile fiyat karşılaştırdığımızda, bunun tam olarak iki kat olmadığını görüyoruz. Ancak kesinlikle artan bir eğilim var.

Bu yüzden eğilimi ölçmeye çalışıyorum. Her bir fit kare için ne kadar artış olur? Bu doğrusal regresyon.

INSERT terminoloji haritasını çıkarır ve istatistiksel kavramlarla devam eder. Rastgele ve sistematik bileşeni açıklamanın bir yolu, modellemeyi unuttuğunuz veya ölçemediğiniz her şeyin rastgele olması olabilir. Yapabileceğiniz her şey sistematiktir. (Örneğin, 2008 olduğunu ve bir ev satmak istediğinizi varsayalım.)

Bu modelin altında yatan varsayımlar, dağılım grafiğinin bir çubuk gibi görünmesi gerektiğidir. Yani hem X hem de Y "Normal" dir. ve hepsinin benzer varyansı vardır.

Durum böyle değilse, GLM girin. ve şimdi bağlantı işlevini n hepsini açıklayın.

Basitleştirilmiş, ancak bir giriş olarak çalışması gerekir.

GLM'lerin ve faktöriyel modellerin tarihini koyabilirsiniz. Fisher, şeylerin birlikte değişmeye başlamasını gerektirdiğinde ve bu çerçeve bu tür karmaşıklık için uygundu.

Bu yardımcı olur umarım...


1
Çabalarınızı takdir ediyoruz, ancak materyallerinizi gerçekten yazmayı bitirene kadar göndermenize gerek yok. Mevcut haliyle, sonunda seyrek şifreli notalara bozunma şekli okuyucuları hayal kırıklığına uğratacaktır.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.