Değişkenler, bir model oluşturmadan önce sık sık ayarlanır (örneğin standartlaştırılmıştır) - bu ne zaman iyi bir fikirdir ve ne zaman kötüdür?


56

Hangi durumlarda, model uydurmadan önce bir değişkeni ölçeklendirmek veya standardize etmek istersiniz? Ve bir değişkeni ölçeklendirmenin avantajları / dezavantajları nelerdir?


Burada çok benzer bir soru: stats.stackexchange.com/q/7112/3748 aradığınız daha var mı?
Michael Bishop,

Evet - sadece doğrusal modelden ziyade genel olarak modelleri bilmek istiyorum
Andrew

1
Pek çok olası model ve modellerin olası kullanımları vardır. Sorularınızı daha belirgin hale getirebilir ve daha iyi olan diğer sorularla örtüşmeyi azaltabilirsiniz.
Michael Bishop,

Yukarıdaki bağlantıya ek olarak, bu soru: ne zaman-ne-ne-merkeze-veri-veri-ne-ne-standartlaştırmak ilginizi çekecektir.
gung - Monica’yı eski durumuna getirme

Yanıtlar:


37

Standardizasyon tamamen model için farklı değişkenlerin ağırlıklarıyla ilgilidir. Sayısal kararlılık uğruna "sadece" standardizasyonu yaparsanız, yorumlama için çok daha uygun olabilecek çok benzer sayısal özellikler fakat farklı fiziksel anlamlar üreten dönüşümler olabilir. Aynısı, genellikle standardizasyonun bir parçası olan merkezleme için de geçerlidir.

Muhtemelen standartlaştırmak istediğiniz durumlar:

  • değişkenler farklı fiziksel niceliklerdir
  • ve sayısal değerler çok farklı büyüklük ölçeklerinde
  • ve yüksek (sayısal) çeşitlilikteki değişkenlerin daha önemli olarak düşünülmesi gerektiği konusunda "dışsal" bir bilgi yoktur.

Standartlaştırmak istemeyeceğiniz durumlar:

  • eğer değişkenler aynı fiziksel miktar ise ve (kabaca) aynı büyüklükte ise, örn.
    • farklı kimyasal türlerin bağıl konsantrasyonları
    • farklı dalga boylarında absorbanslar
    • farklı dalga boylarında emisyon yoğunluğu (aksi takdirde aynı ölçüm koşulları)
  • Kesin olarak örnekler arasında değişmeyen değişkenleri standartlaştırmak istemezsiniz (bazal kanallar) - sadece ölçüm gürültüsünü patlatırsınız (bunun yerine onları modelden çıkarmak isteyebilirsiniz).
  • Fiziksel olarak böyle bir değişkeniniz varsa, ölçüm gürültünüz kabaca tüm değişkenler için aynı olabilir, ancak sinyal yoğunluğu çok daha fazla değişebilir. Yani düşük değerli değişkenler daha yüksek göreceli parazite sahiptir. Standardizasyon gürültüyü havaya uçuracaktı. Başka bir deyişle, göreceli veya mutlak gürültünün standartlaştırılmasını isteyip istemediğinize karar vermeniz gerekebilir.
  • Ölçülen değerinizi, örneğin iletilen yoğunluğun yerine, iletilen yoğunluğun kullanım yüzdesinin (geçirgenlik T) yüzdesiyle ilişkilendirmek için kullanabileceğiniz fiziksel olarak anlamlı değerler olabilir.

"Arada" bir şey yapabilir ve değişkenleri dönüştürebilir veya birimi seçebilir, böylece yeni değişkenlerin hala fiziksel bir anlamı olabilir, ancak sayısal değerdeki varyasyon o kadar farklı değildir.

  • Eğer farelerle çalışıyorsanız, vücut ağırlığı g ve uzunluğu cm (her ikisi için de beklenen değişim aralığı) cm cinsinden kullanın (baz birimleri kg ve m yerine (beklenen değişim aralığı 0.005 kg ve 0.05 m - bir farklı büyüklük sırası)).
  • A=log10T

Merkezleme için benzer:

  • Mevcut (fiziksel / kimyasal / biyolojik / ...) anlamlı temel değerler olabilir (örn. Kontroller, güneşlikler vb.)
  • Ortalama aslında anlamlı mı? (Ortalama insanda bir yumurtalık ve bir testis vardır)

+1 ve ne zaman ve ne zaman standartlaşmayacağımızın yardımcı listesi nedeniyle kabul edildi, teşekkürler
Andrew

6
"Ortalama insanda bir yumurtalık ve bir testis var" için +1 (ve ayrıca cevabın geri kalan kısmında ;-).
gung - Monica'yı yeniden yerleştirme

1
@cbeleites, cevabınızda kullandığınız bağlamda temel kanalları açıklayan bir kaynağa bağlantı sağlama şansınız var mı? Daha önce terimi duymamıştım ve burada terimi kullanımınızı anlamada yardımcı olmayan arama sonuçları alıyorum. Teşekkürler!
mahonya

1
1

9

Standartlaştırmadan önce kendime daima sorduğum bir şey, "Çıktıyı nasıl yorumlayacağım?" Verileri dönüşüm olmadan analiz etmenin bir yolu varsa, bu tamamen bir yorumlama açısından tercih edilebilir.


7

Genel olarak, kesinlikle gerekli olmadıkça ölçeklendirme veya standardizasyon önermiyorum. Böyle bir işlemin avantajı veya çekiciliği, açıklayıcı bir değişkenin, yanıt değişkeninden tamamen farklı bir fiziksel boyuta ve büyüklüğe sahip olması durumunda, standart sapma ile bölünmeye göre ölçeklendirmenin sayısal stabilite açısından yardımcı olabileceği ve bunun birden fazladaki etkilerini karşılaştırmasını sağlayabileceğidir. açıklayıcı değişkenler. En yaygın standardizasyonda, değişken etkisi, açıklayıcı değişken bir standart sapma ile arttığında cevap değişkenindeki değişiklik miktarıdır; ayrıca, açıklayıcı değişken için istatistiksel değer değişmeden kalmasına rağmen değişken etkisinin (açıklayıcı değişken bir birim arttığında yanıt değişkenindeki değişiklik miktarı) anlamının kaybedileceğini de gösterir. Ancak, Etkileşim bir modelde göz önüne alındığında, ölçeklendirme, etkileşim etkisinin standart hatasını hesaplarken stokastik bir ölçekleme ayarlaması içeren bir komplikasyon nedeniyle, istatistiksel testler için bile çok problemli olabilir (Preacher, 2003). Bu nedenle, standart sapma (veya standardizasyon / normalizasyon) ile ölçeklendirme, özellikle etkileşimler söz konusu olduğunda genellikle önerilmez.

Vaiz, KJ, Curran, PJ ve Bauer, DJ, 2006. Çoklu doğrusal regresyon, çok düzeyli modelleme ve gizli eğri analizinde etkileşim etkilerini araştırmak için hesaplamalı araçlar. Eğitim ve Davranış İstatistikleri Dergisi, 31 (4), 437-448.


4
Tahmin edicilerin standartlaştırılmasının “özellikle etkileşimler söz konusu olduğunda genellikle önerilmemektedir” olduğunu iddia ediyorum. Ne Gelman, ne de Hill, ne de Raudenbush & Bryk metinlerinde bu kaygıdan bahsetmiyor. Ancak bir şansım olduğunda, bahsettiğiniz referanslara ilgi ile bakacağım.
Michael Bishop

Kalibrasyon evreni std'yi ölçekleme değişkeni olarak kullanırsak, ölçeklendirme stokastik değildir.
adam

Etkileşim terimleri halinde ölçeklendirmenin zararlı olup olmadığını birileri doğrulayabilir mi? Yukarıdaki tartışmada çözülmüş gibi görünmüyor.
Talik3233
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.