Veri Dönüştürme: Tüm değişkenler mi yoksa sadece normal olmayanlar mı?


15

Andy Field'ın SPSS Kullanarak İstatistikleri Keşfederken tüm değişkenlerin dönüştürülmesi gerektiğini belirtir.

Ancak yayında: "Coğrafi ağırlıklı regresyon I: arazi tasarımı ve su kalitesi arasındaki mekansal olarak değişen ilişkilerin incelenmesi": Model tasarımı ve değerlendirmesi "özellikle sadece normal olmayan değişkenlerin dönüştürüldüğünü belirtirler.

Bu analiz spesifik mi? Örneğin, ortalamaların karşılaştırılmasında, günlüklerin ham verilerle karşılaştırılması belirgin bir fark yaratırken, değişkenler arasındaki ilişkiyi araştırmak için regresyon gibi bir şey kullanıldığında daha az önem kazanmaktadır.

Düzenleme: İşte "Veri Dönüşümü" bölümündeki tam metin sayfası:

Ve işte makaleye link: http://www.sciencedirect.com/science/article/pii/S0048969708009121


17
Gönderdiğiniz yeni resme dayanarak, yazar "değişkeni" "gözlemle" karıştırıyor gibi görünüyor. P'nin üstünde. 154 bir değişkeni dönüştürdüğünüzde, tüm değerlerini (gözlemlerini) aynı şekilde dönüştürmeniz gerektiğini, aksi takdirde herhangi bir şeyi karşılaştırmanın imkansız hale geldiğini haklı olarak vurgulamaktadır. (Bunun "değişkenler arasındaki ilişkileri değiştirmeyeceğini" iddia etmek doğru olmak için son derece cömert bir yorum gerektirir.) P'nin alt kısmı. 154 o kadar açık bir şekilde yanlıştır ki, cümle ile verilen cümle (dipnotlarda bile), onunla ilgili tüm problemleri sıralamak için zaman ayırmaya bile değmez.
whuber

Yanıtlar:


17

Şüphesiz yararlı bir şekilde amaçlanan birkaç tavsiye alıntısı yaparsınız, ancak herhangi birinde çok fazla değer bulmak zordur.

Her durumda, bir özet olarak neyi alıntıladığınıza tamamen güveniyorum. Yazarların savunmasında, çevreye veya diğer malzemelere uygun nitelikler eklediklerine inanmak istiyorum. (Her zamanki ad (lar), tarih, başlık, (yayıncı, yer) veya (dergi başlığı, cilt, sayfalar) biçimindeki tam bibliyografik referanslar soruyu geliştirir.)

Alan

Bu tavsiye faydalıdır, ancak en iyi şekilde büyük ölçüde basitleştirilmiştir. Alanın tavsiyesi genel olarak planlanmış gibi görünmektedir; örneğin, Levene testine yapılan atıf, varyans analizine geçici olarak odaklanılması anlamına gelir.

Örneğin, çeşitli gerekçelerle kaydedilmesi gereken bir öngörücüye ve olan başka bir gösterge değişkenine sahip olduğumu varsayalım . Sonuncusu (a) günlüğe kaydedilemez (b) günlüğe kaydedilmemelidir. (Gerçekten de, bir gösterge değişkeninin herhangi iki farklı değere dönüştürülmesinin önemli bir etkisi yoktur.)(1,0)

Daha genel olarak, bazı alanlarda - olağan durum - bazı tahmin edicilerin dönüştürülmesi ve geri kalanı olduğu gibi bırakılması yaygındır.

Bir makalede ya da tezde farklı tahmin edicilere (özel bir durum, kimlik dönüşümü ya da olduğu gibi bırakma dahil) farklı şekilde uygulanan bir dönüşümler karışımıyla karşılaşmak çoğu zaman bir okuyucu için endişe kaynağıdır. Karışım iyi düşünülmüş bir dizi seçenek mi, yoksa keyfi ve kaprisli miydi?

Dahası, bir dizi çalışmada yaklaşımın tutarlılığı (her zaman bir yanıta logaritma uygulamak veya asla yanıt vermemek) sonuçların karşılaştırılmasında çok yardımcı olur ve farklı yaklaşım bunu zorlaştırır.

Ancak bu, dönüşümlerin bir karışımı için asla sebep olamayacağı anlamına gelmez.

Alıntı yaptığınız bölümlerin çoğunun sarı renkte vurguladığınız önemli tavsiyelerde çok fazla etkisi olduğunu görmüyorum. Bu kendi başına bir endişe konusudur: mutlak bir kuralı duyurmak ve sonra gerçekten açıklamak değil garip bir iştir. Tersine, "Hatırla" ifadesi Field'ın gerekçesinin kitapta daha önce verildiğini göstermektedir.

Anonim bildiri

Buradaki bağlam regresyon modelleri. OLS'den bahsetmek, modelden ziyade tahmin yöntemini garip bir şekilde vurgular, ancak neyin amaçlandığını anlayabiliriz. GWR I, coğrafi ağırlıklı regresyon olarak yorumlamaktadır.

Buradaki argüman, normal olmayan yordayıcıları dönüştürmeniz ve diğerlerini olduğu gibi bırakmanızdır. Yine, bu normal olarak dağıtılamayan gösterge değişkenleri ile neler yapabileceğiniz ve yapmanız gerektiği hakkında bir soru ortaya çıkarır (yukarıdaki gibi, bu durumda normalliğin bir sorun olmadığını işaret ederek cevaplanabilir). Ancak ihtiyati tedbir, sorunun yordayıcıların normal olmaması olduğunu ima etmekte geriye dönüktür. Öyle değil; öngörücülerin marjinal dağılımları hakkında herhangi bir şey varsaymak regresyon modellemesinin bir parçası değildir.

Uygulamada, tahmincileri daha normal hale getirirseniz, fonksiyonel formunu veriler için neredeyse daha doğru yapan dönüşümler uygulayacaksınız. birçok metinde hata yapısı. Başka bir deyişle, öngörücülerin normale yaklaşmaları için günlüğe kaydedilmesi, dönüştürülmüş alandaki doğrusallığa yaklaşırsanız yanlış nedenden dolayı doğru şeyi yapıyor olabilir.Xβ

Bu forumda dönüşümler konusunda çok iyi tavsiyelerde bulunuyorum ve alıntı yaptığınız konuları tartışmaya odaklandım.

PS: "Örneğin, ortalamaların karşılaştırılmasında, günlüklerin ham verilerle karşılaştırılması önemli bir fark yaratacaktır" diye başlayan bir ifade eklersiniz. Ne düşündüğünüzü net değilim, ama bir grubun değerlerini başka bir grubun değer logaritmaları ile karşılaştırmak saçma olurdu. İfadenizin geri kalanını hiç anlamıyorum.


Nick, açtığımı düşündüğüm hızlı ve özlü bir noktaya değinmek istedim. Google dünyasında, gerekirse orijinal dokümanlara kolayca erişebilmek için yeterli bilgi sağladım. Cevap verdiğiniz için teşekkür ederim, her ne kadar olsa da, bana tam olarak aradığım bilgiyi sağladınız: Veri Dönüşümü Bölümünde, Field'ın önerisi gibi tüm değişkenleri dönüştürmek zorunda kalmak veri dönüşümüne yanlış bir yaklaşımdır.
I Heart Beats

15
+1. Bu kadar açık yanlış olan materyali ele almayı ne kadar dokunaklı yaptığınıza hayret ediyorum. SPSS kitabında burada ve orada sayfalara göz gezdirmek, bu sitede aldığımız gerçekten karışık soruların bazılarına dair fikir veriyor: Sanırım bu kitabın okuyucularından gelmeleri gerekiyor. Hatalar, yanlış bilgilendirme ve açık konfabulasyon ile doludur.
whuber

@I Heart Beats Cevabı faydalı buldunuz, ancak doğru referans isteğim geçerli. İlgilenen kişiler her zaman Google'ı kullanabildikleri için eksik referansların her zaman savunulabilir olduğunu da söyleyebilirsiniz. Aksine, iyi burs ve bilime iyi bir bibliyografik uygulama yardımcı olur, tam ayrıntılar verir ve (birçok) okuyucuyu gereksiz işler yapmaz.
Nick Cox

@ Sorumdaki düzenlemeleri görmek için tıklayın. Makalenin açık kaynak olduğuna inanıyorum ve bağlam için metnin tam sayfasını ekledim.
I Heart,

9
Referansları geliştirdiğiniz için teşekkürler. Field'dan daha fazla alıntı yaptınız. "Verileri dönüştürmenin değişkenler arasındaki ilişkileri değiştirmeyeceği" iddiasını içeren fazladan bir bölüm var. Ya "ilişki" nin kendine özgü bir anlamı üzerine dönüyorsa ya da (büyük ihtimalle korkuyorum) yararsızdır, gerçekten de oldukça yanlıştır. (Bir anlamda) Ben pişmanlık söz konusu kitap hakkında @whuber katılıyorum önümüzde kanıtlara . (Güncelleme: whuber aynı anda esasen aynı noktayı yapıyordu: soru hakkındaki yorumuna bakın.)
Nick Cox

10

Her şeyden önce, bir regresyon modelinde kullanılmak üzere tasarlanan verilere uygulanan herhangi bir dönüşüm, değişken PDF'leri daha normal bir şekilde dağıtmak için yapılmadığı sürece, her iki alıntı da yanıltıcıdır , klasik regresyonda bir varsayım olduğu için model artıklarını daha simetrik hale getirmek için yapılır hataların Gauss olması. Bu, bir PDF'yi simetrikleştirmekten daha derin bir titizlik ve katılık anlamına gelir.

Ayrıca, her iki alıntı da zayıftır, çünkü ikisinin de reçeteleri için motivasyona girmemesi (en azından verilen bilgilere dayanarak). Olduğu gibi, ikisine de katılmıyorum.

Vurguladığınız pasajda SPSS kitabı, dönüşümlerin karışımlarına (örneğin, bir değişken için doğal günlük, diğeri için sq root) izin verilmediğini iddia ediyor. Bu neden yasadışı? Dönüşüm karışımları, farkında olduğum hiçbir regresyon varsayımını ihlal etmiyor. Durumun bu olduğunu doğrulamak için lütfen regresyon varsayımlarındaki regresyon metinlerini kontrol edin. Dönüşüm karışımları , yorumları açısından önemli bir tanımlayıcı sorun oluşturabilir, ancak bu, karışımların yasadışı olup olmadığı meselesi değildir. SPSS adamı yanlış.

İkinci metne gelince, dönüşümler tamamen analist seçimi meselesidir - biri bunu yaparsa yapsın, tüm girdileri veya bazı değişkenleri dönüştürür, başkalarını değil. Bunların hiçbiri varsayımları ihlal etmez.

İkinci alıntıyı raydan çıkardığım yerde, "... potansiyel çoklu bağlantıyı önlemek için ... sadece bir arazi kullanım göstergesi (kullanılmış) ..." Bu son derece kötü bir tavsiye ve kulağa hoş geliyor. bazı analistlerin, bir grup değişkeni çarpanlarına ayıracak ve her bir faktöre en yüksek yükleme değişkenini seçecekleri bir boyut küçültme tekniği olarak yapacakları bir şey. Bu buluşsal yöntem yıllardır var ya da benim kullandığım ya da tavsiye ettiğim biri değil. Yine, bu analistin tercihi ve eğitimi meselesidir. Ancak bu nokta sizin sorularınızı cevaplamayı hedeflemiyor.

Günün sonunda, her iki alıntı da, sağlanan bilgilere dayanarak herhangi bir destekleyici kanıt bulunmadığında yazarların görüşlerinin iddiası olarak ortaya çıkmaktadır.


9
Genel olarak benzer noktalara değiniyoruz, ancak iyi metinlerin Gauss hatalarının regresyon modellemesinde en az önemli varsayım olduğunu ve birçok amaç için gerekli olmadığını açıkladığını eklemek istiyorum.
Nick Cox

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.