«data-transformation» etiketlenmiş sorular

Veri değerlerinin genellikle doğrusal olmayan matematiksel yeniden ifadesi. Veriler genellikle bir istatistiksel modelin varsayımlarını karşılamak veya bir analizin sonuçlarını daha yorumlanabilir hale getirmek için dönüştürülür.

4
Kategorik veriler nasıl özetlenir?
Aşağıdaki sorunla mücadele ediyorum, umarım istatistikçiler için kolay bir sorundur (istatistiklere biraz maruz kalan bir programcıyım). Bir ankete verilen yanıtları özetlemem gerekiyor (yönetim için). Anketin farklı alanlarda gruplandırılmış 100'den fazla sorusu vardır (alan başına yaklaşık 5 ila 10 soru). Tüm cevaplar kategoriktir (sıralı bir ölçekte, "hiç değil", "nadiren" ... "günlük …

3
Yanıtları, Box-Cox dönüştürülmüş verilerinde orijinal birimler cinsinden ifade edin
Bazı ölçümler için bir analizin sonuçları dönüştürülmüş ölçekte uygun şekilde sunulur. Bununla birlikte, çoğu durumda, sonuçları orijinal ölçüm ölçeğinde sunmak arzu edilir (aksi takdirde çalışmanız az çok değersizdir). Örneğin, log dönüştürülmüş veri durumunda, kaydedilen değerlerin ortalaması ortalamanın günlüğü olmadığı için orijinal ölçekte yorumlama ile ilgili bir sorun ortaya çıkar. Günlük …

5
Farklı uzunluktaki zaman serileri için SVD boyutsallık azalması
Tekil Değer Ayrışmasını boyutsallık azaltma tekniği olarak kullanıyorum. NBoyut vektörleri göz önüne alındığında D, fikir, ilişkisiz boyutların dönüştürülmüş bir uzayındaki özellikleri temsil etmek, bu da bu alanın özvektörlerindeki verilerin bilgilerinin çoğunu azalan bir önem sırasına yoğunlaştırmaktır. Şimdi bu prosedürü zaman serisi verilerine uygulamaya çalışıyorum. Sorun şu ki, tüm diziler aynı …

4
Yanıt değişkeni, yıllık bir olayın (genellikle) gerçekleştiği yılın günü olan bir regresyon modeli
Bu özel durumda, bir gölün dontuğu güne değiniyorum. Bu "buzlanma" tarihi yalnızca yılda bir kez olur, ancak bazen hiç olmaz (kış sıcaksa). Yani bir yılda göl 20. günde (20 Ocak) donabilir ve başka bir yıl hiç donmayabilir. Amaç, buzlanma tarihinin sürücülerini bulmaktır. Tahminler her yıl sonbahar / kış hava sıcaklığı …

2
Görselleştirme, verileri dönüştürmek için yeterli bir gerekçe mi?
Sorun 30 parametrenin her biri tarafından açıklanan varyansı, örneğin her parametre için farklı bir çubuğa sahip bir barplot ve y eksenindeki varyansı çizmek istiyorum: Bununla birlikte, varyanslar, aşağıdaki histogramda görülebileceği gibi, 0 dahil olmak üzere küçük değerlere doğru eğrilir: Bunları , küçük değerler (aşağıdaki histogram ve çubuk grafik) arasındaki farkları …

1
Are -inci kök dönüşümler tavsiye?
Meslektaşım yanıt değişkenini (yani ) yükselterek dönüştürdükten sonra bazı verileri analiz etmek istiyor .1818\frac18y0.125y0.125y^{0.125} Bundan rahatsızım ama nedenini açıklamakta zorlanıyorum. Bu dönüşüm için herhangi bir mekanik gerekçe düşünemiyorum. Daha önce hiç görmedim ve belki de Tip I hata oranlarını falan şişirdiğinden endişe ediyorum - ama bu endişeleri destekleyecek hiçbir şeyim …

1
Bağımsız bir değişkenken oranları dönüştürmenin en uygun yolu nedir?
Bu sorunu anladığımı sanıyordum, ama şimdi tam olarak emin değilim ve devam etmeden önce başkalarıyla görüşmek istiyorum. İki değişkenim var Xve Y. YR, bir orandır ve 0 ve 1 ile sınırlı değildir ve genellikle normal olarak dağıtılır. Xbir orandır ve 0 ve 1 ile sınırlıdır (0,0 ila 0,6 arasında çalışır). …

4
Bir problemin doğrusal regresyon için çok uygun olduğuna dair ipuçları
Montgomery, Peck ve Vining'in Doğrusal Regresyon Analizine Giriş'i kullanarak doğrusal regresyon öğreniyorum . Bir veri analizi projesi seçmek istiyorum. Doğrusal regresyonun sadece açıklayıcı değişkenler ile yanıt değişkeni arasında doğrusal fonksiyonel ilişkiler olduğundan şüphelenildiğinde uygun olduğuna dair saf bir düşüncem var. Ancak pek çok gerçek dünya uygulaması bu kriteri karşılamıyor gibi …

2
Normal olarak dağılmış X ve Y'nin normal olarak dağılmış artıklara neden olma olasılığı daha yüksektir?
Burada doğrusal regresyonda normallik varsayımının yanlış yorumlanması tartışılmıştır ('normallik' artıklardan ziyade X ve / veya Y'yi ifade eder) ve poster normal olarak dağılmamış X ve Y'ye sahip olmanın mümkün olup olmadığını sorar ve hala normal olarak dağılmış kalıntıları vardır. Benim sorum: normal olarak dağıtılan X ve Y'nin normal olarak dağıtılan …

3
Leptokurtik dağılımı normalliğe nasıl dönüştürebilirim?
Diyelim ki normalliğe dönüştürmek istediğim leptokurtik bir değişkenim var. Bu görevi hangi dönüşümler yapabilir? Verilerin dönüştürülmesinin her zaman arzu edilmeyebileceğinin farkındayım, ancak akademik bir uğraş olarak, verileri normalliğe "çekmek" istediğimi varsayalım. Ayrıca, çizimden de anlayabileceğiniz gibi, tüm değerler kesinlikle pozitiftir. Çeşitli dönüşümler denedim ( , vb. olmak üzere daha önce …

1
Bir Gizli Markov Modelinde “en iyi” modeli seçme kriterleri
Verilerdeki gizli durumların sayısını tahmin etmek için bir Gizli Markov Modeli (HMM) sığdırmaya çalıştığım bir zaman serisi veri var. Bunu yapmak için sahte kodum şudur: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Şimdi, her zamanki …


1
Günlüğe kaydedilen değişkenler neden kullanılır?
Muhtemelen, bu çok temel bir soru ama bunun için sağlam bir cevap bulamıyorum. Umarım burada yapabilirim. Şu anda kendi yüksek lisans tezime hazırlık olarak kağıtları okuyorum. Şu anda, tweetler ve borsa özellikleri arasındaki ilişkiyi araştıran bir makale okuyorum. Hipotezlerinden birinde, "artan tweet hacminin ticaret hacmindeki artışla ilişkili olduğunu" ileri sürüyorlar. …

2
Bazı zaman noktalarının tepkileri büyük ölçüde çarpıkken ve bazıları tekrarlanan önlemler çalışmasında bulunmadığında ne yapmalı?
Tipik olarak, uzunlamasına bir tasarımda (örneğin, denekler arasında bir etki ile) sürekli ancak çarpık sonuç ölçümleriyle karşılaşıldığında ortak yaklaşım, sonucu normale dönüştürmektir. Kesik gözlemlerde olduğu gibi durum aşırı ise, fantezi olabilir ve bir Tobit büyüme eğrisi modeli veya bazılarını kullanabilir. Ama normalde belirli zaman noktalarında dağıtılan ve daha sonra diğerlerine …

2
Günlük farkı zaman serisi modelleri büyüme hızlarından daha mı iyidir?
Genellikle yazarların "günlük farkı" modelini tahmin ettiğini görüyorum, ör. log(yt)−log(yt−1)=log(yt/yt−1)=α+βxtlog⁡(yt)−log⁡(yt−1)=log⁡(yt/yt−1)=α+βxt\log (y_t)-\log(y_{t-1}) = \log(y_t/y_{t-1}) = \alpha + \beta x_t Bunu ilişkilendirmek uygun katılıyorum bir yüzde değişim ise olduğu .xtxtx_tytyty_tlog(yt)log⁡(yt)\log (y_t)I(1)I(1)I(1) Ancak log farkı yaklaşık bir değerdir ve log dönüşümü olmayan bir modeli de tahmin edebiliriz, ör. yt/yt−1−1=(yt−yt−1)/yt−1=α+βxtyt/yt−1−1=(yt−yt−1)/yt−1=α+βxty_t/y_{t-1} -1 = (y_t - …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.