İstatistikler ve Büyük Veri regression

1

Ayrı modelleme / doğrulama kümeleri kullanarak bir regresyon modeli oluştururken, doğrulama verilerini “yeniden dolaşıma sokmak” uygun mudur?

Diyelim ki modelleme / doğrulama gözlemleri arasında 80/20 ayrımı var. Modelleme veri kümesine bir model sığdırıyorum ve doğrulama veri kümesinde gördüğüm hatadan rahatım. Gelecekteki gözlemleri puanlamak için modelimi sunmadan önce,% 100 verilerinde güncellenmiş parametre tahminleri almak için doğrulamayı modelleme verileriyle birleştirmek uygun mudur? Bununla ilgili iki bakış açısı duydum: Gerçekleştirdiğim …

13 regression predictive-models validation

1

Panel veri modellerinde bir grup içindeki standartlaştırılmış bağımlı değişken?

Tanımlayıcı grupta bağımlı bir değişkenin standardizasyonu anlamlı mı? Aşağıdaki çalışma belgesi (Yasal Amazon'da ormansızlaşma yavaşlaması; Fiyatlar veya Politikalar ?, pdf ) Brezilya'daki genel politika değişikliğinin ormansızlaşma üzerindeki etkisini analiz etmek için standartlaştırılmış bir bağımlı değişken kullanır. Standardizasyon aşağıdaki gibi yapılır: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} Yazarlar, bunun "belediyelerdeki ormansızlaşma …

13 regression time-series panel-data standardization fixed-effects-model

2

Rastgele Orman Modelleri kullanılırken Değişkenleriniz Ne Zaman Günlüğe Kaydedilir / Artırılır?

Çeşitli özelliklere dayalı fiyatları tahmin etmek için Random Forests kullanarak regresyon yapıyorum. Kod Python'da Scikit-learn kullanılarak yazılır. Regresyon modeline uyması için değişkenleri kullanmadan önce exp/ kullanmadan dönüştürüp dönüştürmemeye nasıl karar verirsiniz log? Rastgele Orman gibi bir Topluluk yaklaşımı kullanırken gerekli mi?

13 regression machine-learning predictive-models python random-forest

1

Homoscedasticity varsayımının ihlal edildiği regresyonlarda önyükleme standart hataları ve güven aralıkları uygun mu?

Standart OLS regresyonlarında iki varsayım ihlal edilirse (hataların normal dağılımı, eşcinsellik), önyükleme standart hataları ve güven aralıkları, regresör katsayılarının önemi açısından anlamlı sonuçlara ulaşmak için uygun bir alternatif mi? Önyükleme yapılan standart hatalar ve güven aralıkları ile önem testleri hâlâ hetero-esneklikle çalışır mı? Evetse, bu senaryoda kullanılabilecek geçerli güven aralıkları …

13 regression bootstrap least-squares heteroscedasticity

3

Normal artıklar ne anlama geliyor ve bu verilerim hakkında bana ne anlatıyor?

Oldukça basit bir soru: Doğrusal bir regresyondan normal artıkların dağılımı ne anlama gelir? Bu, regresyondan elde ettiğim orijinal verilerime nasıl yansıyor? Tamamen güldüm, teşekkürler arkadaşlar

13 regression residuals

1

Lojistik regresyon tahminlerini anlama

Bir lojistik regresyon modelinden (R'de glm) gelen tahminlerim beklediğim gibi 0 ile 1 arasında sınırlı değil. Lojistik regresyon anlayışım, giriş ve model parametrelerinizin doğrusal olarak birleştirilmesi ve yanıtın logit link işlevi kullanılarak bir olasılığa dönüştürülmesidir. Logit işlevi 0 ile 1 arasında sınırlandığından, tahminlerimin 0 ile 1 arasında sınırlanmasını bekledim. Ancak …

13 r regression logistic generalized-linear-model

2

Stata'daki bir probit modelini nasıl yorumlayabilirim?

Stata'da koştuğum bu probit regresyonunu nasıl yorumlayacağından emin değilim. Veriler kredi onayı üzerindedir ve beyaz, bir kişi beyazsa = 1, kişi değilse = 0 olan bir kukla değişkendir. Bunu nasıl okuyacağınıza ilişkin herhangi bir yardım çok takdir edilecektir. En çok aradığım şey, hem beyazlar hem de beyaz olmayanlar için tahmini …

13 regression multiple-regression stata

2

P> n ise, kement en fazla n değişken seçer

Elastik ağ için motivasyonlardan biri LASSO'nun aşağıdaki sınırlamasıydı: Gelen durumda, çünkü dışbükey optimizasyon problemine doğasının kement en fazla seçer n değişkenler ondan önce doymuş bileşikler,. Bu, değişken seçim yöntemi için sınırlayıcı bir özellik gibi görünmektedir. Ayrıca, katsayıların L1-normuna bağlı belirli bir değerden daha küçük olmadığı sürece, kement iyi tanımlanmamıştır.p>np>np > …

13 regression optimization feature-selection lasso

5

Regresyonda yüzdeleri bağımlı değişken olarak tahmin etme

Çalışmamda bağımlı değişken olarak 38 sınavda öğrenci sıralamasında yüzdelerim var. Sıra yüzdesi (bir öğrencinin sıradaki / sınavdaki öğrenci sayısı) ile hesaplanır. Bu bağımlı değişken neredeyse eşit dağılım gösterir ve bazı değişkenlerin bağımlı değişken üzerindeki etkilerini tahmin etmek istiyorum. Hangi regresyon yaklaşımını kullanıyorum?

13 regression distributions

2

Yalnızca bilmek Doğrusal regresyon , değil doğrudan

Varsayalım .Xβ=YXβ=YX\beta =Y Bilmiyoruz , tam olarak her etkenin, sadece onun korelasyon .YYYXtYXtYX^\mathrm{t}Y Sıradan en küçük kareler (OLS) çözümü ve bir sorun yoktur.β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y Ancak tekil (çok doğrusal doğrusallık) yakınında olduğunu ve optimal sırt parametresini tahmin etmeniz gerektiğini varsayalım . Tüm yöntemlerin kesin değerlerine ihtiyacı olduğu görülmektedir .XtXXtXX^\mathrm{t}XYYY Yalnızca …

13 regression multicollinearity

3

Değişkenler değiştiğinde olağan regresyon ve regresyon

Değişkenler farklı olduğunda normal çoklu / basit regresyon ile çoklu / basit regresyon arasındaki ilişkinin ne olduğunu anlamaya çalışıyorum. Örneğin, mevduat bakiyesi ( ) ile piyasa oranları ( ) arasındaki ilişkiyi analiz ediyorum. Basit bir doğrusal regresyon çalıştırırsam, korelasyon negatif ve oldukça önemlidir (-.74 civarında) Ancak, bağımlı değişkenin farkı ve …

13 regression time-series

3

Bootstrapped regresyon eğimlerini nasıl karşılaştırırım?

Her biri bağımsız değişken x ve bağımlı değişken y'nin veri çiftlerinin n gözlemini içeren iki veri setim olduğunu varsayalım . Ayrıca gözlemleri N kez yeniden yükleyerek ve y = a + bx regresyonunu hesaplayarak her veri kümesi için regresyon eğimlerinin bir dağılımını oluşturmak istediğimi varsayalım.her seferinde. Eğimlerin önemli ölçüde farklı …

13 regression statistical-significance bootstrap

6

Endojenite ve gözlemlenmeyen heterojenliğe karşı

Endogeneite ve gözlemlenmeyen heterojenite arasındaki fark nedir ? Endojenitenin örneğin atlanan değişkenlerden geldiğini biliyorum. Ama anladığım kadarıyla, gözlemlenmemiş heterojenlik aynı soruna neden oluyor. Fakat bu iki kavram arasındaki farkı tam olarak nerede ortaya koyar?

13 regression assumptions

4

Farklı yordayıcı kümelerinin önemini karşılaştırabilme

Bir araştırma öğrencisine belirli bir sorunla ilgili tavsiyede bulunuyordum ve bu siteden başkalarının girdisini almaya istekliydim. Bağlam: Araştırmacının üç tip öngörücü değişkeni vardı. Her tür farklı sayıda öngörücü değişken içeriyordu. Her tahminci sürekli bir değişkendi: Sosyal: S1, S2, S3, S4 (yani dört tahminci) Bilişsel: C1, C2 (yani iki öngörücü) Davranışsal: …

13 regression predictor importance

3

Daha büyük varyanslı bir belirteç “daha iyi” midir?

"Temel istatistik" kavramıyla ilgili bir sorum var. Bir öğrenci olarak bunu tamamen yanlış düşünüp düşünmediğimi ve neden öyleyse bilmek istiyorum: Diyelim ki "öfke yönetimi sorunları" arasındaki ilişkiye bakmaya çalışıyorum ve lojistik regresyonda boşanma (evet / hayır) diyorum ve iki farklı öfke yönetimi puanı kullanma seçeneğim var - her ikisi de …

13 regression logistic

«regression» etiketlenmiş sorular