İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

2
Yerleştirme ile Karışık Etkiler Modeli
Aşağıdaki şekilde düzenlenen bir deneyden toplanan veriler var: Her biri 30 ağaçlı iki alan. 15 işlenir, 15 her yerde kontrol edilir. Her bir ağaçtan, gövdenin üç parçasını ve üç parçanın köklerini örnekliyoruz; bu nedenle, iki faktör seviyesinden (kök, gövde) biriyle temsil edilen ağaç başına 6 seviye 1 örnek. Daha sonra, …

1
Aşağı örnekleme, lojistik regresyon katsayılarını değiştirir mi?
Çok nadir pozitif sınıflı bir veri kümem varsa ve negatif sınıfı aşağı örneklemem, sonra lojistik bir regresyon uygulamam, pozitif sınıfın prevalansını değiştirdiğim gerçeğini yansıtmak için regresyon katsayılarını ayarlamam gerekir mi? Örneğin, 4 değişkenli bir veri kümesine sahip olduğumu varsayalım: Y, A, B ve C. Y, A ve B ikili, C …

2
Kalıntıların ve takma değerlerin yorumlanması doğrusal bir modelin varsayımlarını doğrulamak için arsa
Faraway'in R'li Lineer Modellerinden R (2005, s. 59) aşağıdaki rakamı düşünün. İlk arsa, artıkların ve takılan değerlerin normal dağılmış hataları olan homoscedastic lineer bir modelde olması gerektiği için birbiriyle ilişkili olmadığını gösteriyor gibi görünmektedir. Bu nedenle, artıklar ve takılan değerler arasındaki bağımlılığı gösteriyor gibi görünen ikinci ve üçüncü çizimler farklı …

2
Benjamini & Hochberg (1995) ile Benjamini & Yekutieli (2001) yanlış keşif oranı prosedürleri arasındaki pratik farklar nelerdir?
İstatistik programım, hem Benjamini & Hochberg (1995) hem de Benjamini & Yekutieli (2001) yanlış keşif oranı (FDR) prosedürlerini uygular. Daha sonraki makaleyi okumak için elimden geleni yaptım, ancak oldukça matematiksel olarak yoğun ve prosedürler arasındaki farkı anladığımdan emin değilim. İstatistik programımda altta yatan koddan gerçekten farklı olduklarını ve sonuncusunun FDR …


3
Bağımlı değişkenin normalliği = artıkların normalliği?
Bu mesele her zaman çirkin kafasını ortaya çıkarıyor gibi görünüyor ve kendi istatistik anlayışımla (ve akıl sağlığımla!) Başa çıkmaya çalışıyorum. Genel doğrusal modellerin (t-testi, ANOVA, regresyon vb.) Varsayımları “normalliğin varsayımını” içerir, ancak bunun nadiren açıkça tanımlandığını buldum. Sık sık, “normalliğin varsayımının” her grup için geçerli olduğunu belirten istatistik kitaplarına / …

2
Model seçimi ve çapraz doğrulama: Doğru yol
CrossValidated'da model seçimi ve çapraz onaylama konusunda sayısız konu vardır. Burda biraz var: Dahili ve harici çapraz doğrulama ve model seçimi @ DikranMarsupial'ın Özellik seçimi ve çapraz doğrulama için en iyi cevabı Bununla birlikte, bu konulara verilen cevaplar oldukça geneldir ve çoğunlukla geçerlilik testi ve model seçimine yönelik özel yaklaşımlarla …

3
Korelasyon matrisinin neden pozitif yarı kesin olması gerekir ve pozitif yarı kesin olmanın anlamı nedir?
Korelasyon veya kovaryans matrislerinin pozitif yarı kesin özelliklerinin anlamını araştırıyordum. Hakkında herhangi bir bilgi arıyorum Pozitif yarı kesinliğin tanımı; Önemli özellikleri, pratik uygulamalar; Olumsuz belirleyici olmanın sonucu, çok değişkenli analiz veya simülasyon sonuçları vb.

3
Rasgele bir etkinin önemli olup olmadığını nasıl test edebilirim?
Ne zaman rastgele bir efekt kullanılacağını ve ne zaman gereksiz olduğunu anlamaya çalışıyorum. Yaptığım kural, benim yaptığım 4 veya daha fazla grubun / şahsın varsa (15 kişisel geyik). Bu geyiklerin bazıları toplam 29 deneme için 2 veya 3 kez denenmiştir. Riskli manzaralar altında olmadıklarından farklı davranıp davranmadıklarını bilmek istiyorum. Böylece, …


5
Sinir Ağı eğitimi için Backpropagation vs Genetik Algoritma
Her yöntemin artılarını ve eksilerini tartışan birkaç makale okudum, bazıları GA'nın en uygun çözümü bulmada herhangi bir gelişme sağlamadığını, diğerleri ise bunun daha etkili olduğunu gösteriyor. Genel olarak literatürde GA'nın tercih edildiği görülmektedir (çoğu insan ihtiyaç duydukları sonuçları elde etmek için bir şekilde değiştirmelerine rağmen), o zaman neden yazılım çözümlerinin …

3
Birden fazla değerlendirmeden sonra eğilim skoru eşleşmesi
Bu makaleye atıfta bulunuyorum : Hayes JR, Groner JI. "Araba koltukları ve emniyet kemeri kullanımının travma kayıt verilerinden kaynaklanan yaralanma ciddiyeti üzerindeki etkisini test etmek için çoklu değerlendirme ve eğilim puanları kullanmak." J Çocuk Cerrahisi. 2008 Mayıs; 43 (5): 924-7. Bu çalışmada, 15 tam veri seti elde etmek için çoklu …

5
CV / Bootstrap kullanarak makine öğrenim algoritmalarını çalıştırabilir misiniz?
Bu soru kesin bir cevap alamayacak kadar açık uçlu olabilir, ama umarım değil. SVM, GBM, Rastgele Orman vb. Gibi makine öğrenmesi algoritmaları, genellikle bazı rehberlik kurallarının ötesinde, her bir veri setine ayarlanması gereken bazı ücretsiz parametrelere sahiptir. Bu genellikle, en iyi genelleme hatasını veren parametre setine uyması için bir çeşit …

3
Genelleştirilmiş doğrusal modeller ve genelleştirilmiş doğrusal karışık modeller arasındaki fark
Karışık ve karıştırılmamış GLM'ler arasındaki farkların ne olduğunu merak ediyorum. Örneğin, SPSS'de açılır menü kullanıcıların her ikisine de sığmasını sağlar: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Eksik değerlerle farklı şekilde mi ilgileniyorlar? Bağımlı değişkenim ikili ve birkaç kategorik ve sürekli bağımsız değişkenim var.

7
Neden öğrencilere p değerlerinin bulguların şansa bağlı olma olasılığı olduğunu öğretmek kötüdür?
Birisi lütfen öğrencilere bir p-değerinin prob olduğunu öğretmenin neden iyi bir fikir olmadığını güzel ve özlü bir açıklama yapabilir mi (bulguları [rastgele] şanstan kaynaklanmaktadır). Anladığım kadarıyla bir p-değeri prob (daha aşırı veri almak | boş hipotez doğru). Benim asıl ilgim, onlara eski olduğunu söylemenin zararı (basitçe öyle olmaması gerçeği dışında).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.