İstatistikler ve Büyük Veri

5

R de geniş ve uzun formatlar arasında veri nasıl değiştirilir? [kapalı]

Verileri geniş formatta veya uzun formatta alabilirsiniz. Biçime bağlı olarak, kullanılabilir yöntemler farklı olduğundan, bu oldukça önemli bir şeydir. Çalışmak zorunda olduğunu biliyorummelt() ve cast()yeniden biçimlendirme paketinden ama alamadım bazı şeyler var gibi görünüyor. Birisi bana bunu nasıl yaptığınız hakkında kısa bir bilgi verebilir mi?

32 data-transformation r

8

Bu kişinin kadın olma olasılığı nedir?

Bir perdenin arkasında bir kişi var - o kişinin kadın mı yoksa erkek mi olduğunu bilmiyorum. Kişinin uzun saçlı olduğunu ve uzun saçlı insanların% 90'ının kadın olduğunu biliyorum. Kişinin nadir kan grubu AX3 olduğunu ve bu kan grubuna sahip bütün kişilerin% 80'inin kadın olduğunu biliyorum. İnsanın kadın olma olasılığı nedir? …

32 conditional-probability probability

1

PCA, bir k-aracı kümeleme analizine nasıl yardımcı olur?

Amaç : Bir kentin yerleşim alanlarını, konut birim yoğunluğu, nüfus yoğunluğu, yeşil alan, konut fiyatı, okul sayısı, okul / sağlık merkezleri / günlük bakım merkezleri gibi sosyal-ekonomik özelliklerine göre gruplandırmak istiyorum. Yerleşim bölgelerinin kaç farklı gruba bölünebileceğini ve bunların benzersiz özelliklerinin neler olduğunu anlamak istiyorum. Bu bilgi şehir planlamasını kolaylaştırabilir. …

32 clustering pca k-means dimensionality-reduction

2

Neden AlphaGo’ya benzeyen satranç için sağlam bir güçlendirme öğrenme motoru yok?

Bilgisayarlar uzun zamandır "kaba kuvvet" tekniğini kullanarak, belirli bir derinliği araştırarak ve daha sonra konumunu değerlendirerek satranç oynayabildiler. Ancak AlphaGo bilgisayarı, pozisyonları değerlendirmek için sadece bir YSA kullanıyor (bildiğim kadarıyla derinlemesine arama yapmıyor). AlphaGo'nun Go ile oynadığı gibi satranç oynayan bir satranç motoru oluşturmak mümkün mü? Neden kimse bunu yapmadı? …

32 neural-networks deep-learning reinforcement-learning games

2

SVM optimal C ve gama parametrelerini belirlemek için hangi arama aralığı?

Sınıflandırma için SVM kullanıyorum ve doğrusal ve RBF çekirdekleri için en uygun parametreleri belirlemeye çalışıyorum. Doğrusal çekirdek için C'yi belirlemek için çapraz doğrulanmış parametre seçimini, RBF çekirdeği için ise C ve gama belirlemek için ızgara aramasını kullanın. 20 (sayısal) özellik ve 7 sınıfa ayrılması gereken 70 eğitim örneğim var. C …

32 classification svm kernel-trick

4

Gerçek değer sıfır olduğunda göreceli hata nasıl hesaplanır?

Gerçek değer sıfır olduğunda göreceli hatayı nasıl hesaplarım? Diyelim ki ve . Göreceli hatayı şu şekilde tanımlarsam:xT R u e= 0xtrue=0x_{true} = 0xt e'nin s txtestx_{test} göreceli hata = xT R u e- xt e'nin s txT R u egöreceli hata=xtrue-xtestxtrue\text{relative error} = \frac{x_{true}-x_{test}}{x_{true}} Sonra göreceli hata her zaman tanımsızdır. …

32 error measurement-error

1

PCA amaç fonksiyonu: varyansı maksimize etmek ve hatayı minimize etmek arasındaki bağlantı nedir?

PCA algoritması, korelasyon matrisi açısından formüle edilebilir ( verilerinin XXXzaten normalize olduğunu ve yalnızca ilk PC'ye yansımayı düşünüyoruz). Amaç işlevi şöyle yazılabilir: maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Bu iyi ve biz bunu çözmek için Lagrangian çarpanlarını kullanıyoruz. maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], hangi eşdeğer maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, …

32 pca optimization

1

“Belirleme katsayısı” ile “ortalama kare hatası” arasındaki fark nedir?

Regresyon sorunu için, insanların model seçimini yapmak için "tayin katsayısı" (aka R kare) kullandığını gördüm, örneğin, normalleştirme için uygun ceza katsayısını bulmak. Bununla birlikte, regresyon doğruluğunun bir ölçüsü olarak "ortalama kare hatası" veya "kök ortalama kare hatası" kullanımı da yaygındır. Peki bu ikisi arasındaki temel fark nedir? "Düzenleme" ve "regresyon" …

32 regression r-squared

3

Korelasyonda veya kovaryansta PCA: Korelasyonda PCA hiç mantıklı geliyor mu? [kapalı]

Temel bileşen analizinde (PCA), bileşenleri bulmak için kovaryans matrisi veya korelasyon matrisi seçilebilir (ilgili özvektörlerinden). Bunlar farklı sonuçlar verir (PC yüklemeleri ve puanları), çünkü her iki matris arasındaki özvektörler eşit değildir. Benim anladığım şey, bunun bir ham veri vektörünün ve onun standart hale getirilmesinin ortogonal bir dönüşümle ilişkilendirilemeyeceği gerçeğinden kaynaklanmaktadır …

32 pca factor-analysis

3

Makine öğrenmesi için benzer bir Proje Euler var mı?

Programlama dillerini öğrenmek için Project Euler http://projecteuler.net/ ' ı inanılmaz derecede faydalı buldum . Makine Öğrenimi için benzer bir site var mı? Http://www.kaggle.com/ adresini gördüm , ancak neredeyse başlayanlar için Proje Euler kadar erişilebilir değil.

32 teaching

4

Aşırı dağınık poisson sonuçları için çok seviyeli bir modeli nasıl takabilirim?

Ben R kullanarak Poisson dağılımlı (fazla dağılımlı) çok seviyeli bir GLMM'ye uymak istiyorum. Şu anda lme4 kullanıyorum ancak yakın zamanda quasipoissonailenin çıkarıldığını fark ettim . Başka bir yerde, gözlem başına bir seviye ile rastgele bir kesişme ekleyerek binom dağılımları için ilave aşırı dağılım modelleyebileceğinizi görmüştüm. Bu, poisson dağılımı için de …

32 r mixed-model poisson-distribution lme4-nlme overdispersion

3

Uygulamada aglomeratif hiyerarşik kümelenme için hangi durma kriterleri kullanılır?

Her türlü kriteri öneren geniş bir literatür buldum (örneğin Glenn ve diğerleri 1985 (pdf) ve Jung ve diğerleri 2002 (pdf)). Bununla birlikte, bunların çoğu, uygulanması o kadar kolay değildir (en azından benim açımdan). Bir küme hiyerarşisi elde etmek için scipy.cluster.hierarchy kullanıyorum ve şimdi ondan nasıl düz kümeler oluşturacağına karar vermeye …

32 clustering

3

R, lm'deki eksik değerleri nasıl ele alır?

Bir B vektörünü bir matris A'daki her bir sütuna karşı germek istiyorum. Bu, eksik veri yoksa önemsizdir, ancak A matrisi eksik değerler içeriyorsa, A'ya karşı regresyonum yalnızca tüm satırları içerecek şekilde sınırlandırılmıştır. değerler var (varsayılan na.omit davranışı). Bu, eksik veri içermeyen sütunlar için hatalı sonuçlar üretir. B matrisi sütununu, A …

32 r missing-data linear-model

2

Konvolüsyonel bir sinir ağında “özellik haritası” nın (aka “aktivasyon haritası”) tanımı nedir?

Giriş Arkaplanı Konvolüsyonel bir sinir ağı içinde genellikle buna benzeyen genel bir yapıya / akışa sahibiz: giriş görüntüsü (yani 2B vektör x) (1. Konvolüsyon tabakası (Conv1) burada başlar ...) w12B görüntü boyunca bir dizi filtre ( ) döndürün (yani z1 = w1*x + b1nokta ürün çarpmalarını yapın), burada 3B'dir z1ve …

32 neural-networks deep-learning conv-neural-network

4

İşlenmemiş veri yerine örnek istatistiklerini girerek R'de iki örnek t testi nasıl yapılır?

Diyelim ki aşağıda istatistikleri var. gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 İki örnekli bir t-testini (gerçek değişkenlerden ziyade bu gibi istatistikleri kullanarak (bazı değişkenlerdeki kadın ve erkeklerin araçları arasında anlamlı bir fark olup olmadığını görmek için) nasıl uygularsınız? İnternette herhangi bir yerde bunun nasıl …

32 r t-test