İstatistikler ve Büyük Veri similarities

6

İki normal dağılımın üst üste gelen bölgelerinin yüzdesi

Merak ediyorum, ve ile iki normal dağılım verildi.σ 2 , μ 2σ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 İki dağılımın üst üste gelen bölgelerinin yüzdesini nasıl hesaplayabilirim? Bu sorunun belirli bir adı olduğunu varsayalım, bu sorunu tanımlayan herhangi bir adın farkında mısınız? Bunun herhangi bir uygulamasından haberdar mısınız (örneğin, …

46 normal-distribution similarities metric bhattacharyya

2

Karma tip veri ile hiyerarşik kümeleme - hangi uzaklık / benzerlik kullanılır?

Veri setimde hem sürekli hem de doğal olarak ayrık değişkenler var. Her iki değişken türünü kullanarak hiyerarşik kümelemeyi yapıp yapamayacağımızı bilmek istiyorum. Ve eğer evet ise, hangi mesafe ölçüsü uygundur?

34 clustering similarities distance-functions mixed-type-data

1

Farklı mesafeler ve yöntemler ile elde edilen hiyerarşik kümeleme dendrogramlarının karşılaştırılması

[İlk sıradaki "Hiyerarşik kümelenme ağaçları için benzerliğin ölçülmesi" başlığı daha sonra konuyu daha iyi yansıtacak şekilde @ tnphns tarafından değiştirildi] Hasta kayıtlarının bir veri çerçevesi üzerinde bir dizi hiyerarşik küme analizi yapıyorum (örneğin, http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Ağacın son kümeleri / yapısı / görünümü üzerindeki etkilerini anlamak için farklı uzaklık ölçüleri, farklı …

28 r clustering distance-functions similarities dendrogram

1

Benzerlik matrisini (öklid) uzaklık matrisine dönüştürme

Rastgele orman algoritmasında, Breiman (yazar) benzerlik matrisini şu şekilde oluşturur: Tüm öğrenim örneklerini ormandaki her ağaçtan aşağıya gönderin Eğer iki örnek aynı yaprakta topraklanırsa, benzerlik matrisindeki karşılık gelen eleman 1 ile artarsa Ağaç sayısını matrisle normalize et Diyor: N ve k vakaları arasındaki yakınlıklar bir matris oluşturur {prox (n, k)}. …

27 random-forest distance similarities euclidean

2

İkili veriler için benzerlik katsayıları: Neden Russell ve Rao yerine Jaccard'ı seçelim?

Kaynaktan İstatistiksel Bilimler Ansiklopedisi I verilen anlama iki seçenekli (ikili: 1 = mevcut; 0 = yok), herhangi bir iki nesne için bir acil durum tablosu oluşturabilir (değişkenler) özellikleri i ve j, bir numunenin:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d …

20 binary-data similarities association-measure

5

Kosinüs benzerlik matrisini hesaplayacak bir R fonksiyonu var mı? [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. Geçen yıl kapalı . Kosinüs mesafelerine dayalı sıra kümelemeli bir ısı haritası yapmak istiyorum. R'yi kullanıyorum ve heatmap.2()figür yapmak için. İçinde bir distparametre heatmap.2olduğunu görebiliyorum …

20 r clustering similarities

5

Eğriler arasındaki benzerlik ölçüleri?

İki sıralı nokta kümesi arasındaki benzerlik ölçüsünü hesaplamak istiyorum --- Kullanıcı altındaki olanlar Öğretmen altındaki ile karşılaştırıldığında : Noktalar 3D uzaydaki eğrilerdir, ancak resimdeki gibi 2 boyutta çizersem sorunun basitleştirildiğini düşünüyordum. Noktalar çakışırsa, benzerlik% 100 olmalıdır.

17 multiple-comparisons similarities curves procrustes-analysis

3

Öklid uzaklık puanı ve benzerliği

Sadece Kolektif İstihbarat (Toby Segaran tarafından) kitabıyla çalışıyorum ve Öklid uzaklık skoruyla karşılaştım. Kitapta yazar, iki öneri dizisi arasındaki benzerliğin nasıl hesaplanacağını gösterir (yani, .kişi × film ↦ puanı )kişixfilm↦Puan)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) İki kişilik Öklid mesafeyi hesaplar ve göre p1p1p_1p2p2p_2d( p1, p2) = ∑i ∈ öğe ( sp1- …

13 distance-functions similarities

4

Sıra normalleşmesinin amacı nedir

Sütun normalleşmesinin ardındaki mantığı anlıyorum, çünkü özelliklerin aynı ölçekte ölçülmemiş olsalar bile eşit olarak ağırlıklandırılmasına neden oluyor - ancak, en yakın komşu literatüründe, hem sütunlar hem de satırlar normalleştiriliyor. Satır normalleştirmesi nedir / neden satırları normalleştirmelisiniz? Özellikle, satır normalleştirmesinin sonucu satır vektörleri arasındaki benzerliği / mesafeyi nasıl etkiler?

13 normalization distance similarities k-nearest-neighbour

3

İki veri kümesi arasındaki benzerliğin nicelleştirilmesi

Özet : En iyi yöntemi bulmaya çalışmak, tek bir değer kullanarak hizalanmış iki veri kümesi arasındaki benzerliği özetler. Ayrıntılar : Sorum en iyi bir diyagramla açıklanıyor. Aşağıdaki grafikler etiketli değerleri ile iki farklı veri setleri, her gösterir nfve nr. X ekseni boyunca noktalar, ölçümlerin alındığı yeri temsil eder ve y …

12 similarities

1

Nitelikler nominal olduğunda bireyler için en uygun mesafe işlevi nedir?

Nominal (sıralanmamış kategorik) özellikler durumunda bireyler arasında hangi mesafe işlevinin kullanılacağını bilmiyorum. Bazı ders kitapları okuyordum ve Basit Eşleştirme işlevini önerdiler, ancak bazı kitaplar nominal değerleri ikili özelliklere değiştirip Jaccard Katsayısı kullanmam gerektiğini gösteriyor . Ancak, nominal özelliğin değerleri 2 değilse ne olur? bu özellikte üç veya dört değer varsa …

12 distance-functions distance similarities association-measure categorical-data

2

Mercer teoremi tersine çalışır mı?

Bir meslektaşım bir işlev vardır ve bizim için bir kara-kutu. Fonksiyon iki nesnenin benzerliğini ölçer .ssss(a,b)s(a,b)s(a,b) Biz biliyoruz emin bu özelliklere sahiptir:sss Benzerlik puanları, 0 ile 1 arasında, gerçek sayılardır. Yalnızca özdeş olan nesnelerin puanları 1'dir. Bu nedenle, , anlamına gelir ve bunun tersi de geçerlidir.s(a,b)=1s(a,b)=1s(a,b)=1a=ba=ba=b olduğu garanti edilir .s(a,b)=s(b,a)s(a,b)=s(b,a)s(a,b) …

11 kernel-trick distance similarities rbf-kernel

2

Dize kalıplarını öğrenmek için Makine Öğrenimi tekniği

Farklı tanımlanmış kategorilere ait bir kelime listem var. Her kategorinin kendi deseni vardır (örneğin biri özel karakterlerle sabit bir uzunluğa sahiptir, diğeri sadece bu "kelime", ... kategorisinde gerçekleşen karakterlerden oluşur.). Örneğin: "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" …

11 machine-learning classification similarities supervised-learning

1

ARIMA modelimdeki gözlem 48'e yenilikçi bir aykırı değeri nasıl dahil edebilirim?

Bir veri kümesi üzerinde çalışıyorum. Bazı model tanımlama tekniklerini kullandıktan sonra bir ARIMA (0,2,1) modeliyle çıktım. Orijinal veri setimin 48. gözleminde yenilikçi bir aykırı değer (IO) tespit etmek için R'deki detectIOpaketteki işlevi kullandım .TSA Öngörme amacıyla kullanabilmem için bu aykırı değeri modelime nasıl dahil edebilirim? ARIMAX modelini kullanmak istemiyorum çünkü …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

3

Zaman serileri arasındaki benzerlikler nasıl bulunur?

Aşağıdaki örnekte, okyanusta 5 derinlikte kaydedilen ve her değerin Temptarihe DateTimeve derinliğe karşılık geldiği bir zaman serisi su sıcaklığı ölçümlerinden oluşan bir veri çerçevem var Depth. set.seed(1) Temp <- rnorm(43800,sd=20) AirT <- rnorm(8760,sd=20) Depth <- c(1:5) DateTime = seq(from=as.POSIXct("2010-01-01 00:00"), to=as.POSIXct("2010-12-31 23:00"), length=8760) Time <- as.POSIXct(DateTime, format = "%Y-%m-%d %H:%M") …

10 r time-series correlation similarities

«similarities» etiketlenmiş sorular