«high-dimensional» etiketlenmiş sorular

Veriler için çok sayıda özellik veya boyut (değişken) ile ilgilidir. (Çok sayıda veri noktası için, [büyük-veri] etiketini kullanın; sorun, veriden daha fazla sayıda değişkense, [underdetermined] etiketini kullanın.)


11
Çocuğa “Boyutluluk Laneti” ni açıklayın
Boyutluluk laneti hakkında defalarca duydum, ama nasıl olduysa hala fikrini kavrayamıyorum, hepsi sisli. Bunu bir çocuğa açıklayacağınız gibi bunu en sezgisel bir şekilde açıklayabilir miyim, böylece ben (ve benim gibi kafam karışan diğerleri) bunu iyi anlayabilsin mi? DÜZENLE: Şimdi, diyelim ki çocuk bir şekilde kümelemeyi duymuş (örneğin, oyuncaklarını nasıl kümelendiğini …

7
Çok sayıda özellik (> 10K) için en iyi PCA algoritması?
Bunu daha önce StackOverflow'ta sormuştum, ancak SO'da yanıt alamadığı için burada daha uygun olabilir gibi görünüyor. İstatistik ve programlama arasındaki kesişme noktasında. PCA (Asıl Bileşen Analizi) yapmak için bazı kodlar yazmam gerekiyor. Ben tanınmış algoritmalar aracılığıyla göz ve uyguladık bu bir bildiğim kadarıyla söyleyebilirim NIPALS algoritması eşdeğerdir. İlk 2-3 ana …

3
> 50K değişkenleriyle Kement veya sırt regresyonundaki büzülme parametresi nasıl tahmin edilir?
50.000'den fazla değişkenli bir modelde Kement veya ridge regresyon kullanmak istiyorum. Bunu R'deki yazılım paketini kullanarak yapmak istiyorum. Büzülme parametresini ( ) nasıl tahmin edebilirim ?λλ\lambda Düzenlemeler: İşte anladığım nokta: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, …

3
Görselleştirme için boyutsallık azaltma, t-SNE tarafından çözülen “kapalı” bir sorun olarak mı düşünülmeli?
Boyutsallığın azaltılması için -sne algoritması hakkında çok şey okudum . MNIST gibi "klasik" veri kümelerindeki performanstan, rakamların net bir şekilde ayrılmasını sağladığı için çok etkilendim ( orijinal makaleye bakın ):ttt Ayrıca, eğittiğim bir sinir ağı tarafından öğrenilen özellikleri görselleştirmek için de kullandım ve sonuçlardan çok memnun kaldım. Yani, anladığım kadarıyla: …

1
LASSO neden mükemmel öngörücü çiftimi yüksek boyutta bulamıyor?
Mükemmel bir tahmin çifti bulabildiğini test etmek için R'de LASSO regresyonu ile küçük bir deney yapıyorum. Parite şöyle tanımlanır: f1 + f2 = sonuç Buradaki sonuç, 'yaş' adı verilen önceden belirlenmiş bir vektördür. F1 ve f2, yaş vektörünün yarısını alıp değerlerin geri kalanını 0'a ayarlayarak oluşturulur, örneğin: age = [1,2,3,4,5,6], …


4
“Boyutsallığın laneti” gerçek verilerde gerçekten var mı?
"Boyutsallığın laneti" nin ne olduğunu anlıyorum ve bazı yüksek boyutlu optimizasyon problemleri yaptım ve üstel olasılıkların zorluklarını biliyorum. Ancak, gerçek boyutların çoğunda "boyutsallığın laneti" mevcutsa şüphe ediyorum. Binlerce özelliğe sahip veri toplayabiliriz ancak özelliklerin binlerce boyuta sahip bir alana tam olarak yayılması mümkün değildir. Boyut azaltma tekniklerinin bu kadar popüler …

1
Yüksek boyutlu regresyon:
Yüksek boyutlu regresyon alanındaki araştırmaları okumaya çalışıyorum; zaman ppp daha büyüktür nnn , o, bir p>>np>>np >> n . Görünüşe göre logp/nlog⁡p/n\log p/n terimi, regresyon tahmin edicileri için yakınsama oranı açısından sıkça görülmektedir. Örneğin, burada , denklem (17) der kement uyum β^β^\hat{\beta} tatmin 1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P …

1
Boyut küfürü bazı modelleri diğerlerinden daha fazla etkiler mi?
Boyutsallık laneti hakkında okuduğum yerler, öncelikle kNN ve genel olarak doğrusal modellerle bağlantılı olarak açıklıyor. Veri kümesindeki 100k veri noktasına sahip binlerce özellik kullanarak Kaggle'daki en üst sıralayıcıları düzenli olarak görüyorum. Diğerleri arasında ağırlıklı olarak Artırılmış ağaçlar ve NN kullanırlar. Pek çok özellik çok yüksek görünüyor ve boyutsal lanetten etkileneceklerini …



2
3 boyutlu Çoklu Doğrusal Regresyon en uygun düzlem mi yoksa en uygun çizgi mi?
Profimiz, çoklu doğrusal regresyonun matematiğine, hatta geometrik temsilini ele geçirmiyor ve bu beni biraz karıştırdı. Bir yandan , daha yüksek boyutlarda bile, hala çoklu doğrusal regresyon denir . Öte yandan, örneğin ve ve için istediğimiz değerleri ekleyebilirsek , bu bize olası çözümlerin bir düzlemini vermez mi? ve bir çizgi değil?x1x2Y^= …

4
Boyut laneti: kNN sınıflandırıcı
Kevin Murphy'nin kitabını okuyorum: Machine Learning-O olasılıklı bir Perspektif. İlk bölümde yazar boyutsallığın lanetini açıklıyor ve anlamadığım bir kısım var. Örnek olarak, yazar şöyle diyor: Girişlerin bir D-boyutlu birim küp boyunca eşit olarak dağıtıldığını düşünün. Diyelim ki, istenen fraksiyonu içerene kadar x etrafında hiper küp oluşturarak sınıf etiketlerinin yoğunluğunu tahmin …

1
Beyer ve ark. çalışma: “Yüksek Boyutlu Uzayda Mesafe Metriklerinin Şaşırtıcı Davranışı Üzerine” yanıltıcı mı?
Boyutsallığın lanetinden bahsederken bu sıklıkla belirtilir ve gider (göreceli kontrast adı verilen sağ formül) limd→ ∞var ( | | Xd| |kE[ | | Xd| |k]) =0,sonra: Dmaksimumkd- DminkdDminkd→ 0limd→∞var(||Xd||kE[||Xd||k])=0,sonra:Dmaksimumdk-DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Teoremin sonucu, belirli bir sorgu noktasına olan maksimum …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.