«dimensionality-reduction» etiketlenmiş sorular

Boyut azaltma, birçok değişkeni mümkün olduğunca fazla bilgi tutarken daha küçük bir sayıya indirgeme tekniklerini ifade eder. Öne çıkan yöntemlerden biri [tag pca]


6
SVD ve PCA büyük verilerle nasıl yapılır?
Çok büyük miktarda veriye sahibim (yaklaşık 8GB). Analiz etmek için makine öğrenmeyi kullanmak istiyorum. Bu nedenle, verimlilik için veri boyutsallığını azaltmak için önce SVD'yi, sonra PCA'yı kullanmam gerektiğini düşünüyorum. Ancak, MATLAB ve Octave, bu kadar büyük bir veri setini yükleyemiyor. SVD'yi bu kadar büyük miktarda veriyle yapmak için hangi araçları …

6
Sevdikleri Facebook sitelerine dayanarak kullanıcıların yaşını tahmin etmek için makine öğrenme teknikleri
Facebook uygulamamdan bir veritabanım var ve hangi Facebook sitelerini beğendiklerini temel alarak kullanıcıların yaşlarını tahmin etmek için makine öğrenmeyi kullanmaya çalışıyorum. Veritabanımın üç önemli özelliği var: Eğitim setimdeki yaş dağılımı (toplamda 12 bin kullanıcı) daha genç kullanıcılara çarpıyor (yani 27 yaşımda 1157, 65 yaşımda 23 kullanıcı var); birçok sitenin 5'den …

7
Yüksek boyutlu verileri görselleştirmenin amacı?
T-SNE, isomap, PCA, denetimli PCA, vb. Gibi yüksek boyutlu veri kümelerini görselleştirmek için birçok teknik var. Verileri 2B veya 3B alana yansıtma hareketlerini gerçekleştiriyoruz, bu yüzden "güzel resimlerimiz var" ". Bu yerleştirme (manifold öğrenme) yöntemlerinden bazıları burada açıklanmaktadır . Ama bu "güzel resim" aslında anlamlı mı? Birisi bu gömülü alanı …

1
T-sne boyutları anlamlı mı?
T-sne gömme boyutları için bir anlam var mı? PCA'da olduğu gibi, doğrusal olarak dönüştürülmüş varyans maksimizasyonu hissine sahibiz, ancak t-sne için KL mesafesinin haritalanması ve en aza indirilmesi için tanımladığımız alanın yanı sıra sezgi var mı?

4
Devasa veriler için python'da t-sne uygulama hızını artırın
Her biri 200 boyutlu ( doc2vec) olan yaklaşık 1 milyon vektörde boyutsal küçültme yapmak istiyorum . Bunun için modülden TSNEuygulama kullanıyorum sklearn.manifoldve asıl sorun zaman karmaşıklığı. Bununla birlikte method = barnes_hut, hesaplama hızı hala düşüktür. Bir süre Bellek yetersiz bile. 130G RAM ile 48 çekirdekli bir işlemcide çalıştırıyorum. Bunu paralel …

3
En yakın komşular çok yüksek boyutlu veriler arar
Kullanıcıların ve beğendikleri öğelerin büyük bir seyrek matrisine sahibim (1M kullanıcıları ve 100K öğelerinde, çok düşük bir seviyede sparlite ile). Üzerinde kNN araması yapabileceğim yolları araştırıyorum. Veri setimin boyutu ve yaptığım bazı ilk testler göz önüne alındığında, benim kullanacağım yöntemin ya paralel ya da dağıtılmış olması gerektiği varsayımıdır. Bu yüzden …

5
Özellik seçimi ve Özellik çıkarma. Ne zaman kullanılır?
Özellik çıkarma ve özellik seçimi, temel olarak verilerin boyutsallığını azaltır, ancak özellik çıkarma, eğer haklıysam, verileri daha ayrılabilir hale getirir. Hangi teknik diğerine ve ne zaman tercih edilir ? Özellik seçimi orijinal verileri ve özelliklerini değiştirmediği için, üzerinde çalıştığınız özelliklerin değişmemesi önemli olduğunda özellik seçimini kullanacağınızı düşünüyorum. Ama neden böyle …

1
T-SNE görselleştirmesinde daha yakın noktaların daha benzer olduğu düşünülebilir mi?
Hinton'un makalesinden, T-SNE'nin yerel benzerlikleri korumak için iyi bir iş yaptığını ve küresel yapıyı (kümeleme) korumak için iyi bir iş yaptığını anlıyorum. Ancak bir 2D t-sne görselleştirmede daha yakın görünen noktaların "daha benzer" veri noktaları olarak kabul edilip edilemeyeceği net değil. 25 özellikli veri kullanıyorum. Örnek olarak, aşağıdaki görüntüyü gözlemleyerek, …

2
Yüksek boyutlu veriler: Bilinmesi gereken faydalı teknikler nelerdir?
Çeşitli boyutsallık küfürleri nedeniyle , yaygın öngörücü tekniklerin çoğunun doğruluğu ve hızı yüksek boyutlu verilerde bozulmaktadır. Yüksek boyutlu verilerle etkili bir şekilde başa çıkmaya yardımcı olan en kullanışlı teknikler / püf noktaları / buluşsal yöntemler nelerdir? Örneğin, Bazı istatistiksel / modelleme yöntemleri yüksek boyutlu veri kümelerinde iyi performans gösteriyor mu? …

3
Boyut küçültme için otomatik kodlayıcılar neden simetriktir?
Hiçbir şekilde otomatik kodlayıcılarda veya sinir ağlarında uzman değilim, bu yüzden aptalca bir soru ise beni affet. Boyut küçültme veya yüksek boyutlu verilerdeki kümeleri görselleştirme amacıyla, ağ katmanının çıktısını 2 düğümle inceleyerek (kayıplı) 2 boyutlu bir gösterim oluşturmak için bir otomatik kodlayıcı kullanabiliriz. Örneğin, aşağıdaki mimariyle, üçüncü katmanın çıktısını inceleyeceğiz …

4
Büyük kategorik değerler için bir sıcak kodlama alternatifi?
Merhaba 1600 kategoriler üzerinde büyük kategorik değerlere sahip veri çerçevesi var Ben 1600 sütunları yok böylece alternatifleri bulabilirsiniz herhangi bir yolu yoktur. Bunu aşağıda ilginç bir bağlantı buldum http://amunategui.github.io/feature-hashing/#sourcecode Ama istemediğim sınıfa / nesneye dönüşüyorlar. Nihai çıktımı bir veri çerçevesi olarak istiyorum, böylece farklı makine öğrenme modelleri ile test yapabilir …

2
Büyük veri kümesi için etkili boyutsallık azaltma
~ 1M satır ve ~ 500K seyrek özelliklere sahip bir veri setim var. 1K-5K yoğun özellik sırasına göre boyutlandırmayı bir yere azaltmak istiyorum. sklearn.decomposition.PCAseyrek veriler üzerinde çalışmaz ve kullanmayı denedim sklearn.decomposition.TruncatedSVDama oldukça hızlı bir şekilde bellek hatası alıyorum. Bu ölçekte etkili boyutsallık azaltma seçeneklerim nelerdir?

3
Python için kullanıma hazır iyi dil modelleri var mı?
Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.