«sampling» etiketlenmiş sorular

4
Gürültü Karşıtlığı Tahmini (NCE) kaybının sezgisel açıklaması?
Bu iki kaynaktan NCE'yi (bir aday örnekleme şekli) okudum: Tensorflow yazımı Orjinal kağıt Birisi bana şu konuda yardımcı olabilir: NCE'nin nasıl çalıştığının basit bir açıklaması (Yukarıdakileri ayrıştırmanın ve anlamanın zor olduğunu gördüm, bu yüzden orada sunulan matematiğe yol açan sezgisel bir şey harika olurdu) Yukarıdaki 1. maddeden sonra, bunun Negatif …

2
train_test_split () hatası: Tutarsız sayıda örnek içeren girdi değişkenleri bulundu
Python için oldukça yeni ama bazı sınıflandırma verilerine dayanarak ilk RF modelimi oluşturuyorum. Tüm etiketleri int64 sayısal verilere dönüştürdüm ve numpy dizi olarak X ve Y'ye yükledim, ancak modelleri eğitmeye çalıştığımda bir hataya çarpıyorum. Dizilerim şöyle görünüyor: >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) …

1
Tabakalı örnekleme gerekli mi (rastgele orman, Python)?
Dengesiz veri kümemde rastgele bir orman modeli çalıştırmak için Python kullanıyorum (hedef değişken ikili bir sınıftı). Eğitim ve test veri kümesini böldüğümde, katmanlı örnekleme (gösterilen kod gibi) kullanıp kullanmama konusunda mücadele ettim. Şimdiye kadar, projemde tabakalı vakanın daha yüksek bir model performansına yol açacağını gözlemledim. Ancak, modelimi, hedef sınıfın mevcut …

1
Rastgele Ormanları kullanarak örnekleme yapmak için kaç özellik
Vikipedi sayfası tırnak "İstatistiksel Öğrenme Unsurları" diyor: Genellikle, özelliklerine ilişkin bir sınıflandırma sorunu için her özellikleri kullanılır.ppp⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Bunun oldukça iyi eğitimli bir tahmin olduğunu ve muhtemelen ampirik kanıtlarla doğrulandığını anlıyorum, ancak birinin kare kökü seçmesinin başka nedenleri var mı? Orada meydana gelen istatistiksel bir olay var mı? Bu bir …

3
Dengesiz sınıfta, doğrulama / test veri kümelerimde örnekleme altında kullanmak zorunda mıyım?
Makine öğrenimine yeni başlıyorum ve bir durumla karşı karşıyayım. IPinYou veri kümesi ile bir Gerçek Zamanlı Teklif sorunu üzerinde çalışıyorum ve bir tıklama tahmini yapmaya çalışıyorum. Mesele şu ki, bildiğiniz gibi, veri kümesi çok dengesiz: 1 olumlu örnek (tıklama) için yaklaşık 1300 negatif örnek (tıklama yok). Bu benim işim: Verileri …

2
neden veri dengesizliğini ele almamız gerekiyor?
Veri dengesizliği ile neden uğraşmamız gerektiğini bilmem gerekiyor. Bununla nasıl başa çıkacağımı ve yukarı örnekleme ya da aşağı örnekleme ya da Smote kullanarak sorunu çözmek için farklı yöntemler biliyorum. Örneğin, 100 hastalığın yüzde 1'inde nadir bir hastalığım varsa ve eğitim setim için dengeli bir veri seti oluşturmaya karar verdiğimi varsayalım: …

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Python için kullanıma hazır iyi dil modelleri var mı?
Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
Veri kümesini ne zaman dengesiz olarak değerlendirmeliyiz?
Veri kümesindeki olumlu ve olumsuz örneklerin sayısının dengesiz olduğu bir durumla karşı karşıyayım. Benim sorum, veri kümesinde bir tür dengelemeyi zorlamak için büyük kategoriyi ne zaman alt örneklememiz gerektiğini bize gösteren herhangi bir başparmak kuralı var. Örnekler: Olumlu örneklerin sayısı 1.000 ve negatif örneklerin sayısı 10.000 ise, sınıflandırıcımı tam veri …

2
Çapraz doğrulama: K-katına karşı Tekrarlanan rastgele alt örnekleme
Sınıflandırma problemi için hangi model çapraz doğrulamayı seçeceğinizi merak ediyorum: K-katlamalı veya rastgele alt örnekleme (bootstrap örneklemesi)? En iyi tahminim, veri setinin 2 / 3'ünü (~ 1000 öğedir) ve 1/3'ü doğrulama için kullanmaktır. Bu durumda K-katlama sadece üç iterasyon (katlama) verir, bu da kararlı ortalama hatayı görmek için yeterli değildir. …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.