«categorical-data» etiketlenmiş sorular

Kategorik veriler, kategori adı verilen sınırlı (genellikle sabit) sayıda olası değer alabilir. Kategorik değerler "etiket", "ölçülemez". Nominal ve ikili / ikili ölçek türleri kategoriktir. Bazı insanlar sıralı ölçeği kategorik olarak da düşünür.

13
K-Karma sayısal ve kategorik veriler için kümeleme anlamına gelir
Veri kümem, bir dizi sayısal özellik ve bir kategorik içerir. Söyle NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, nerede CategoricalAttrüç olası değerlerden birini alır: CategoricalAttrValue1, CategoricalAttrValue2veya CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ için varsayılan k-aracı kümeleme algoritması uygulamasını kullanıyorum . Sadece sayısal verilerle çalışır. Öyleyse sorum: kategorik niteliği CategoricalAttrüç sayısal (ikili) değişkene bölmek doğru IsCategoricalAttrValue1, …

3
One Hot Encoding vs LabelEncoder vs DictVectorizor ne zaman kullanılır?
Bir süredir kategorik verileri olan modeller yapıyorum ve bu durumda temel olarak bir model oluşturmadan önce bu verileri dönüştürmek için scikit-learn'ın LabelEncoder işlevini kullanıyorum. Ben arasındaki farkı anlamak OHE, LabelEncoderve DictVectorizoronlar verilere ne yaptığını açısından, ancak başka bir yere bir tekniği istihdam seçebilirsiniz zaman bana belli değil şeydir. Birinin diğerlerine …

3
Sinir ağı eğitimi için kategorik ve sürekli giriş özellikleri nasıl birleştirilir
Kategorik ve sürekli olmak üzere iki tür giriş özelliğimiz olduğunu varsayalım. Kategorik veriler bir sıcak kod A olarak temsil edilebilirken, sürekli veriler N-boyutlu uzayda sadece bir B vektörüdür. Görünüşe göre sadece concat (A, B) kullanmak iyi bir seçim değildir çünkü A, B tamamen farklı veri türleridir. Örneğin, B'den farklı olarak, …

2
Neden bir kukla değişkeni atmamız gerekiyor?
Bir regresyon modeli oluşturmak için kategorik değişkenleri kukla değişkenlere dönüştürerek halletmemiz gerektiğini öğrendim. Örnek olarak, veri kümemizde konum gibi bir değişken varsa: Location ---------- Californian NY Florida Bunları şu şekilde dönüştürmeliyiz: 1 0 0 0 1 0 0 0 1 Bununla birlikte, kaç tane kukla değişken olursa olsun, bir kukla …

1
Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)
Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye …

3
Pandalar'daki toplu sütunları toplu dönüştürme (tek etkin kodlama değil)
Scikit-learn ile karar ağacında kullanmayı planladığım tonlarca kategorik sütun içeren panda veri çerçevem ​​var. Onları sayısal değerlere dönüştürmem gerekiyor (bir sıcak vektör değil). Scikit-learn'dan LabelEncoder ile yapabilirim. Sorun çok fazla olması ve bunları manuel olarak dönüştürmek istemiyorum. Bu süreci otomatikleştirmenin kolay bir yolu ne olurdu.

3
Kategorik veriler ve sayısal veriler arasında dinamik olarak nasıl ayırt edebilirim?
Sütunlara veya veri türlerine bakılmaksızın veri dosyalarının alınmasını içeren bir proje üzerinde çalışan birini tanıyorum. Görev, herhangi bir sayıda sütun ve çeşitli veri türleriyle bir dosya almak ve sayısal veriler üzerinde özet istatistikler çıkarmaktır. Ancak, belirli sayı tabanlı veriler için dinamik olarak veri türlerinin nasıl atanacağından emin değildir. Örneğin: CITY …

3
Python için kullanıma hazır iyi dil modelleri var mı?
Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
Sabit olmayan kategorik verilerle nasıl sınıflandırma yapabilirim?
Hem kategorik hem de sayısal verilerle bir sınıflandırma problemim var. Karşılaştığım sorun, kategorik verilerimin sabit olmaması, yani etiketini tahmin etmek istediğim yeni adayın önceden gözlemlenmeyen yeni bir kategoriye sahip olabileceği anlamına geliyor. Örneğin, kategorik verilerim sexolsaydı female, mümkün olan tek etiket maleve otherne olursa olsun olurdu . Ancak, kategorik değişkenim, …

2
Pyspark'ta kategorik verileri sayısal verilere dönüştürme
Pyspark uygulamaları ile çalışmak için Ipython dizüstü bilgisayar kullanıyorum. Gelir 50k aralığının altında veya altında olup olmadığını belirlemek için çok sayıda kategorik sütun içeren bir CSV dosyası var. Gelir aralığını belirlemek için tüm girdileri alarak bir sınıflandırma algoritması yapmak istiyorum. Eşlenen değişkenler için değişkenler sözlüğü oluşturmak ve değişkenleri işlemek için …

3
Bilimsel hesaplama için en iyi diller [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.