«text-mining» etiketlenmiş sorular

Kalıpları tanıyarak metin biçimindeki verilerden veri çıkarmayla ilgili bir veri madenciliği alt kümesini ifade eder. Metin madenciliğinin amacı, belirli bir belgeyi otomatik olarak bir dizi kategoriden birinde sınıflandırmak ve bu performansı dinamik olarak iyileştirerek makine öğreniminin bir örneği haline getirmektir. Bu tür metin madenciliğinin bir örneği, e-posta için kullanılan spam filtreleridir.

2
Veri Notlarını Etik ve Uygun Maliyetli Ölçekleme
Hayattaki birkaç şey bana internetten yapılandırılmış ve yapılandırılmamış verileri kazımak ve modellerimde kullanmaktan zevk veriyor. Örneğin, Veri Bilimi Araç Seti (veya RDSTKR programcıları için) IP'leri veya adresleri kullanarak çok sayıda iyi konum tabanlı veri çekmeme izin verir ve tm.webmining.pluginfor R tmpaketi, finansal ve haber verilerinin kazınmasını düzensiz hale getirir. Bu …

4
Farklı biçimlerdeki belgeleri karşılaştırırken TF-IDF ve Kosinüs Benzerliğine alternatifler
Bir kullanıcının iş becerilerini alan ve bu becerilere dayanarak onlar için en ideal kariyeri öneren küçük, kişisel bir proje üzerinde çalışıyorum. Bunu başarmak için bir iş listesi veri tabanı kullanıyorum. Şu anda, kod aşağıdaki gibi çalışır: 1) Listede belirtilen becerileri elde etmek için her iş listesinin metnini işleyin 2) Her …

3
Yapılandırılmamış metin sınıflandırması
Yapılandırılmamış metin belgelerini, yani bilinmeyen yapıdaki web sitelerini sınıflandıracağım. Sınıflandırdığım sınıfların sayısı sınırlıdır (bu noktada üçten fazla olmadığına inanıyorum). Nasıl başlayabileceğim konusunda bir önerisi olan var mı? Burada "kelime torbası" yaklaşımı uygulanabilir mi? Daha sonra, belge yapısına (belki de karar ağaçları) dayalı başka bir sınıflandırma aşaması ekleyebilirim. Mahout ve Hadoop'a …

2
Tercih Eşleme Algoritması
Üzerinde çalıştığım ve şu soruna bir çözüm oluşturmam gereken bu yan proje var. İki grup insanım var (müşterilerim). Grup , belirli bir ürünü Asatın almak ve gruplamak Bniyetindedir X. Ürün bir dizi özelliğe sahiptir x_ive amacım , tercihleri arasında Ave Beşleştirerek işlemi kolaylaştırmaktır . Ana fikir, ürününün ihtiyaçlarına daha uygun …

2
Evrişimli sinir ağı kullanarak belge sınıflandırması
Belgeleri sınıflandırmak için CNN (evriyal sinir ağı) kullanmaya çalışıyorum. Kısa metin / cümleler için CNN birçok makalede incelenmiştir. Ancak, hiçbir makalede uzun metin veya belge için CNN kullanılmamıştır. Benim sorunum, bir belgede çok fazla özellik olması. Veri kümemde her belgede 1000'den fazla simge / kelime var. Her örneği bir CNN'ye …

1
Karakter dizisinin İngilizce sözcük veya gürültü olup olmadığını belirleme
Gelecek tahmin etmek için kelime listesinden ne tür özellikler çıkarmaya çalışacaksınız, mevcut kelime mi yoksa sadece karakter karışıklığı mı? Orada bulduğum görevin tanımı var . Belirli bir kelimenin İngilizce olup olmadığını cevaplayabilecek bir program yazmalısınız. Bu kolay olurdu - sadece sözlüğe bakmanız gerekir - ancak önemli bir kısıtlama vardır: programınız …

1
word2vec'i küçük metin dosyalarına uygulama
Word2vec için tamamen yeniyim, bu yüzden lütfen benimle taşıyın. Ben 1000-3000 arasında, tweets bir dizi içeren metin dosyaları bir dizi var. Ben ortak bir anahtar kelime ("kw1") seçtim ve word2vec kullanarak "kw1" için anlamsal olarak alakalı terimler bulmak istiyor. Örneğin, anahtar kelime "elma" ise, girdi dosyasına dayalı olarak "ipad" "os" …

3
Bir hashing vectorizer ve bir tfidf vectorizer arasındaki fark nedir
Her bir belge için bir metin belgeleri grubunu kelime vektörlerine dönüştürüyorum. Ben bir TfidfVectorizer ve bir HashingVectorizer kullanarak denedim A'nın yaptığı gibi puanları HashingVectorizerdikkate almadığını anlıyorum . Hala çalışmamın nedeni , burada ve burada açıklandığı gibi, büyük veri kümeleriyle uğraşırken sağladığı esneklik . (Orijinal veri kümemde 30 milyon belge var)IDFTfidfVectorizerHashingVectorizer …

4
Metin işlemede Kümelemeyi kullanma
Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. …

3
NER için denetimsiz özellik öğrenme
Oldukça iyi sonuçlar veren el işi özelliklerimle CRF algoritması kullanarak NER sistemini uyguladım. Mesele şu ki POS etiketleri ve lemmalar da dahil olmak üzere birçok farklı özellik kullandım. Şimdi aynı NER'i farklı dil için yapmak istiyorum. Burada sorun POS etiketleri ve lemmaları kullanamıyorum. Derin öğrenme ve denetimsiz özellik öğrenme hakkında …

3
Bilimsel hesaplama için en iyi diller [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Metin-Sınıflandırma-Sorun: Word2Vec / NN en iyi yaklaşım mı?
Ben bir metin paragrafı verilen onu kategorize ve bağlam tanımlamak mümkün olacak bir sistem tasarlamak için arıyorum: Kullanıcı tarafından oluşturulan metin paragrafları (yorumlar / sorular / cevaplar gibi) ile eğitilir Eğitim setindeki her bir öğe ile etiketlenir. Örneğin ("kategori 1", "metin paragrafı") Yüzlerce kategori olacak Böyle bir sistem kurmak için …

3
Benzer belgeleri bulmak için vektör uzay modeli kosinüs tf-idf
Milyondan fazla belgeye sahip olmak Belirli bir belge için vektör uzay modelinde olduğu gibi kosinüs kullanarak benzer belgeler bulmak istiyorum d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tüm tf, bu tf-idf'deki gibi daha uzun belgelere yönelik önyargıları önlemek için artırılmış frekans kullanılarak normalleştirilmiştir : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} Tümünü önceden …

1
Denetimli öğrenme algoritmasında çoklu etiketler
Karşılık gelen konuları içeren bir metin topluluğum var. Örneğin "A rapper Tupac was shot in LA"ve olarak etiketlendi ["celebrity", "murder"]. Temel olarak her özellik vektöründe birçok etiket olabilir (aynı miktarda değil. İlk özellik vektöründe 3 etiket, ikinci 1, üçüncü 5 olabilir). Her metne karşılık gelen tek bir etiketim olsaydı, bir …

3
Günlük dosyası analizi: değer kısmını bilgi bölümünden ayıklama
Ürünlerimizden birinin birkaç günlük dosyası üzerinde veri kümesi oluşturmaya çalışıyorum. Farklı günlük dosyalarının kendi düzeni ve içeriği vardır; Onları başarıyla grupladım, sadece bir adım kaldı ... Gerçekten, günlük "mesajlar" en iyi bilgidir. Tüm bu mesajların kapsamlı bir listesine sahip değilim ve bu liste her gün değişebilir çünkü bu dayalı sabit …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.