«nlp» etiketlenmiş sorular

Doğal dil işleme (NLP), bilgisayarlar ve insan (doğal) diller arasındaki etkileşimlerle ilgili bir bilgisayar bilimi, yapay zeka ve dilbilim alanıdır. Bu nedenle, NLP insan-bilgisayar etkileşimi alanı ile ilgilidir. NLP'deki birçok zorluk doğal dil anlayışını, yani bilgisayarların insan veya doğal dil girdisinden anlam çıkarmasını ve diğerlerinin doğal dil üretilmesini içerir.

4
Gizli Dirichlet Tahsisi - Hiyerarşik Dirichlet Süreci
Gizli Dirichlet Tahsisi (LDA) ve Hiyerarşik Dirichlet Süreci (HDP) hem konu modelleme süreçleridir. En büyük fark LDA'nın konu sayısının belirtilmesini gerektirmesi ve HDP'nin gerektirmemesi. Neden böyle? Ve her iki konu modelleme yönteminin farklılıkları, artıları ve eksileri nelerdir?
49 nlp  topic-model  lda 


1
Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?
100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Özgeçmiş verilerine dayanarak iş sınıflandırmasını yapmak için hangi algoritmaları kullanmalıyım?
Not: R'de her şeyi yapıyorum. Sorun şöyle devam ediyor: Temel olarak, özgeçmişlerin bir listesi (CV) var. Bazı adaylar daha önce iş tecrübesine sahip olacak, bazıları ise işe yaramayacak. Buradaki amaç: Özgeçmişlerindeki metinlere dayanarak, onları farklı iş sektörlerine göre sınıflandırmak istiyorum. Özellikle adayların herhangi bir deneyime sahip olmadığı / öğrenci olmadığı …


3
Transformatör modelindeki konumsal kodlama nedir?
Makaleyi okumaya ve anlamaya çalışıyorum. Dikkat etmeniz gereken tek şey ve içinde bir resim var: Konumsal kodlamanın ne olduğunu bilmiyorum . Bazı youtube videolarını dinleyerek, bir kelimenin hem anlamını hem de konumunu içeren bir gömme olduğunu ve bununla ilgili bir şey olduğunu öğrendim.s i n ( x )sin(x)sin(x) veya c …

4
Adlandırılmış Varlık Tanıma için Word2Vec
Adlandırılmış bir varlık tanıma sistemi oluşturmak için google’ın word2vec uygulamasını kullanmak istiyorum. Yapısal geri yayılımlı özyinelemeli sinir ağlarının adlandırılmış varlık tanıma görevleri için uygun olduğunu duydum, ancak bu tür bir model için iyi bir uygulama ya da iyi bir eğitim bulamadım. Atipik bir korpusla çalışıyorum, NLTK ve benzeri standart NER …


3
Word2Vec için daha iyi bir girdi nedir?
Bu daha genel bir NLP sorusu gibi. Word2Vec yani gömülü bir kelimeyi eğitmek için uygun girdi nedir? Bir makaleye ait tüm cümleler bir korpus'ta ayrı bir belge mi olmalı? Yoksa her makale söz konusu corpus'ta bir belge mi olmalı? Bu sadece python ve gensim kullanan bir örnektir. Corpus cümleye göre …

3
FastText pretrained modelini Gensim ile nasıl yüklerim?
Ben FastText pretrained modeli buradan Fasttext model yüklemeye çalıştım . Wiki.simple.en kullanıyorum from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Ancak, aşağıdaki hataları gösterir Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", …
21 nlp  gensim 

2
Word2vec modelini kullanarak bir kelimeyi tahmin etme
"Ben açtığınızda: bir cümle Verilen ?? kapıyı otomatik ısıtma başlar" Olası kelimelerin listesini almak istiyorum ?? bir olasılıkla. Word2vec modelinde kullanılan temel kavram, çevreleyen bağlamda verilen bir kelimeyi "tahmin etmektir". Model oluşturulduktan sonra, tahmin görevimi yeni cümleler üzerinde gerçekleştirmek için doğru bağlam vektörleri işlemi nedir? Basitçe doğrusal bir toplam mıdır? …

4
Kelimelerin anlambilimsel benzerliğini nasıl ölçebilirim?
Kelimelerin anlambilimsel benzerliğini bulmanın en iyi yolu nedir? Word2Vec iyidir, ancak ideal değildir: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to …

3
İlk anahtar kelimelere dayalı olarak alakalı kelimelerin listesi nasıl büyütülür?
Kısa bir süre önce Google E-Tablolar'da sunulan harika bir özellik gördüm : ardışık hücrelere birkaç alakalı anahtar kelime yazarak başlayın, "mavi", "yeşil", "sarı" deyin ve otomatik olarak benzer anahtar kelimeler (bu durumda) oluşturur , diğer renkler). Bu YouTube videosunda daha fazla örneğe bakın . Bunu kendi programımda çoğaltmak istiyorum. Freebase'i …

1
NLP - neden bir dur sözcüğü değil?
Konu modelleme yapmadan önce stop kelimeleri kaldırmaya çalışıyorum. Bazı olumsuzlama kelimelerinin (değil, asla, hiçbiri vb.) Genellikle durma kelimeleri olarak kabul edildiğini fark ettim. Örneğin, NLTK, spacy ve sklearn durdurma kelime listelerine "not" ekler. Ancak, aşağıdaki cümlelerden "değil" i kaldırırsak, anlamlı anlamı kaybederler ve bu konu modelleme veya duyarlılık analizi için …

3
Resmi Olmayan Metin Üzerinde Adlandırılmış Varlık Tanıma için Veri Kümesi
Şu anda resmi olmayan metinden (tweet'lere benzer bir şey) adlandırılmış varlıkları çıkarmak için bir model eğitmek için etiketli veri kümeleri arıyorum. Büyük / küçük harf ve dilbilgisi veri kümemdeki belgelerde genellikle bulunmadığından, günümüzdeki varlık tanıma sistemleri adı verilen haber makalesi ve dergi kayıtlarından biraz daha "gayriresmi" alan dışı veri arıyorum. …
18 dataset  nlp 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.