«natural-language» etiketlenmiş sorular

Doğal Dil İşleme, dil, yapay zeka, makine öğrenimi ve istatistiklerden insan dillerini işlemeyi ve anlamayı amaçlayan bir dizi tekniktir.

2
SpaCy'deki benzerlik yöntemi nasıl hesaplanır?
Bu doğru yığın sitesi olup olmadığından emin değilsiniz, ama işte gidiyor. .Similiarity yöntemi nasıl çalışır? Vay canına, harika! Onun tfidf modeli daha kolay olabilir, ama sadece bir kod satırı ile w2v ?! Onun içinde Spacy 10 hat öğretici andrazhribernik gösterisi bize jeton, rak yüzlerce, kelime parçaları ve dokümanlar üzerinde çalıştırılabilir …


2
Zaman içinde kesilmiş geri yayılım (RNN / LSTM) kullanırken ilk kalıpların yakalanması
Çoktan bire yaklaşım olan duyarlılık analizi yapmak için bir RNN / LSTM kullandığımı varsayalım ( bu bloga bakınız ). Ağ, zaman içinde kesilmiş bir geri yayılım (BPTT) ile eğitilir; burada ağ, her zamanki gibi son 30 adımda açılır. Benim durumumda sınıflandırmak istediğim metin bölümlerimin her biri, açılmakta olan 30 adımdan …

2
N-gram neden kelimeler yerine metin dili tanımlamasında kullanılıyor?
İki popüler dil tanımlama kütüphanesinde, C ++ için Compact Language Detector 2 ve java için dil dedektörü , her ikisi de metin özelliklerini ayıklamak için (karakter tabanlı) n-gram kullandı. Neden bir kelime torbası (tek kelime / sözlük) kullanılmaz ve kelime torbası ve n-gramın avantajı ve dezavantajı nedir? Ayrıca, n-gram modelinin …

2
Sinir ağları çoklu etiket sınıflandırma problemlerine nasıl uygulanır?
Açıklama: Her biri 1 veya daha fazla sınıfa ait bir dizi özellik vektörü olduğunda sorunlu alan adı belge sınıflandırması olsun. Örneğin, bir belge ve kategorilere doc_1ait olabilir .SportsEnglish Soru: Sınıflandırma için sinir ağı kullanmak, etiket bir özellik vektörü için ne olurdu? ilgili olmayan sınıflara 0, ilgili sınıflara 1 değer verilecek …

3
Word2Vec'in atlama gram modeli çıktı vektörlerini nasıl oluşturur?
Word2Vec algoritmasının atlama gram modelini anlamada sorunlar yaşıyorum. Sürekli kelime torbasında, bağlam kelimelerinin Sinir Ağı'na nasıl "sığabileceğini" görmek kolaydır, çünkü tek bir sıcak kodlama gösterimlerinin her birini W giriş matrisi ile çarptıktan sonra temel olarak ortalamalandırırsınız. Bununla birlikte, atlama-gram söz konusu olduğunda, giriş kelimesi vektörünü yalnızca bir sıcak kodlamayı giriş …

1
Performans açısından Word gömme algoritmaları
Kabaca 60 milyon ibareyi bir vektör boşluğuna yerleştirmeye çalışıyorum , sonra aralarındaki kosinüs benzerliğini hesaplıyorum . Ben sklearn's CountVectorizerunigram ve bigram üreten özel inşa tokenizer fonksiyonu ile kullanıyorum. Anlamlı temsiller elde etmek için, çok sayıda sütuna izin vermem gerekiyor, satır sayısı bakımından doğrusal. Bu inanılmaz derecede seyrek matrislere yol açar …

1
Beklenti Maksimizasyon Açıklama
EM algoritması ile ilgili çok faydalı bir eğitim buldum . Örnek ve öğretici resim sadece parlak. Olasılıkların hesaplanması ile ilgili soru Beklenti maksimizasyonu nasıl çalışır? Öğreticide açıklanan teorinin örneğe nasıl bağlanacağıyla ilgili başka bir sorum var. E aşaması sırasında, EM bir işlev seçer bu alt sınır , her yerde, ve …

1
SVD'den önce bir kelime eşgüdüm matrisine noktasal karşılıklı bilgi uygulamanın avantajları ve dezavantajları nelerdir?
Kelime düğünleri oluşturmanın bir yolu aşağıdaki gibidir ( ayna ): Bir şirket alın, örneğin "Uçmayı seviyorum. NLP'yi seviyorum. Derin öğrenmeyi seviyorum." Bundan cooccurrence matrisi kelimesini oluşturun: SVD gerçekleştirin ve U'nun ilk sütunlarını koruyun.XXXkkk alt her satırı , satırın temsil ettiği kelimenin gömme sözcüğü olacaktır (satır 1 = "I", satır 2 …

2
Kelimelerin Sürekli Çantası hakkında soru
Bu cümleyi anlamakta güçlük çekiyorum: Önerilen ilk mimari, doğrusal olmayan gizli katmanın kaldırıldığı ve projeksiyon katmanının tüm kelimeler (yalnızca projeksiyon matrisi için değil) paylaşıldığı ileri beslemeli NNLM'ye benzer; böylece, tüm kelimeler aynı pozisyona yansıtılır (vektörlerinin ortalaması alınır). Projeksiyon katmanı vs projeksiyon matrisi nedir? Tüm kelimelerin aynı konuma yansıtıldığını söylemek ne …

2
LSTM kullanarak dil modelleme görevlerinde bilinmeyen kelimeleri işleme
Doğal bir dil işleme (NLP) görevi için sözcükler için gömme olarak genellikle word2vec vektörleri kullanılır. Bununla birlikte, word2vec vektörleri tarafından yakalanmayan birçok bilinmeyen kelime olabilir, çünkü bu kelimeler eğitim verilerinde yeterince sık görülmemektedir (birçok uygulama, kelimeye bir kelime eklemeden önce minimum sayıyı kullanır). Bu, özellikle kelimelerin genellikle yanlış yazıldığı Twitter'dan …

5
Kelime sıklığı verilerindeki dağılım nasıl ölçülür?
Kelime sayımlarının bir vektöründeki dağılım miktarını nasıl ölçebilirim? Sıklıkla ortaya çıkan bir kelime (veya birkaç kelime) içerdiğinden, nadiren ortaya çıkan birçok farklı kelime ve B belgesi için düşük olduğu için A belgesi için yüksek olacak bir istatistik arıyorum. Daha genel olarak, nominal verilerdeki dağılım veya "yayılma" nasıl ölçülür? Bunu metin …

1
TF-IDF logaritmasında logaritma kullanımını anlama
Ben okuyordum: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ama formülün neden böyle inşa edildiğini tam olarak anlayamıyorum. Ne Anlıyorum: iDF bir düzeyde belgelerin her birinde S teriminin ne sıklıkta göründüğünü ölçmeli ve terim daha sık göründükçe değeri düşmelidir. Bu açıdan iDF(S)=# of Documents# of Documents containing SiDF(S)=# of Documents# of Documents containing S iDF(S) = …

3
Metin belgesi için özellik vektörü oluşturmak için bigram (N-gram) modeli kullanma ile ilgili
Metin madenciliği için geleneksel özellik yapım yaklaşımı, kelime torbası yaklaşımıdır ve belirli bir metin belgesini karakterize eden özellik vektörünü ayarlamak için tf-idf kullanılarak geliştirilebilir. Şu anda, özellik vektörü oluşturmak için bi-gram dil modeli veya (N-gram) kullanmaya çalışıyorum, ancak bunu nasıl yapacağımı tam olarak bilmiyorum? Sadece kelime torbası yaklaşımını izleyebilir miyiz, …

2
Dizeleri ortak temalara göre nasıl gruplandırabilirim?
Örneğin, programlama ile ilgili diğer dizelerle programlama hakkında dizeleri, fizikle ilgili dizeleri fizikle ilgili diğer dizelerle vb. Gruplandırmaya çalışıyorum. Sorunun göze çarpan teorik dilsel yönüne rağmen, aslında bunu programlama / yazılım kullanarak yapmak istiyorum. Özet: Çok sayıda dizge göz önüne alındığında, bunları semantik temaya göre gruplandırmaya nasıl giderim? Özel uygulama: …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.