«text-mining» etiketlenmiş sorular

Kalıpları tanıyarak metin biçimindeki verilerden veri çıkarmayla ilgili bir veri madenciliği alt kümesini ifade eder. Metin madenciliğinin amacı, belirli bir belgeyi otomatik olarak bir dizi kategoriden birinde sınıflandırmak ve bu performansı dinamik olarak iyileştirerek makine öğreniminin bir örneği haline getirmektir. Bu tür metin madenciliğinin bir örneği, e-posta için kullanılan spam filtreleridir.

2
Gizli Dirichlet Tahsisi ile bir dağıtım kutusunun şaşkınlığı nasıl hesaplanır?
Gizli Dirichlet Tahsisi (LDA) yaparken bir sınırlama örneğinin şaşkınlığını nasıl hesaplayacağım konusunda kafam karıştı. Konuyla ilgili yazılar, bana belirgin bir şeyi kaçırdığımı düşündürüyor ... Şaşkınlık, LDA için iyi bir performans ölçüsü olarak görülmektedir. Fikir, bir ayırma örneği tutmanız, LDA'nızı verilerin geri kalanında eğitmeniz ve ardından ayırmanın şaşkınlığını hesaplamanızdır. Şaşkınlık şu …

5
Büyük ölçekli metin sınıflandırması
Metin verilerim üzerinde sınıflandırma yapmak istiyorum. 300 classesSınıf başına 200 eğitim dokümanım var 60000 documents in totalve bu muhtemelen çok yüksek boyutlu verilerle sonuçlanacaktır ( 1 milyondan fazla boyutu inceliyor olabiliriz ). Boru hattında aşağıdaki adımları gerçekleştirmek istiyorum (sadece gereksinimlerimin ne olduğu hakkında bir fikir vermek için): Her belgeyi özellik …

2
Sırt regresyon sınıflandırıcısı metin sınıflandırması için neden oldukça iyi çalışıyor?
Metin sınıflandırması için bir deney sırasında, SVM, NB, kNN, vb. parametrelerle ilgili bazı basit ayarlamalar dışında, bu belirli metin sınıflandırma görevindeki her bir sınıflandırıcıyı optimize etme konusunda. Bu sonuç Dikran Marsupial'dan da bahsedildi . İstatistik arka planından gelmiyorum, çevrimiçi bazı materyalleri okuduktan sonra, bunun ana nedenlerini hala anlayamıyorum. Herkes böyle …

1
Haber hikayelerine dayanan bir suç endeksi ve siyasi istikrarsızlık endeksi oluşturmak istiyorum
Ülkemdeki yerel haber web sitelerini taradığım ve bir suç endeksi ve siyasi istikrarsızlık endeksi oluşturmak istediğim bu yan projem var. Projenin bilgi erişim kısmını zaten ele aldım. Benim planım: Denetimsiz konu çıkarımı. Yakın kopya tespiti. Denetimli sınıflandırma ve olay seviyesi (suç / politik - yüksek / orta / düşük). Python …


1
Gizli Dirichlet tahsisini kullanarak konu tahmini
LDA'yı bir belge topluluğunda kullandım ve bazı konular buldum. Kodumun çıktısı olasılıkları içeren iki matristir; bir doc-konu olasılıkları ve diğer word-konu olasılıkları. Ancak aslında bu sonuçların yeni bir belgenin konusunu tahmin etmek için nasıl kullanılacağını bilmiyorum. Gibbs örneklemesi kullanıyorum. Nasıl olduğunu bilen var mı? Teşekkürler

2
Boyutsal azaltmayı ne zaman kümeleme ile birleştiriyoruz?
Belge düzeyinde kümeleme yapmaya çalışıyorum. Doküman terim frekans matrisini oluşturdum ve bu yüksek boyutlu vektörleri k-araçları kullanarak kümelemeye çalışıyorum. Doğrudan kümeleme yerine, U, S, Vt matrislerini elde etmek için LSA'nın (Latent Semantic Analysis) tekil vektör ayrışmasını uygulamak, dağlama grafiğini kullanarak uygun bir eşik seçti ve indirgenmiş matrislere kümeleme uygulandı (özellikle …


4
Metin Madenciliği: Metinleri (örn. Haber makaleleri) yapay zeka ile nasıl kümeleyebilirim?
Pong oynamak, el yazısı rakamları ve diğer şeyleri sınıflandırmak gibi farklı görevler için bazı sinir ağları (MLP (tam bağlantılı), Elman (tekrarlayan)) inşa ettim ... Ek olarak, ilk basamaklı sinir ağlarını oluşturmaya çalıştım, örneğin çok basamaklı el yazısı notları sınıflandırmak için, ancak metinleri analiz etmek ve kümelemek için tamamen yeniyim, örneğin, …


5
Bir sınıf metin sınıflandırması nasıl yapılır?
Bir metin sınıflandırma problemiyle uğraşmak zorundayım. Bir web tarayıcısı, belirli bir alanın web sayfalarını tarar ve yalnızca bir belirli sınıfa ait olup olmadığını öğrenmek istediğim her web sayfası için. Yani, bu sınıfı Pozitif olarak adlandırırsam , taranan her web sayfası Pozitif sınıfına veya Pozitif Olmayan sınıfına aittir . Pozitif sınıfı …

3
Kısa belgeler için konu modelleri
Bu sorudan esinlenerek , çok kısa metinlerin büyük koleksiyonları için konu modelleri üzerinde herhangi bir çalışma yapılıp yapılmadığını merak ediyorum. Benim sezgim Twitter'ın bu modeller için doğal bir ilham kaynağı olması. Bununla birlikte, bazı sınırlı deneylerden, standart konu modellerinin (LDA, vb.) Bu tür veriler üzerinde oldukça düşük performans gösterdiği görülmektedir. …

2
R (tm paketi) ile metin madenciliği örnekleri
tmBir arkadaşım tarafından bir taslak kağıt okuduktan sonra, üç gün geçirdim, burada UCINET ile bir metin topluluğunu keşfetti, metin bulutlarını, iki modlu ağ grafiklerini ve Tek Değer Ayrıştırma'yı (grafiklerle, Stata kullanarak) gösterdi. Çok sayıda sorunla karşılaştım: Mac OS X'te Java ile Kartopu (stemming) veya Rgraphviz (grafikler) gibi kitaplıkların ardında sorunlar …
14 r  text-mining 

2
N-gram hangi n'de verimsiz hale gelir?
Doğal dil işleme yaparken, bir ceset alınabilir ve bir sonraki kelimenin n dizisinde meydana gelme olasılığı değerlendirilebilir. n genellikle 2 veya 3 (bigram ve trigram) olarak seçilir. Belirli bir kuruluşun bu seviyede bir kez sınıflandırılması için gereken süre göz önüne alındığında, n'inci zincir için verilerin izlenmesinin verimsiz hale geldiği bilinen …

1
Otomatik anahtar kelime çıkarma: özellik olarak kosinüs benzerliklerini kullanma
Bir belge terimi matris ve şimdi denetimli bir öğrenme yöntemi (SVM, Naive Bayes, ...) ile her belge için anahtar kelimeler ayıklamak istiyorum. Bu modelde, zaten Tf-idf, Pos etiketi, ... kullanıyorumMMM Ama şimdi nexts'i merak ediyorum. Terimler arasında kosinüs benzerlikleri olan bir matrisim var .CCC Bu benzerlikleri modelim için bir özellik …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.