Bu partiye geç kaldım, ama tc-idf kavramlarıyla oynuyordum ('hesaplama' kelimesini vurgulamak istiyorum çünkü gerçek hesaplamalar için herhangi bir kitap takip etmedim; bu yüzden biraz kapalı olabilirler ve kesinlikle {tm: Text Mining Package}belirtildiği gibi paketlerle daha kolay bir şekilde gerçekleştirilebilir ) ve bence aldım bu soru ile ilgili olabilir veya her halükarda, bunu göndermek için iyi bir yer olabilir.
AYARI: Bir var külliyat içinde 5yazılı basın, alınan uzun paragraflar text 1aracılığıyla 5gibi New York Times . İddiaya göre, bu çok küçük bir "beden", küçük bir kütüphane, tabiri caizse olduğunu ancak bu "dijital" kütüphanede girişleri rastgele değildir: Birinci ve beşinci girişleri 'sosyal kulüp' için futbol (ya da 'futbol' ile anlaşma (?) etrafında) ve daha özel olarak bugünün en büyük takımı hakkında. Mesela text 1...
"Son dokuz yıldır Messi, FC Barcelona'yı ulusal ve uluslararası unvanlara yönlendirirken, bireysel kayıtları dünya çapında görünen yollarla kırdı ..."
Çok hoş! Öte yandan, aradaki üç girişteki içeriği kesinlikle atlamak istersiniz. İşte bir örnek ( text 2):
"Teksas'taki birkaç saat içinde Bay Rubio, Bay Trump'ın pantolonunda idrar yaptığını ve durmayan Twitter mesajlarına dokunmak için yasadışı göçmenleri kullandığını söyledi ..."
Yani ne "sörf" ne pahasına olursa olsun kaçınmak için yapmanız text 1için text 2de, devam ederken Yüce Barcelona FC hakkında literatürde sevinmek için text 5?
TC-IDF: Kelimeleri her birinde textuzun vektörlere ayırdım. Daha sonra, her bir kelimenin frekansını saydı, textiçinde sadece karşılık gelen sözcüklerin textsayıldığı beş vektör (her biri için bir tane ) oluşturuldu - diğer texts'ye ait diğer tüm kelimeler sıfır olarak değerlendi. Örneğin, ilk parçacığında text 1vektörü "Messi" kelimesi için 1 sayılırken "Trump" 0 olur. Bu tc bölümüdür.
IDF parçası ayrıca, her için ayrı ayrı hesaplandı texteden küçük bir kütüphane verilen sadece sıfırdan beşe kadar, ne yazık ki belgeleri (sayar logaritmik dönüşümleri içeren, (I veri çerçeveleri olarak tedavi düşünmek) ve 5 "vektörler" sonuçlandı ) aşağıdaki gibi belirli bir kelime içeren:
01log(No. documents1+No. docs containing a word) . Doküman sayısı 5'tir. Burada OP'yetext cevap verebilecek kısım gelir: her idf hesaplaması için, dikkate alınan tutar taksitten çıkarılmıştır . Bir kelime tüm belgelerde ortaya kalırsa, onun idf hala sayesinde hepsi mevcuttu, çünkü örneğin kelime "" vardı öneme 0 - paydada s.01text
Giriş-bilge çarpma her için oldu her kelimenin önemi kütüphane öğelerin her biri için - lokal yaygın küresel nadir kelimeler .tc×idftext
KARŞILAŞTIRMALAR: Artık sadece bu "kelime önemi vektörleri" arasında nokta ürünler gerçekleştirmek meselesiydi.
Tahmin edileceği gibi, nokta ürünü text 1ile text 5oldu 13.42645ise, text 1v. text2Yalnızca oldu 2.511799.
Zorlu R kodu (taklit edecek bir şey yok) burada .
Yine, bu çok ilkel bir simülasyon, ama bence çok grafik.