Bu partiye geç kaldım, ama tc-idf kavramlarıyla oynuyordum ('hesaplama' kelimesini vurgulamak istiyorum çünkü gerçek hesaplamalar için herhangi bir kitap takip etmedim; bu yüzden biraz kapalı olabilirler ve kesinlikle {tm: Text Mining Package}
belirtildiği gibi paketlerle daha kolay bir şekilde gerçekleştirilebilir ) ve bence aldım bu soru ile ilgili olabilir veya her halükarda, bunu göndermek için iyi bir yer olabilir.
AYARI: Bir var külliyat içinde 5
yazılı basın, alınan uzun paragraflar text 1
aracılığıyla 5
gibi New York Times . İddiaya göre, bu çok küçük bir "beden", küçük bir kütüphane, tabiri caizse olduğunu ancak bu "dijital" kütüphanede girişleri rastgele değildir: Birinci ve beşinci girişleri 'sosyal kulüp' için futbol (ya da 'futbol' ile anlaşma (?) etrafında) ve daha özel olarak bugünün en büyük takımı hakkında. Mesela text 1
...
"Son dokuz yıldır Messi, FC Barcelona'yı ulusal ve uluslararası unvanlara yönlendirirken, bireysel kayıtları dünya çapında görünen yollarla kırdı ..."
Çok hoş! Öte yandan, aradaki üç girişteki içeriği kesinlikle atlamak istersiniz. İşte bir örnek ( text 2
):
"Teksas'taki birkaç saat içinde Bay Rubio, Bay Trump'ın pantolonunda idrar yaptığını ve durmayan Twitter mesajlarına dokunmak için yasadışı göçmenleri kullandığını söyledi ..."
Yani ne "sörf" ne pahasına olursa olsun kaçınmak için yapmanız text 1
için text 2
de, devam ederken Yüce Barcelona FC hakkında literatürde sevinmek için text 5
?
TC-IDF: Kelimeleri her birinde text
uzun vektörlere ayırdım. Daha sonra, her bir kelimenin frekansını saydı, text
içinde sadece karşılık gelen sözcüklerin text
sayıldığı beş vektör (her biri için bir tane ) oluşturuldu - diğer text
s'ye ait diğer tüm kelimeler sıfır olarak değerlendi. Örneğin, ilk parçacığında text 1
vektörü "Messi" kelimesi için 1 sayılırken "Trump" 0 olur. Bu tc bölümüdür.
IDF parçası ayrıca, her için ayrı ayrı hesaplandı text
eden küçük bir kütüphane verilen sadece sıfırdan beşe kadar, ne yazık ki belgeleri (sayar logaritmik dönüşümleri içeren, (I veri çerçeveleri olarak tedavi düşünmek) ve 5 "vektörler" sonuçlandı ) aşağıdaki gibi belirli bir kelime içeren:
01log(No. documents1+No. docs containing a word) . Doküman sayısı 5'tir. Burada OP'yetext
cevap verebilecek kısım gelir: her idf hesaplaması için, dikkate alınan tutar taksitten çıkarılmıştır . Bir kelime tüm belgelerde ortaya kalırsa, onun idf hala sayesinde hepsi mevcuttu, çünkü örneğin kelime "" vardı öneme 0 - paydada s.01text
Giriş-bilge çarpma her için oldu her kelimenin önemi kütüphane öğelerin her biri için - lokal yaygın küresel nadir kelimeler .tc×idftext
KARŞILAŞTIRMALAR: Artık sadece bu "kelime önemi vektörleri" arasında nokta ürünler gerçekleştirmek meselesiydi.
Tahmin edileceği gibi, nokta ürünü text 1
ile text 5
oldu 13.42645
ise, text 1
v. text2
Yalnızca oldu 2.511799
.
Zorlu R kodu (taklit edecek bir şey yok) burada .
Yine, bu çok ilkel bir simülasyon, ama bence çok grafik.