Cevap çok açık: TF-IDF bazı denetimli yöntemlerle birleştirildiğinde basit terim frekanslarından daha iyi sonuçlar elde edebilir.
Kanonik örnek, belgeler arasındaki benzerliğin bir ölçümü olarak kosinüs benzerliğini kullanıyor. Belgelerin TF-IDF vektör temsili arasındaki açının kosinüsünü almak, yalnızca benzer TF'den daha yüksek hassasiyetle ilgili belgeleri başarıyla alabilir.
Bunun nedeni, IDF'nin ortak kelimelere verilen ağırlığı azaltması ve bir belgedeki alışılmadık kelimeleri vurgulamasıdır. Çoğu haber makalesi devekuşları ile ilgili değildir, bu nedenle "devekuşu" içeren bir haber makalesi olağandışıdır ve benzer belgeleri bulmaya çalışırken bunu bilmek isteriz.
Ancak standart denetimli ML teknikleri kullanılarak yapılan metin kategorizasyonu durumunda, neden korpustaki belgelerin sıklığından zayıflama neden? Öğrencinin kendisi, her bir kelimeye / kelimelerin birleşimine atanmanın önemine karar vermeyecek mi?
Bu, makine öğrenmede kilit bir noktayı göstermektedir: daha iyi özellikler daha akıllı bir algoritmayı geçme eğilimindedir. Bir ML aracı sadece giriş (ler) çıkış (lar) ile eşleştirmek için bir fonksiyon öğrenmeye çalışıyor . Eğer o kadar iyiyse, zaten temelde (veya ideal bir durumda, tam anlamıylay x y yxyxyy) o zaman görevi kendimiz ve fakir, çok çalışan bilgisayarlarımız üzerinde çok daha kolaylaştırdık! Bence bu alanın takdir edilemeyen bir bileşeni - insanlar etki alanlarından bağımsız oldukları için algoritmaları incelemek ve incelemek için çok zaman harcıyorlar, ancak verileriniz ve çözmeye çalıştığınız sorun hakkında daha fazla bilgi edinmek için yollar önerebilir görevi çok daha kolay hale getiren geliştirilmiş veri toplama veya veri sunumu - ve çok da süslü bir sofistike modeline gerek duyulmayacak kadar kolaydır.
Kolaylık sağlamak için çoğalttığım birkaç kaynak burada bulunabilir .
K. Sparck Jones. "Terim özgüllüğü ve geri alımdaki uygulamasının istatistiksel yorumu" Dokümantasyon Dergisi, 28 (1). 1972.
G. Salton ve Edward Fox ve Wu Harry Wu. Msgstr "Genişletilmiş Boolean bilgi alımı". ACM'nin İletişimi, 26 (11). 1983.
G. Salton ve MJ McGill. "Modern bilgi erişimine giriş". 1983
G. Salton ve C. Buckley. "Otomatik metin alımında terim ağırlıklandırma yaklaşımları". Bilgi İşlem ve Yönetimi, 24 (5). 1988'de tarif edilmiştir.
H. Wu ve R. Luk ve K. Wong ve K. Kwok. "TF-IDF terim ağırlıklarının uygunluk kararları alması olarak yorumlanması". Bilgi Sistemlerinde ACM İşlemleri, 26 (3). 2008.