Yanıtlar:
Kelime torbası ve vektör uzayı modeli , belge gibi bir metin gövdesini karakterize etmenin farklı yönlerini ifade eder. Bunlar, Jurafsky ve Martin, 2009'un 23.1 numaralı bölümdeki bilgi alma hakkındaki 23.1 numaralı "Konuşma ve Dil İşleme" ders kitabında iyi tanımlanmıştır. Daha mantıklı bir referans Manning, Raghavan ve Schütze, 2008 tarafından "Puanlama için vektör uzayı modeli" bölümünde yer alan " Bilgi Erişimine Giriş " dir.
Kelime torbası, bir belgeden ne tür bilgileri çıkarabileceğinizi ifade eder (yani, unigram kelimeler). Vektör uzayı modeli, her belge için veri yapısını ifade eder (yani, terim ve terim ağırlık çiftlerinin bir özellik vektörü). Her iki yön de birbirini tamamlar.
Daha spesifik olarak:
Kelime torbası : Belirli bir belge için, sıralı olmayan bir kelime listesi oluşturmak üzere yalnızca unigram kelimeleri (aka terimler) çıkarırsınız. POS etiketi yok, sözdizimi yok, anlambilim yok, konum yok, bigram yok, trigram yok. Sadece unigram kelimelerin kendileri, belgeyi temsil eden bir grup kelimeyi oluşturur. Böylece: Kelimelerin torbası .
Vektör alanı modeli : Belgeden ayıkladığınız sözcüklerin torbası göz önüne alındığında, belge için her bir özelliğin bir kelime (terim) ve özelliğin değerinin bir terim ağırlık olduğu bir özellik vektörü oluşturursunuz. Ağırlık terimi şunlar olabilir:
Böylece belgenin tamamı bir özellik vektörüdür ve her özellik vektörü bir vektör uzayındaki bir noktaya karşılık gelir . Bu vektör uzayı modeli, kelime haznesindeki her terim için bir eksen olacak şekildedir ve bu nedenle vektör uzayı V boyutludur, burada V , kelime haznesinin boyutudur. Vektör daha sonra kavramsal olarak her bir vade terimi için bir özelliğe sahip V boyutlu olmalıdır . Ancak, kelime dağarcığı büyük olabileceğinden ( V = 100.000 terim sırasına göre ), bir belgenin özellik vektörü genellikle yalnızca o belgede oluşan terimleri içerecek ve yapmayan terimleri atlayacaktır. Böyle bir özellik vektörü seyrek olarak kabul edilir .
Dolayısıyla bir belgenin örnek vektör temsili şu şekilde görünebilir:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
bu örnek vektörün bir belge kimliği (örn. 42), bir temel-doğruluk etiketi (örn. politika) ve terim ve terim sıklık çiftlerini içeren özellik ve özellik değerlerinin bir listesi vardır. Burada, "eksik" kelimesinin bu belgede 2 kez meydana geldiği görülebilir.
Kelimelerin Torbasını kullanarak belge terimi matris öğesine kelime frekansı atadığınız ve Vector Space Modelinde belge terimi matris öğelerinin vektör alanındaki işlemler (nokta ürün) mantıklı olduğu sürece (tf-idf ağırlıkları) misal)?