Bu, kapsamın bir ev ödevinden bir Google boyutu projesine değişebileceği hoş bir sorundur.
Gerçekten, kelimelerin birlikte ortaya çıkmasıyla başlayabilirsiniz (örneğin, koşullu olasılık). Çok popüler oldukları için, kelimelerin çoğuyla ilişkili olarak durdurma kelimelerinin listesini aldığını hızlı bir şekilde keşfedeceksiniz . Koşullu olasılığın yükselişini kullanmak durma kelimelerini dikkate alacak, ancak ilişkiyi az sayıda hataya eğilimli hale getirecektir (vakalarınızın çoğu). Jacard'ı deneyebilirsiniz, ancak simetrik olduğu için bulamayacağı birçok ilişki olacaktır.
O zaman temel kelimeden sadece kısa mesafede ortaya çıkan ilişkileri düşünebilirsiniz. İlişkilerin genel topluluk (örn. Wikipedia) ve kullanıcıya özgü (ör. E-postaları) temelini düşünebilir (ve düşünmelisiniz).
Çok kısa zamanda, tüm önlemler iyi olduğunda ve diğerlerine göre bazı avantajlara sahip olduğunuzda, çok sayıda ilişkili önleminiz olacaktır.
Bu tür önlemleri birleştirmek için, sorunu bir sınıflandırma problemine indirmeyi seviyorum.
Kelimelerin paris veri kümesini oluşturmalı ve bunları "ilişkili" olarak etiketlemelisiniz. Büyük bir etiketlenmiş veri kümesi oluşturmak için şunları yapabilirsiniz:
- Pozitif değerler için bilinen ilgili kelimelerin kaynaklarını (ör. Eski eski Wikipedia kategorileri) kullanın
- İlişkili olarak bilinmeyen kelimelerin çoğu birbiriyle ilişkili değildir.
Ardından, sahip olduğunuz tüm önlemleri çiftlerin özellikleri olarak kullanın. Şimdi denetimli sınıflandırma problemi alanındasınız. Veri kümesinde bir sınıflandırıcı oluşturun, ihtiyaçlarınıza göre değerlendirin ve ihtiyaçlarınıza uygun bir benzerlik ölçüsü alın.