Örneğin, programlama ile ilgili diğer dizelerle programlama hakkında dizeleri, fizikle ilgili dizeleri fizikle ilgili diğer dizelerle vb. Gruplandırmaya çalışıyorum. Sorunun göze çarpan teorik dilsel yönüne rağmen, aslında bunu programlama / yazılım kullanarak yapmak istiyorum.
Özet: Çok sayıda dizge göz önüne alındığında, bunları semantik temaya göre gruplandırmaya nasıl giderim?
Özel uygulama: Ben ortak gruplara (otomobiller, bilgisayarlar, politika, Kanada, gıda, Barack Obama, vb.) Kategorize etmek istiyorum ~ 200k trivia sorularım var.
Neye baktım: Vikipedi (yapmaya çalıştığım şeyin aslında NLP olduğunu varsayarak) doğal dil işleme araç takımlarının bir listesini var, bu yüzden birkaçına baktım ama hiçbiri ihtiyaçlarıma benzer bir şey yapmıyor gibi görünüyor.
Notlar: Bunu yapmanın ek bilgi gerektirdiğine dikkat çekilmiştir (örneğin, bir Porsche otomobil, C ++ bir programlama dili). O zaman eğitim verilerinin gerekli olduğunu varsayıyorum, ancak yalnızca soru ve cevap listem varsa, eğitim verilerini nasıl oluşturabilirim? Ve sonra eğitim verilerini nasıl kullanırım?
Daha fazla not: Soru ve Cevap yardımımın geçerli biçimlendirmesi (JSON gibi görünse de, temelde bir ham metin dosyasıdır):
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
Ancak birisi zaten bir kategori olduğunu belirtmeden önce, bunun gibi ~ 200 bin soru ve cevap olduğunu ve temelde birçok "kategori" olduğunu unutmayın. Bunları yukarıda listelenenler gibi daha geniş gruplara ayırmaya çalışıyorum. Ayrıca, bu biçimlendirme tüm sorular için çok kolay bir şekilde değiştirilebilir, programlı olarak yaparım.
Ve daha fazla not: Aslında kaç kategoriye ihtiyacım olacağını bilmiyorum (en az 10-20), çünkü tüm soruları kendim okumadım . Kısmi olarak, sınıflandırma sırasında sonlu sayının bir şekilde belirlenmesini bekliyordum. Her durumda, her zaman manuel olarak bir dizi kategori oluşturabilirim.