Ülkemdeki yerel haber web sitelerini taradığım ve bir suç endeksi ve siyasi istikrarsızlık endeksi oluşturmak istediğim bu yan projem var. Projenin bilgi erişim kısmını zaten ele aldım. Benim planım:
- Denetimsiz konu çıkarımı.
- Yakın kopya tespiti.
- Denetimli sınıflandırma ve olay seviyesi (suç / politik - yüksek / orta / düşük).
Python ve sklearn kullanacağım ve bu görevler için kullanabileceğim algoritmaları zaten araştırdım. Sanırım 2. bana bir hikayenin alaka düzeyi faktörünü verebilir: bir haber ya da konu hakkında ne kadar çok haber makalesi o gün için o kadar alakalı olur.
Bir sonraki adım, sahip olduğum özelliklere dayanarak aylık, haftalık ve günlük endeksi (ülke çapında ve şehirler başına) oluşturmak ve burada "istikrarsızlık duyarlılığı" zamanla artabileceği için burada biraz kayboldum. Yani, geçen yılın önemli istikrarsızlık olayından gelen endeks bu yılki endeksten daha az olabilir. Ayrıca sabit ölçek 0-100 kullanılıp kullanılmayacağı.
Daha sonra, buna bağlı olarak olayları tahmin edebilmek istiyorum, örneğin son haftalardaki olayların ardışıklığının büyük bir olaya yol açıp açmadığı. Ancak şimdilik sınıflandırmayı çalıştırmaktan ve dizin modelini oluşturmaktan memnun olacağım.
Bir makaleye, ilgili okumalara veya düşüncelere ilişkin herhangi bir göstergeyi takdir ediyorum. Teşekkürler.
PD: Soru buraya ait değilse üzgünüm.
GÜNCELLEME : Henüz "bunu yapmak", ancak son zamanlarda bir sistemde çalışan bir grup bilim adamı aldığı bir haber vardı değil haber arşivleri kullanarak olayları tahmin ve alakalı bir belge de yayınladı Madencilik Gelecek Olaylar Tahmin Web (PDF ).