Haber hikayelerine dayanan bir suç endeksi ve siyasi istikrarsızlık endeksi oluşturmak istiyorum

Ülkemdeki yerel haber web sitelerini taradığım ve bir suç endeksi ve siyasi istikrarsızlık endeksi oluşturmak istediğim bu yan projem var. Projenin bilgi erişim kısmını zaten ele aldım. Benim planım:

Denetimsiz konu çıkarımı.
Yakın kopya tespiti.
Denetimli sınıflandırma ve olay seviyesi (suç / politik - yüksek / orta / düşük).

Python ve sklearn kullanacağım ve bu görevler için kullanabileceğim algoritmaları zaten araştırdım. Sanırım 2. bana bir hikayenin alaka düzeyi faktörünü verebilir: bir haber ya da konu hakkında ne kadar çok haber makalesi o gün için o kadar alakalı olur.

Bir sonraki adım, sahip olduğum özelliklere dayanarak aylık, haftalık ve günlük endeksi (ülke çapında ve şehirler başına) oluşturmak ve burada "istikrarsızlık duyarlılığı" zamanla artabileceği için burada biraz kayboldum. Yani, geçen yılın önemli istikrarsızlık olayından gelen endeks bu yılki endeksten daha az olabilir. Ayrıca sabit ölçek 0-100 kullanılıp kullanılmayacağı.

Daha sonra, buna bağlı olarak olayları tahmin edebilmek istiyorum, örneğin son haftalardaki olayların ardışıklığının büyük bir olaya yol açıp açmadığı. Ancak şimdilik sınıflandırmayı çalıştırmaktan ve dizin modelini oluşturmaktan memnun olacağım.

Bir makaleye, ilgili okumalara veya düşüncelere ilişkin herhangi bir göstergeyi takdir ediyorum. Teşekkürler.

PD: Soru buraya ait değilse üzgünüm.

GÜNCELLEME : Henüz "bunu yapmak", ancak son zamanlarda bir sistemde çalışan bir grup bilim adamı aldığı bir haber vardı değil haber arşivleri kullanarak olayları tahmin ve alakalı bir belge de yayınladı Madencilik Gelecek Olaylar Tahmin Web (PDF ).

machine-learning classification text-mining

— Rolando Max
kaynak

Teknik bölüm (araçlar) için O'Reiley'den iyi bir başlangıç noktası olarak iki kitap öneriyorum: Kolektif Zeka (Python kodu ile), Makine Öğrenimi (R kodu ile) ... seninle ilgili konuları yakala. Bir sonraki adım Manning web sitesi olabilir ... Metodolojik kısım için LinkedIn'deki Semantic Web grubunu tavsiye ederim.

— Radu Marius Florin

Süper bu soruya çok benziyor. Bizi güncel tutun !!

— entropi

GINI skorundaki varyasyonları düşünün.

Normalize edilir ve çıkışı 0 ila 1 arasındadır.

DÜZENLE:

GINI neden "havalı" veya en azından potansiyel olarak uygun:

Bu bir eşitsizlik veya eşitsizlik ölçüsüdür. Sonsuz ve rasgele ağlar dahil ölçeksiz ağların heterojenliğini karakterize etmek için ölçeksiz bir ölçü olarak kullanılır. Belirli bir veri bölünmesinin bölme gücünün ölçüsü olduğundan CART ağaçlarının yapımında kullanışlıdır.

Aralığı nedeniyle:

daha az yuvarlama hatası var. 1.0'dan uzak aralıklar sayısal sorunlara maruz kalma eğilimindedir.
insan tarafından okunabilir ve daha erişilebilir. İnsanlar milyarlarca nesneden daha somut bir kavrayışa sahiptir.

Çünkü normalleştirilmiştir:

puanların karşılaştırılması anlamlıdır, bir ülkedeki 0,9, diğer herhangi bir ülkedeki 0,9 ile aynı göreceli eşitsizlik düzeyi anlamına gelir.
Mükemmel homojenlik için Lorenz eğrisine karşı normalleştirilmiştir, bu nedenle değerler, ilgili değerlerin Lorenz eğrisine dağılımının ilişkisinin ilgili göstergeleridir.

Referanslar:

— EngrStudent - Monica'yı eski durumuna döndür
kaynak

Siteye hoş geldiniz, @EngrStudent. GINI katsayısı hakkında biraz daha fazla şey söylemeyi düşünür müsünüz, neden bu doğru cevap? Burada yeni olduğunuz ve katkıda bulunmaya başladığınız için, site hakkında birçok bilgi içeren SSS bölümümüzü okumak isteyebilirsiniz .

— gung - Monica'yı eski haline getirin