{Protein} dizilerini belirli bir sınıfa (Neuropeptide hormon öncüleri) ait olarak sınıflandırmak için mevcut bir denetimli sınıflandırıcıyı geliştirmeye çalışıyorum.
Yaklaşık 13 milyon protein sekansının ("Bilinmeyen / zayıf açıklamalı arkaplan") arka planına karşı yaklaşık 1.150 bilinen "pozitif" veya çeşitli özelliklerle açıklamalı yaklaşık 100.000 gözden geçirilmiş, ilgili protein vardır (ancak açıkça çok az açıklamalı) "Olumsuz bir şekilde).
Önceki uygulamam buna ikili bir sınıflandırma sorunu olarak baktı: Pozitif küme = Nöropeptit olarak işaretlenmiş proteinler. Negatif küme: Kabaca benzer uzunluk-uzunluk dağılımının kalan proteinleri arasından 1.300 numunenin (toplam) rastgele örneklenmesi.
Bu işe yaradı, ancak makinelerin ayırt edici yeteneklerini büyük ölçüde iyileştirmek istiyorum (Şu anda, doğruluk açısından yaklaşık 83-86 oranında, CV ile ölçülen, birden fazla rastgele örneklenmiş negatif sette).
Düşüncelerim şunlardı: 1) Bunu, rastgele bir şekilde örneklenmiş bir başka setle (belki de) birlikte özellikleri / fonksiyonel sınıfı ile negatif olacak 2-3 farklı protein sınıfı seçerek çok sınıflı bir problem haline getirin. (Buradaki öncelik, tanımlayıcı özelliklere sahipken, özellik / özelliklerinde pozitif kümeye benzer negatif kümeler olacaktır). 2) Bir sınıf öğrenme - İyi olurdu, ama anladığım kadarıyla, sadece anomali tespiti içindir ve ayrımcı yaklaşımlardan daha zayıf bir performansa sahiptir.
*) PU öğrenimini duydum, bu kulağa hoş geliyor, ama ben bir N00b programlama ediyorum ve bunun için mevcut herhangi bir uygulama bilmiyorum. (Python / sci-kit öğren).
Peki, yaklaşım 1 teorik bir POV'de anlamlı mı? Birden çok negatif küme oluşturmanın en iyi yolu var mı? (Ayrıca sadece "negatif" proteinlerin büyük bir [50K] seçimini kullanabilirim, ama hepsi birbirinden çok farklı, bu yüzden sınıflandırıcının onları büyük, dengesiz bir karışım olarak ne kadar iyi idare edeceğini bilmiyorum ). Teşekkürler!