Şu anda genomik için lojistik regresyon modeli üzerinde çalışıyorum. Ortak değişken olarak dahil etmek istediğim girdi alanlarından biri genes
. Bilinen 24.000 civarında gen vardır. Hesaplamalı biyolojide bu değişkenlik düzeyine sahip birçok özellik vardır ve yüz binlerce örneğe ihtiyaç vardır.
- Eğer
LabelEncoder()
bu 24K genleri - ve sonra
OneHotEncoder()
onlar ...
24.000 sütun keras eğitim sürelerimi 2.2 GHz dört çekirdekli i7 CPU için mantıksız hale getirecek mi?
Eğer öyleyse, bununla alabileceğim kodlamaya farklı bir yaklaşım var mı?
Bir şekilde modelimin bir katmanını bu özelliğe ayırmaya çalışmalı mıyım?
Bu 24K giriş düğümlerine ihtiyacım olduğu anlamına mı geliyor?