Genetik algoritma için parametre seçimi


9

Belirli bir sistemi modellemek için genetik algoritma için uygun sayıda parametre nasıl seçilebilir?

Örneğin, otomobil üretimini optimize etmek istediğinizi ve 1000 farklı çalışanın her biri için çeşitli görevlerde 1.000 saatlik saatlik verimliliğiniz olduğunu varsayalım. Yani 1.000.000 veri noktanız var. Bunların birçoğu, fabrikanızın genel verimliliği ile zayıf bir şekilde ilişkili olabilir, ancak istatistiksel güvenle alakasız olduklarını söyleyebileceğiniz kadar zayıf değildir . 1.000.000+ serbestlik derecesine sahip olmamanız için GA'nız için girdi seçmeye nasıl devam edersiniz, bu da çok yavaş yakınsamaya veya hiç yakınsamaya neden olmaz?

Özellikle, özellikleri önceden seçmek veya seçici olarak ortadan kaldırmak için kullanabileceğiniz algoritmalar nelerdir?

Bu senaryoda kendim kullandım bir yaklaşım ben gibi anne olabilir, böylece parametre seçimi kendisi gelişmeye olduğunu {a,b,c}, {b,d,e,q,x,y,z}ve benzeri. Daha sonra özellikleri eklemek veya bırakmak için çocukları değiştirirdim. Bu birkaç düzine özellik için iyi çalışır. Ancak sorun, çok sayıda serbestlik derecesi olup olmadığının yetersiz olmasıdır. Bu durumda, herhangi bir yararlı performans elde etmek için özelliklerin bazı ön filtrelemelerini kritik hale getiren 10^nkombinasyonlara (yukarıdaki örnekte 10^1,000,000) bakıyorsunuz .

Yanıtlar:


11

Her şeyden önce - örnek uygun görünmüyor çünkü muhtemelen bunu çözmek için bazı regresyon veya klasik ML yöntemleri kullanacaksınız. İkinci olarak - genel bir özellik seçimi sorununa (Kira, Rendell, 1992) veya nitelik seçimine (Hall, Holmes, 2003) veya değişken seçimine (Guyon, Elisseeff, 2003) veya değişken alt küme seçimine (Stecking, Schebesch, 2005) atıfta bulunuyorsunuz. veya özellik çıkarma (Hillion, Masson, Roux, 1988) veya boyut azalması (Roweis, Saul, 200) veya eyalet soyutlaması (Amarel, 1968). Bu problem sadece genetik algoritmalar için değil, yüksek boyutlu verilerle uğraşırken hemen hemen tüm makine öğrenme teknikleri için de geçerlidir.

Burada üç durum ayırt edilebilir: bu sorunun devlet soyutlaması olarak bilinen son örneği genellikle süreç modelleme ile ilişkilidir (örneğinize uygundur, ancak GA içeriğine uygun değildir). İlk üç, yani özellik seçimi , özellik seçimi veya değişken seçimi , sorunuzu tam anlamıyla alırken en alakalı gibi görünmektedir. Bu bağlamda ortak bir çözüm mRMR yaklaşımıdır (Peng, Long, Ding, 2005) . Deneyimlerime göre, sürekli verilerle her zaman iyi çalışmaz, ancak karşılıklı bilgi, örneğin korelasyon gibi diğer katsayılarla değiştirilebilir. Olası başka bir yaklaşım çapraz geçerliliği kullanmaktır (Picard, Cook, 1984)bunun için. Her biri farklı özellikler kullanan birden fazla modeliniz olabilir ve çapraz doğrulama tekniklerine sahip model seçimi sayesinde en iyi modeli seçersiniz, bu da size verilen görev için hangi özelliklerin en iyi çalıştığı hakkında bilgi verir.

Özellik çıkarma ve boyut indirgeme durumlarda da onların kombinasyonları sadece başlangıç özellikleri seçmek için izin ancak. Bu durum için iyi bilinen bir örnek çözüm , açıklanan varyans açısından optimal özelliklerin girdi özelliklerinin doğrusal kombinasyonları olan PCA algoritmasıdır (Pearson, 1901) .

Ayrıca, özellik çıkarma görevini kendi başlarına işleyen birçok model olduğunu unutmayın. Bazı örnekler: Büyüyen Sinir Gazı Ağı (Fritzke, 1995) , LASSO (Tibshirani, 2011) , RFE SVM (Zeng, Chen, Tao, 2009) , Karar Ağaçları (Quinlan, 1986) .

Referanslar:


3

Bunu daha önce hiç yapmadım ve açıkçası söz konusu verilere erişimim yok, ancak bunu yapmanın potansiyel olarak iyi bir yolu kümeleme yoluyla olacaktır . Her çalışan için, her boyutun farklı bir göreve karşılık geldiği n boyutlu bir vektörünüz var. Ardından, kümelenmeyi "benzer" çalışanları birlikte gruplandırmak için kullanabiliriz; bununla birlikte, bu sadece verilerinize bağlı olacaktır, yani kümelenmenin gerçekten ilgili olmayan tüm çalışan gruplarını vermesi için yalnızca 1000 çalışan verildiğinde ve bu nedenle nüfusun azalmasına rağmen, bilgi kaybı pahasına olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.