Makine öğrenimi tekniklerinin küçük örnek klinik çalışmalarda uygulanması


15

Bir sınıflandırma bağlamında ilginç öngörücüler izole etmek olduğunda küçük örnek klinik çalışmalarda Rastgele Ormanlar veya cezalandırılmış regresyon (L1 veya L2 cezası veya bunların bir kombinasyonu ile) gibi makine öğrenme tekniklerini uygulamak hakkında ne düşünüyorsunuz? Model seçimi ile ilgili bir soru değil, değişken etki / önem için en uygun tahminlerin nasıl bulunacağını da sormuyorum. Güçlü bir çıkarım yapmayı değil, sadece çok değişkenli modellemeyi kullanmayı planlıyorum, böylece her bir öngörücüyü birer birer ilgi sonucuna karşı test etmekten ve karşılıklı ilişkilerini hesaba katmaktan kaçınıyorum.

Sadece bu özel durum için böyle bir yaklaşımın uygulanıp uygulanmadığını merak ediyordum, örneğin 10-15 kategorik veya sürekli değişkenler hakkında veri bulunan 20-30 denek. Tam olarak durumu değil ve buradaki sorunun açıklamaya çalıştığımız (genellikle iyi dengelenmemiş) sınıfların sayısı ve (çok) küçük n ile ilgili olduğunu düşünüyorum. Biyoenformatik bağlamında bu konudaki büyük literatürün farkındayım, ancak psikometrik olarak ölçülen fenotiplerle (örneğin nöropsikolojik anketler boyunca) biyomedikal çalışmalarla ilgili herhangi bir referans bulamadım.np

Herhangi bir ipucu veya ilgili makaleye işaret eden var mı?

Güncelleme

C4.5 algoritması veya türevleri, ilişkilendirme kuralları yöntemleri ve denetimli veya yarı denetimli sınıflandırma için herhangi bir veri madenciliği tekniği gibi bu tür verileri analiz etmek için başka çözümlere açığım.


Açık olmak gerekirse: sorunuz ayar hakkında değil verilerin boyutu hakkında, doğru mu?
Shane

Tam olarak, "en küçük" n (çok sayıda değişkene wrt.) Veya daha kesin olarak herhangi bir çapraz doğrulama tekniği (veya RF'lerde olduğu gibi yeniden örnekleme stratejisi) hakkında herhangi bir referans olup olmadığını merak ediyorum .
chl

Yanıtlar:


7

Bunun biyoinformatik / makine öğrenimi dışında da kullanıldığını görmedim, ama belki de ilk kişi olabilirsin :)

Biyoinformatiklerden küçük örnek yöntem yönteminin iyi bir temsilcisi olarak, L1 düzenlenmesi ile lojistik regresyon, gözlem sayısında parametre sayısı üstel olduğunda, asimptotik olmayan güven aralıkları Chernoff tipi eşitsizlikler kullanılarak oluşturulabilir (örn. Dudik, (2004 ). Trevor Hastie, gen etkileşimlerini tanımlamak için bu yöntemleri uygulayarak bazı çalışmalar yaptı. Aşağıdaki makalede, 2200 gözlem örneğine uyan 310,637 ayarlanabilir parametreye sahip bir modelden önemli etkileri belirlemek için kullanır.

"Kement tarafından genom çapında ilişki analizi lojistik regresyon cezalandırdı." Yazarlar: Hastie, T; Sobel, E; Wu, T.T; Chen, Y.F; Lange, K Biyoinformatik Cilt: 25 Sayı: 6 ISSN: 1367-4803 Tarih: 03/2009 Sayfa: 714 - 721

İlgili sunum Victoria Stodden ( Gözlemlerden Çok Değişkenli Model Seçimi )


Evet, Wu ve ark. 2009 güzel bir yazı. Bu arada, son iki yıldır GWAS ve ML üzerinde çalışıyorum; Şimdi çoğu zaman kusurlu ölçümler, eksik veriler ve elbette ... fizikçi açısından birçok ilginç değişkenle uğraşmamız gereken klinik çalışmalara geri dönmeye çalışıyorum!
chl

BTW, bu soruyu bana düşündüren bir makaleyle karşılaştım
Yaroslav Bulatov

nnpnp

Bu çok ilginç bir soru. Bunlardan bazılarını ve diğer bazı makaleleri bir blog yayınında topladım (umursamıyorsunuz). Eminim orada başkaları da vardır.
Andrew

5

15 yordayıcı ve örneklem büyüklüğü 20 olan bir keşif analizinin sonuçlarının genelleştirilebilirliğine çok az güvenirim.

  • Parametre tahminlerinin güven aralıkları büyük olacaktır. Örneğin, r = .30'da n = 20 ile% 95 güven aralığı -0.17 ila 0.66'dır.
  • Keşif ve veriye dayalı bir şekilde kullanılan birden fazla öngörücünüz olduğunda sorunlar bir araya gelme eğilimindedir.

Bu gibi durumlarda, tavsiyem genellikle analizleri iki değişkenli ilişkilerle sınırlamak olacaktır. Bayesci bir bakış açısına sahip olursanız, önceki beklentilerinizin verilerden daha önemli olmasa bile eşit olduğunu söyleyebilirim.


4

Genel kurallardan biri, sınıflandırıcıda ayarlanabilir parametreler olduğu için egzersiz verisi örneklerinin sayısının en az 10 katına (herhangi bir test / doğrulama verisinden bahsetmemek vb.) Sahip olmaktır. Yalnızca yeterli verilere değil, aynı zamanda temsili verilere de ihtiyacınız olan bir sorununuz olduğunu unutmayın . Sonunda, sistematik bir kural yoktur, çünkü bu kararı verirken çok fazla değişken vardır. Hastie, Tibshirani ve Friedman'ın İstatistiksel Öğrenmenin Unsurları'nda söylediği gibi (bkz. Bölüm 7):

ne kadar eğitim verisinin yeterli olduğuna dair genel bir kural vermek çok zordur; diğer şeylerin yanı sıra, bu, temel fonksiyonun sinyal-gürültü oranına ve verilere uyan modellerin karmaşıklığına bağlıdır.

Bu alanda yeniyseniz, bazı veri sorunlarının kısa bir özetini sunan Biyomedikal Mühendisliği Ansiklopedisi'nden bu kısa "Örüntü Tanıma" belgesini okumanızı tavsiye ederim .


Teşekkürler! Hastie'nin ve C. Bishop'un (Örüntü Tanıma ve Makine Öğrenimi) kitabım var. Böyle küçük bir n'nin sahte veya güvenilmez bir ilişkiye yol açacağını biliyorum (bakınız Jeromy Anglim'in yorumu). Bununla birlikte, Breiman tarafından uygulanan RF algoritması, bir ağaç her büyüdüğünde (benim durumumda, 3 veya 4) ve OOB hata oranı oldukça yüksek olmasına rağmen (ancak bu beklenmelidir), sınırlı sayıda özellikle başa çıkmaya izin verir. değişken önem, iki değişkenli testleri (permütasyon testi ile) kullanarak benzer bir sonuca varacağım sonucuna götürmeme neden oldu.
chl

1
Bu temel kural esas olarak l2 düzenli maksimum olasılık gibi klasik yöntemler için geçerlidir, L1 düzenli yöntemler gözlem sayısında ayarlanabilir parametre sayısı üstel olduğunda etkili bir şekilde öğrenebilir (yani, Miroslav Dudik, 2004 COLT kağıdı)
Yaroslav Bulatov

3

RF'nin bu durumda çalışacağından ve önem ölçüsünün oldukça anlaşılır olacağından emin olabilirim (çünkü standart (n << p) s'deki gibi yanıltıcı önemsiz özelliklerin büyük bir kuyruğu olmayacaktır). Şimdi benzer problemle uğraşan hiçbir kağıdı hatırlayamıyorum, ama arayacağım.


1
Teşekkürler! Geçen ay IV. EAM-SMABS konferansına katıldım ve konuşmacılardan biri biyomedikal bir çalışmada ML'nin bir uygulamasını sundu; maalesef, bu N ~ 300 denek ve p = 10 prediktör ile bir şekilde "standart" bir çalışmadır. Tıpta İstatistik'e bir makale sunmak üzeredir . Ne arıyorum sadece makaleler / referanslar wrt olduğunu. sonuçların genelleştirilebilirliğinin çok fazla bir sorun olmadığı, örneğin ayaktan hastalarla yapılan standart klinik çalışma.
chl

Sonunda hiç kağıt buldun mu?
chl

@chl Henüz değil; ama hatırlatma için teşekkürler.

Acelesi yok :) Kendim için ilginç bir şey bulamadım; belki Pubmed bu özel durum için doğru arama motoru değil ...
chl

@chl Bu da benim sorunum. Gerçekten n << p biyomedikal verilerle eşanlamlı hale geldi.

0

Ayrık girişleriniz varsa, önceki girişler verildiğinde ikili girişin eksik değerlerini tahmin etmek için bir program yazıyorum. Herhangi bir kategori, örneğin "1/6", ikili bitlere dönüştürülebilir ve gayet iyi çalışır; etkilemez.

Yazdığım algoritmanın amacı, mümkün olduğunca hızlı bir şekilde öğrenmek. Sonuç olarak çok zayıf zaman ve mekan karmaşıklığına sahiptir (O ​​(4 ^ N) ile ilgili uzay karmaşıklığı!).

Ancak bunun için, durumu biraz vektör olarak ifade edilebilen herhangi bir sistem için esasen 1-off öğrenme elde edersiniz. Örneğin, bir tam toplayıcının 8 farklı giriş durumu vardır. Algoritma, sadece 8 farklı eğitim örneğinden sonra tam bir toplayıcıyı mükemmel bir şekilde öğrenecektir. Sadece bu da değil, daha sonra cevabı verebilir ve soruyu tahmin etmesini sağlayabilir veya sorunun cevabının bir kısmını ve sorunun bir kısmını verebilir ve geri kalanını doldurmasını sağlayabilirsiniz.

Giriş verilerinin çok fazla biti varsa, oldukça hesaplama ve bellek yoğun olacaktır. Ancak çok az örneğiniz varsa - ya da tasarım hedefi - size mümkün olan en iyi tahminleri verecektir.

Sadece bitleri bilinmeyen bir bit vektörü de dahil olmak üzere bit vektörleri ile eğitiyorsunuz. Bir tahmin almak için, aynı şekilde, biraz bit vektörü, hangi bitlerin bilinmediğini ve hangi bitlerin tahmin etmesini istediğinizi beslersiniz.

Kaynak kodu burada bulunabilir: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.