“İstatistiksel Öğrenmenin Unsurları” ndan tablo 18.1'in çoğaltılması


13

İstatistiksel Öğrenme Unsurları'ndaki Tablo 18.1, 14 sınıflı bir veri seti üzerindeki çeşitli sınıflandırıcıların performansını özetler. Bu tür çok sınıflı sınıflandırma problemleri için yeni bir algoritmayı kement ve elastik ağ ile karşılaştırıyorum.

glmnetSürüm 1.5.3'ü (R 2.13.0) kullanarak , kullanılan gen sayısının 269 olduğu ve test hatasının 13 olduğu bildirildiği tabloda 7. noktayı ( kanallı multinomiyal) üretemiyorum. Kullanılan veriler, bu 14-kanser mikrodizi veri kümesidir . Denediğim ne olursa olsun, 170-180 gen mahallesinde 54 testte 16 test hatasıyla en iyi performans gösteren bir model alıyorum.L1

Bölüm 18.3, sayfa 654'ün başlangıcında, verilerin bazı ön işlemlerinin açıklandığını unutmayın.

Yazarlarla temasa geçtim - şimdiye kadar yanıt vermeden - ve herhangi birinin masanın yeniden üretilmesinde bir sorun olduğunu onaylayıp onaylamayacağını veya masanın nasıl yeniden üretileceğine dair bir çözüm sunup sunamayacağını soruyorum.


1
glmnet son zamanlarda biraz değişiklik geçiriyor ve geçmişte nümeriklerle ilgili bazı problemler yaşadı. Muhtemelen buna bağlı mı? Yazarlarla iletişim kurmanız ne kadar süredir? Mevcut sürümün 1.7 olduğunu ve sadece bir hafta önce CRAN'a yüklendiğini görüyorum.
kardinal

@cardinal, glmnet ile son deneyleri yaptığımdan bu yana yaklaşık dört hafta geçti, ancak ESL'deki tabloyla tutarlı olmayan benzer sonuçlar üreten farklı bir uygulamamız da var. Tablo kesinlikle eski, bu yüzden benim tahminim tablo doğru değil, ama kesin bilmek güzel olurdu.
NRH

Bu bölümleri çok kısaca gözden kaçırdım ve aklıma gelen bir soru, (18.19) sayfa 661'de (üçüncü baskı) büzülme parametresini seçmek için çapraz doğrulamanın nasıl yapıldığıydı. Herhangi bir fikir? Belki özledim ya da başka bir yerde tarif? Bu, analizlerini yeniden oluşturma girişimlerinizin yaklaşımdaki farklılıklara duyarlı olabileceği muhtemel bir yer gibi görünüyor.
kardinal

@cardinal, öncelikle bu konuya ilgi gösterdiğiniz için teşekkür ederiz. CV'nin bir fark yaratabileceği doğrudur, ancak yazarlar aslında web sayfasında verilerle birlikte CV için kullanılan alt kümelere (indeksler) sahiptir. Her neyse, CV sadece optimal ceza parametresi lambda'yı seçmek için kullanılır, daha sonra tüm eğitim veri seti modele uyacak şekilde kullanılır, daha sonra test verileri üzerinde değerlendirilir. Bu nedenle, CV adımı farklı bir lambda seçse bile, lambda eğitim verileri için çözüm yolundadır ve bulamıyoruz ...
NRH

Yanıtlar:


2

kitabın R paketini kontrol ettin mi? tüm veri kümelerini, işlevi ve orada kullanılan komut dosyalarının çoğunu içerir ...


7
iyi deneme. Evet, paketi kontrol ettim, ancak tüm verileri, işlevleri ve çoğu komut dosyasını içerdiğini iddia etmek abartı. Tam değildir ve söz konusu veri kümesini içermez.
NRH
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.