Çok sınıflı LDA eğitiminde eş değişkenler

8 sınıf veri ile çok sınıflı bir LDA sınıflandırıcısı eğitimi alıyorum .

Eğitim yaparken şu uyarıyı alıyorum: " Değişkenler uyumludur "

% 90'ın üzerinde bir eğitim doğruluğu elde ediyorum .

Ben scytits-learn kütüphane Python do train ve çok sınıflı veri test kullanıyorum.

Ben de iyi bir test doğruluğu elde ediyorum (yaklaşık % 85-% 95 ).

Hatanın / uyarının ne anlama geldiğini anlamıyorum. Lütfen bana yardım et.

— Garak
kaynak

Yanıtlar:

Çoklu doğrusallık , öngörücülerinizin ilişkili olduğu anlamına gelir. Bu neden kötü?

Çünkü LDA, regresyon teknikleri gibi, determinant 0'a yakınsa ( yani iki veya daha fazla değişken neredeyse birbirinin doğrusal bir kombinasyonuysa) yanlış olan bir matris tersinin hesaplanmasını içerir .

Daha da önemlisi, tahmini katsayıların yorumlanmasını imkansız hale getirir. Bir artış olursa demek, bir azalma ile ilişkilidir ve her ikisi de artış değişkeni , her değişiklik bir değişiklik tazmin edilecektir ve etkisini hafife olacak üzerinde . , sınıflandırma üzerindeki etkisini hafife alırsınız . $X_1$ $X_2$ $Y$ $X_1$ $X_2$ $X_1$ $Y$ $X_1$

Tek ihtiyacınız olan sınıflandırma kendi başına ise ve modelinizi verilerin yarısı üzerinde eğitip diğer yarısında test ettikten sonra% 85-95 oranında doğruluk elde edersiniz.

— gui11aume
kaynak

Bunu, test doğruluğunun düşük olması durumunda özellik vektöründeki X1 özelliğinin iyi bir seçim olmadığı şeklinde yorumlayabilir miyim?

— garak

Test doğruluğu düşükse iyi bir seçim olmadığını tahmin ediyorum.

— gui11aume

İlginç olan şey, LDA ile bu sorunu yaşıyorum ama QDA kullandığımda değil. Orada neyin farklı olduğunu merak ediyorum.

— garak

Cevap için +1, ancak "bir matris tersinin hesaplanması" doğru olmayabilir. Hiçbir zaman açık bir şekilde bilgisayar kullanmayız, LU, QR veya yinelemeli yöntemler gibi doğrudan yöntemler kullanılır.

— Haitao Du

@ hxd1011 Doğru! Kayıt için, matris "neredeyse tekil" olduğunda LU / QR vs.'de neler olduğu hakkında birkaç söz verebilir misiniz, yoksa açıklayan bir belgeye işaret edebilir misiniz?

— gui11aume

Gui11aume'un size harika bir cevap verdiğini düşündüğüm gibi, aydınlatıcı olabilecek biraz farklı bir açıdan örnek vermek istiyorum. Ayrımcı işlevinizdeki bir değişkenin aşağıdaki gibi olduğunu düşünün:

$X_1= 5X_2 +3X_3 -X_4$

En iyi LDA'nın aşağıdaki doğrusal sınırlara sahip olduğunu varsayalım:

$X_1+2X_2+X_3-2X_4 =5$

$5X_2+3X_3-X_4$ $X_1$

$5X_2+3X_3-X_4+2X_2+X_3-2X_4=5$

veya

$7X_2+4X_3-3X_4=5$

$1, 2, 1,-2$ $X_1$ $X_2$ $X_3$ $X_4$ $0, 7, 3, -1$

Dolayısıyla katsayı oldukça farklıdır, ancak iki denklem aynı sınır ve özdeş tahmin kuralını verir. Bir form iyi ise diğeri de iyidir. Ama şimdi gui11ame'in katsayıların neden yorumlanamayacağını söylediğini görebilirsiniz.

$X_2$ $0$ $X_3$ $X_4$

— Michael R. Chernick
kaynak

Burada işaretlenen cevap doğru olsa da, kodunuzda ne olduğunu öğrenmek için farklı bir açıklama aradığınızı düşünüyorum. Aynı sorunu bir model üzerinden geçiriyordum.

Neler oluyor: Veri kümenizin bir parçası olarak modelinizi öngörülen değişkenle eğitiyorsunuz. Fark etmeden başıma gelenlere bir örnek:

df = pd.read_csv('file.csv')
df.columns = ['COL1','COL2','COL3','COL4']
train_Y = train['COL3']
train_X = train[train.columns[:-1]]

Bu kodda, 'COL3' değerini tahmin etmek istiyorum ... ama, train_X'e bakarsanız, sonuncusu hariç her sütunu almasını söylüyorum, böylece COL4 değil, COL1 COL2 ve COL3 girişi, ve train_X'in bir parçası olan COL3'ü tahmin etmeye çalışmak.

Bunu sadece sütunları taşıyarak düzelttim, veri kümemdeki (şimdi COL4'ün yerini alan) son sütun olmak için Excel'de COL3'ü manuel olarak taşıdım ve sonra:

df = pd.read_csv('file.csv')
df.columns = ['COL1','COL2','COL3','COL4']
train_Y = train['COL4']
train_X = train[train.columns[:-1]]

Excel'de taşımak istemiyorsanız ve sadece kodla yapmak istiyorsanız:

df = pd.read_csv('file.csv')
df.columns = ['COL1','COL2','COL3','COL4']
train_Y = train['COL3']
train_X = train[train.columns['COL1','COL2','COL4']]

Şimdi train_Y'nin bir parçası olan COL3 dışındaki tüm sütunları dahil etmek için train_X'i nasıl ilan ettiğime dikkat edin.

Umarım bu yardımcı olur.

— nukalov
kaynak