Veri kümesinin ne zaman sınıflandırılamadığını söyleyebiliriz?


11

Birçok kez üzerinde gerçekten hiçbir sınıflandırma yapamadığım bir veri kümesini analiz ettim. Bir sınıflandırıcı alıp alamayacağımı görmek için genellikle aşağıdaki adımları kullandım:

  1. Sayısal değerlere karşı etiket kutu grafikleri oluşturun.
  2. Sınıfların ayrılabilir olup olmadığını görmek için boyutsallığı 2 veya 3'e düşürün, bazen LDA'yı da denedim.
  3. SVM'lere ve Rastgele Ormanlara zorla uymaya çalışın ve özelliklerin herhangi bir anlam ifade edip etmediğini görmek için özellik önemine bakın.
  4. Sınıf dengesizliğinin sorun olup olmadığını kontrol etmek için yetersiz örnekleme ve aşırı örnekleme gibi sınıfların ve tekniklerin dengesini değiştirmeye çalışın.

Düşünebildiğim, ancak denemediğim birçok yaklaşım var. Bazen bu özelliklerin iyi olmadığını ve tahmin etmeye çalıştığımız etiketle hiç ilgili olmadığını biliyorum. Daha sonra bu iş sezgisini egzersize son vermek için kullanıyorum, daha iyi özelliklere veya tamamen farklı etiketlere ihtiyacımız olduğu sonucuna varıyorum.

Sorum, bir Veri Bilimcisi'nin bu özelliklerle sınıflandırmanın yapılamayacağını nasıl bildirdiği. Bunu bildirmenin veya önce verileri farklı algoritmalara sığdırmanın ve doğrulama metriğine bakmak en iyi seçenek olarak herhangi bir istatistiksel yol var mı?


Bu sorunun açık ve objektif bir cevabı varsa, o zaman tüm bilimsel çabalar anlamsız hale geliyor. Bilim sanattır.
Mephy

Haha evet doğru. Ayrılabilirliği bulmak için daha fazla yöntem bilmek istiyorum. Daha çok, bazı egzersizlere daha fazla zaman ayırmanın boşuna olabileceğini müşterilere istatistiksel olarak nasıl göstereceği gibi.
vc_dim

1
Soruyu çok açık / geniş hale getirdikleri için son iki paragrafı bırakmanızı öneririm. İlk bölüm - bir sonucun profesyonel olarak nasıl ele alınacağı ve raporlanacağı - sorumlu olmalıdır ve kişisel olarak sitede bu tür Veri Bilimi profesyonel görgü kuralları sorunundan daha fazlasına ihtiyacımız olduğunu düşünüyorum.
Neil Slater

Neil mantıklı. Net olmak için düzenleme.
vc_dim

Yanıtlar:


4

Verilerinize bağlıdır. İnsan seviyesinde hata denen bir şey var. Basılı kitapları okumak gibi görevleri varsayalım, insanlar okumak için uğraşmazlar ve baskı kalitesinin kötü olmasından dolayı bir hata yapmak olmayabilir. Elle yazılmış el yazmaları okumak gibi durumlarda, yazarın yazı tipinin okuyucuya garip olması durumunda tüm kelimeleri anlamamak çok şey olabilir. İlk durumda, insan seviyesi hatası çok düşüktür ve öğrenme algoritmaları aynı performansa sahip olabilir, ancak ikinci örnek, bazı durumlarda insan seviyesi hatasının çok yüksek ve olağan bir şekilde (aynı şeyi kullanırsanız) insanlar gibi özellikler) öğrenme algoritmanız çok fazla hata oranına sahip olacaktır.

İstatistiksel öğrenmede, Bayes Errorsınıfların dağılımı çakıştığında hata oranı büyüktür. özellikleri değiştirilmeden, mevcut dağıtımların Bayes hatası en iyi performanstır ve hiç azaltılamaz.

Ayrıca burada okumanızı da öneririm . Atanan özelliklerle ilgili çok sayıda Bayes hatasıyla ilgili sorunlar , bu özelliklerin alanında sınıflandırılamaz olarak kabul edilir . Başka bir örnek olarak, ışıkları açık olan arabaları sınıflandırmak istediğinizi varsayalım. Bunu sabah yapmaya çalışırsanız, kendinizde çok fazla hata olabilir ve öğrenme algoritmasını eğitmek için aynı görüntüleri kullanırsanız, bu da olabilir.

Ayrıca sınıflarınızın dağılımını değiştirmemenizi tavsiye ederim. Bu gibi durumlarda, sınıra yakın sınıflandırıcının sonucu tamamen rastgele olacaktır. Makine öğrenme algoritmanızı eğitmek için verilerin dağılımı değiştirilmemeli ve gerçek durumda olduğu gibi olmalıdır.


Bu yardımcı oldu, Bayes Hatası hakkında bilmiyordum. Sınıfların dağılımını değiştirdikten sonra doğrulukları iyileştirmekte zorlandım. Harika bir fikir olmadığını kabul ediyorum. Yine de bazen, bu özelliğin daha ayrıntılı veya soyut sınıfları (EG. Maymunları, köpekleri ve diğerlerini Memeliye dönüştürmek) temsil edebileceğini umarak sınıf hiyerarşilerini değiştirmeye çalıştım. Bayes hatası varsa, sınıf hiyerarşisini değiştirmek de yardımcı olmaz.
vc_dim

@SumitSinghChauhan Aslında Bayes hatasının büyük olduğu durumlarda, özellik mühendisliği yapmaya çalışmak en iyi çözümdür. Çünkü özelliklerin kendisini bulan derin öğrenme, veri kümesinin büyük olmadığı durumlarda kullanılamaz.
Medya

5

Bir sınıftan örnek eleman ve diğer sınıftan örnek eleman alın. Bu iki elemanın tam olarak aynı özellik vektörüne sahip olması mümkün müdür? O Eğer şimdiye sonra ne iki sınıfları (sınıflandırma kararı verilen bir elemanı için özellik vektörü tamamen dayanır beri) mevcut özellik vektörleri kullanılarak tamamen ayrılabilen değildir.

Öte yandan, bir sınıftaki * every "öğesinin diğer sınıfta, iki öğenin aynı özellik vektörlerine sahip olacağı şekilde karşılık gelen bir öğesi varsa, iki sınıf geçerli özellik vektörleriniz kullanılarak ayırt edilemez.

Ayrıca, bu koşul yalnızca bazı öğeleriniz için geçerliyse, diğerleri için geçerli değilse, aradaki bir yerdesiniz ve bunu, bir sınıflandırıcının mevcut özellik kümenizi kullanarak ne kadar iyi performans göstermesini umabileceğinizi ölçmek için kullanabilirsiniz.

Tüm bu değerlendirmeler, daha fazla özellik ayıklamanız gereken değişken derecelerde tartışmak için kullanılabilir.


1
Teşekkürler Robert. Bu tanıdık ve doğru görünüyor. Bazı analizler için de aynı analizi yaptım. Aynı özellik vektörü farklı etiketlenmiş bir veri setim vardı ve ne kadar doğru olabileceğimin temeli olarak kullandım. Bazı zamanlar komplo taslağı da yardımcı oldu. Şimdiye kadar, müşterileri ikna etmek için en iyi bahsettiğiniz yaklaşımı buldum.
vc_dim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.