Değişken sayıda özelliğe sahip veri kümeleriyle başa çıkmak


14

Değişken sayıda özelliğe sahip verileri sınıflandırmak için bazı yaklaşımlar nelerdir?

Örnek olarak, her veri noktasının x ve y noktalarının vektörü olduğu ve her örnek için aynı sayıda noktaya sahip olmadığımız bir sorunu ele alalım. Her bir x ve y noktasına çift olarak bir özellik olarak bakabilir miyiz? Yoksa her veri noktasının sabit sayıda özelliğe sahip olması için noktaları bir şekilde özetlemeli miyiz?


7
Belirli bir noktanın varlığı veya yokluğu verilerin sınıflandırılmasına yardımcı olur mu?
jonsca

Yanıtlar:


5

Bu noktaları eksik olarak ele alabilirsiniz --- yani. vektörün en fazla 20 (x, y) çiftine ve belirli bir noktanın 5 (x, y) çiftine sahip olduğunu varsayalım, bu durumda diğer çiftleri eksik olarak kabul edin ve daha sonra eksik parametreler için standart prosedürleri uygulayın:

Bu standart prosedürler şunlar olabilir:

  • Eksik parametreleri doğal bir şekilde işleyen bir model kullanın, örneğin karar ağacı modelleri bununla başa çıkabilmelidir.
  • Eksik olanı, uygun sütun için ortalama değerle değiştirin.
  • Eksik değerleri 'tahmin etmek' için bazı kolay modeller kullanın.

Ancak @jonsca'nın işaret ettiği gibi - verilen noktanın yokluğu verilerin sınıflandırılmasında yardımcı oluyorsa, örneğin her biri belirli sayıda noktaya sahip örnekleri modellemelisiniz.


10

Sorunuzu nasıl anladığımdan, verilerdeki noktalar değiştirilebilir ve herhangi bir siparişle gelmez, yani her örnek için bir dizi noktanız vardır. Bu ayar, jb değeri "Eksik Değer" ayarından farklıdır. tanımladı.

Bu sorun için aslında fikirlerinize dayanan iki yaygın yöntem biliyorum. İyi bir temel muhtemelen bir örnekteki tüm noktaları ortalamak olacaktır, ancak bu genellikle iyi sonuç vermez.

  • Birden çok noktayı tek bir özellikte birleştirmek için, örneğin bilgisayar görmede, kelime torbası (veya özellik torbası) gösterimleri oldukça yaygın olarak kullanılır. Fikir, eğitim setinizdeki tüm noktaları (örneğin k-araçlarını kullanarak) kümelemek ve daha sonra her noktayı kendi kümesiyle tanımlamaktır. Her örnek için, daha sonra hangi kümelerin hangi sıklıkta gerçekleştiğine dair bir histogram alırsınız.

  • Tüm nokta çiftlerini kullanmak için ayarlanmış çekirdekleri kullanabilirsiniz. Bu, SVM'lerin kullanımıyla en iyi sonucu verebilir, ancak büyük olasılıkla, çekirdeklendirilebilen veya girişler arasında bir uyumluluk işlevinden yararlanabilen herhangi bir öğrenme algoritmasıyla da çalışır. Küme çekirdekleri, ayarlarınızdaki gibi iki özellik kümesinin benzerliğini hesaplamanın bir yoludur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.