Verilerin ilgili özelliklerini nasıl seçerim?


11

Son zamanlarda, belirli bir kaynak için yaptığım harcamaların maliyet analizini yapmak için bir sorun üzerinde çalışıyordum. Genellikle analizden manuel kararlar alır ve buna göre plan yaparım.

Ben kaynak excel formatında ve yüzlerce sütun ile büyük bir veri var, çeşitli zaman çerçeveleri ve türleri (diğer çeşitli detaylı kullanım) kaynak kullanımını tanımlamak. Ayrıca önceki 4 yıllık verilerim, buna bağlı olarak gerçekleşen kaynak kullanımı ve maliyet hakkında da bilgilerim var.

Maliyetimi önceden tahmin etmek ve maliyet analizini manuel olarak yapmadan önce planlamak için bir NN eğitmeyi umuyordum.

Ancak karşılaştığım en büyük sorun, bu tür analizlerin özelliklerini belirleme ihtiyacı. Veri setinden özellikleri tanımlamanın bir yolu olduğunu umuyordum.

PS - PCA ve diğer bazı özellik kümesi azaltma teknikleri hakkında fikrim var, baktığım şey onları ilk etapta tanımlamanın yoludur.

Yanıtlar:


1

Tüm verilerinizi bir tabloya sahip olduğunuzdan, görece basit bir şey, her sütunu bağımsız olarak düşünmek ve daha sonra çıktı değişkeninin (ortaya çıkan maliyet) bununla bir korelasyonu olup olmadığını görmektir.

Sütunun çıktı değişkeni ile (veya çok düşük korelasyonu) yoksa, bunun önemli olmadığını düşünün. Kesimi yapan olanlar daha sonra dikkate alınır.

Bu açıkça bir karar ağacı algoritmasının (ID3 gibi) nasıl çalışacağından çok farklı değildir.


0

özellik seçimi için zor ve hızlı bir kural yoktur, veri kümesini manuel olarak incelemeniz ve özellik mühendisliği için farklı teknikler denemeniz gerekir. Bunun için sinir ağları uygulamanız gereken bir kural yoktur, sinir ağları eğitmek için zaman alıcıdır, bunun yerine verileriniz yine de tablo yapısında olduğu için karar ağacı tabanlı yöntemler (rastgele ormanlar) ile deney yapabilirsiniz.


giriş için teşekkürler, 1. NN'nin hipotezi test etmenin en iyi yolu olmadığına katılıyorum, ancak NN kullanarak daha iyi sonuçlar almak için (çoğu durumda) özellikler arasında daha geniş ilişkiler kurabiliriz. 2. Karşılaştığım sorun, benim sorunum için kalıbı tanımlayacak olan özellikleri, ayrıca özellik ağırlıklarının nasıl tanımlanacağını seçmekti.
Karan Chopra

0

Bu harika bir soru ve muhtemelen ML'deki en zor görevlerden biri.

Birkaç seçeneğiniz var:

  1. Hangi özelliklerin çıktınıza en fazla katkıda bulunduğunu anlamak için ağırlıklandırma algoritmalarını kullanabilirsiniz (örneğin, Chi kare)
  2. Bir özelliğin tahminlerinize katkıda bulunup bulunmadığını sınıflandırmak için diğer ML algoritmalarını kullanabilirsiniz
  3. Doğal olarak size özellik ağırlıkları sağlayan diğer ML algoritmalarını (NN dışında) kullanabilirsiniz (örneğin, Rastgele Orman)

umarım yardımcı olur


0

Sadece kaynak katılımının maliyetle korelasyonunu değil, aynı zamanda kaynak katılımı maliyetinin getirisini de dikkate almak akıllıca olacaktır. Tipik zorluk, bu getirilerin neredeyse her zaman birikimli veya gecikmeli olmasıdır. Bir birikim durumu, kaynağın, gelirin üretilmesini yavaşlatan bir sürecin sürekli ayarlanması veya iyileştirilmesi olmasıdır. Gecikme durumu, araştırma kaynaklarının belirli bir süre gelir etkisi olmadan maliyete katlanmasıdır, ancak araştırma verimli sonuçlar verirse başlayan gelir üretimi, teslim edilen sonuçların toplam maliyetinin üzerinde önemli bir faktör olabilir.

Gider verilerinin tek başına uyumsuz ağ öğrenmesine yol açmasının nedeni, örneğin pazarlama giderlerini azaltmak için eğitilmiş bir ağın bunları sıfırlayacağıdır. Bu, genellikle işletme kapanana kadar satış potansiyelinin düşmesine neden olur. Eğitim bilgilerinin getirileri dahil edilmeden, yararlı bir öğrenme gerçekleşemez.

Temel MLP (çok katmanlı algılayıcı) verilerin zamansal özelliklerini, birikimini ve gecikme yönlerini öğrenmeyecektir. Durum bilgisi olan bir ağa ihtiyacınız olacak. Bu yazıdan itibaren bu tür öğrenme için en tutarlı şekilde başarılı olan ağ türü, LSTM (uzun kısa süreli bellek) ağ türü veya türev varyantlarından biridir. Gelir ve bakiye verileri, önerilen kaynak sözleşmelerinin herhangi bir sıralaması için iş sonuçlarını tahmin etmek üzere (tamamen ayrıntılı bütçe planı) ağı eğitmek için gider verileriyle birlikte kullanılmalıdır.

Kayıp fonksiyonu, sıralama terimini orta ve uzun vadeli finansal hedeflerle uygun şekilde dengelemelidir. Negatif kullanılabilir nakit, itibar ve kredi maliyetinden kaynaklanan temel risklerden kaçınılması için zarar fonksiyonunda belirgin bir artış sağlamalıdır.

Verilerinizdeki hangi sütunların yatırım getirisi ile güçlü korelasyonları olduğunu önceden belirlemek zordur. Aşağıdaki ölçütlerden herhangi birine uyan sütunları hemen hariç tutabilirsiniz.

  • Her zaman boş
  • Diğer sabitler, her satır için aynı değere sahip olanlar
  • Her zaman diğer sütunlardan türetilebilenler

Veriler başka şekillerde de azaltılabilir

  • Eğilimleri basit yollarla karakterize ederek verileri tam olarak tanımlama
  • Her dizeye bir sayı atayarak% 100 doğrulukla uzun dizeler belirtmek için dizinleri kullanma
  • Sıkıştırma
  • Aksi takdirde verilerdeki fazlalığı azaltmak

RBM'ler (kısıtlı Boltzmann makineleri) verilerden özellikler çıkarabilir ve PCA'lar düşük bilgi içerik sütunlarını aydınlatabilir, ancak sütunların gelirle korelasyonu açısından önemi bu cihazlar temel formlarında kullanılmayacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.