Atomik olmayan özelliklerle tahmin


10

Atomik olmayan verileri tahmin için bir özellik olarak kullanmak istiyorum. Bu özelliklere sahip bir Tablom olduğunu varsayalım:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

Örneğin Sütun 2'yi tahmin etmek / sınıflandırmak istiyorum.

Sorulara, "Foo Nerede Doğdu?" Gibi her türlü soruya otomatik olarak yanıt verecek bir şey yapıyorum. ...

Önce bir arama motoruna bir sorgu yapmak, sonra sonuç olarak bazı metin verileri almak, sonra tüm ayrıştırma şeyler (etiketleme, stemming, ayrıştırma, bölme ...)

İlk yaklaşımım bir tablo, her satırda bir metin satırı ve "İlk Kelime", "İlk Kelimenin Etiketi", "Parçalar", vb.

Fakat bu yaklaşımla cümleler arasındaki ilişkileri kaçırıyorum.

Ağaç yapılarının (veya vektörlerin) içine bakan ve ilişkileri yapan ve tahmin / sınıflandırma için uygun olan her şeyi elde eden bir algoritma olup olmadığını bilmek istiyorum. Bunu yapmak zorunda olduğum bir algoritma yerine bunu yapan bir kütüphane hakkında bilmek istiyorum.


Lütfen açıklığa kavuşturun: Sütun 2'yi bir özellik olarak kullanmak istediğinizi söylüyorsunuz, ancak Sütun 2'yi tahmin etmek / sınıflandırmak istediğinizi söylüyorsunuz. Ayrıca, bu özelliği 'atomik olmayan' olarak adlandırıyorsunuz ... bunun kategorik olmadığı anlamına mı geliyorsunuz?
logc

Yanıtlar:


7

Birçok farklı veri türüyle uğraşmaya gelince, özellikle aralarındaki ilişkiler belirsiz olduğunda, karar ağaçlarına dayanan bir teknik şiddetle tavsiye ederim , bugün en popüler olanlarımın en iyisi rastgele orman ve son derece rastgele ağaçlar .

Her ikisinin de sklearn'de uygulamaları vardır ve kullanımı oldukça kolaydır. Çok yüksek düzeyde, decision treetemelli bir yaklaşımın birden fazla farklı veri türü için avantajlı olmasının nedeni, karar ağaçlarının, temsilinizi anlayabildikleri sürece, ele aldıkları belirli verilerden büyük ölçüde bağımsız olmalarıdır.

Verilerinizi yine de bir tür özellik vektörüne sığdırmanız gerekir, ancak oldukça basit bir görev gibi görünen örneğinize dayanır ve uygulamanızda biraz daha derine inmek istiyorsanız kesinlikle temel algoritmada herhangi bir şeyi değiştirmek zorunda kalmadan özel bir ağaç ayırma kuralı. Orijinal kağıt Eğer bir atış olduğunu vermek istiyorsanız başlamak için oldukça iyi bir yerdir.

Yine de metin verilerinizden sözde yapısal veriler istiyorsanız doc2vec, yakın zamanda Google tarafından geliştirilen, bakmanızı önerebilirim . Şu anda iyi bir açık kaynak uygulaması olduğunu düşünmüyorum, ancak word2vecen azından Cve uygulamaları olan algoritmada oldukça basit bir gelişme python.

Umarım yardımcı olur! Başka sorunuz varsa bize bildirin.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.