Veri madenciliğinde kaos teorisinin bilinen, mevcut pratik uygulamaları nelerdir?


13

Son birkaç yılda kaos teorisi üzerinde bazı kitlesel pazar çalışmalarını rasgele okurken, veri madenciliği ve sinir ağları, örüntü tanıma, belirsizlik yönetimi vb. Gibi ilgili alanlara çeşitli yönlerinin nasıl uygulanabileceğini merak etmeye başladım. yayınlanmış araştırmada bu tür uygulamaların o kadar az örneğiyle karşılaştım ki, a) bilinen, yayınlanmış deney ve projelerde gerçekten uygulamaya konulduklarını ve alanlar?

Şimdiye kadar gördüğüm kaos teorisi tartışmalarının çoğu, tamamen yararlı olan ancak veri madenciliği ve örüntü tanıma gibi ilgili alanlarla pek ilgisi olmayan bilimsel uygulamalar etrafında dönmektedir. arketipik örneklerden biri fizikten Üç Beden Problemidir. Bu tür sıradan bilimsel uygulamaların tartışılmasından vazgeçmek ve soruyu sadece veri madenciliği ve literatürde çok az gibi görünen ilgili alanlarla açıkça ilgili olan uygulamalarla sınırlamak istiyorum. Aşağıdaki potansiyel uygulamalar listesi, yayınlanmış araştırmalar için bir aramanın başlangıç ​​noktası olarak kullanılabilir, ancak yalnızca varsa gerçekten uygulamaya konulmuş uygulamalarla ilgileniyorum. Aradığım şey, veri madenciliğine kaos teorisinin bilinen uygulamaları, potansiyel uygulamalar listesinin aksine, çok daha geniş. İşte okuma sırasında başıma gelen veri madenciliği uygulamaları için kelepçeli olmayan fikirlerden küçük bir örnekleme; belki hiçbiri pragmatik değildir, belki bazıları konuştuğumuz gibi pratik kullanıma sokulmaktadır, ancak henüz aşina olmadığım terimlerle anlaşılmaktadır:

  1. Mandelbrot'un birkaç on yıl önce analog telefon hatlarındaki hata patlamalarında pratik bir şekilde yaptığı gibi, desen tanımada kendine benzer yapıları tanımlamak.
  2. Feigenbaum'un madencilik sonuçlarındaki sabitiyle karşılaşmak (belki de string teorisyenlerinin araştırmaları sırasında Maxwell Denklemlerinin beklenmedik yerlerde ortaya çıktığını görmeye nasıl benzer bir şekilde).
  3. Sinir ağı ağırlıkları ve çeşitli madencilik testleri için optimum bit derinliğinin belirlenmesi. Bunu kaosla ilgili işlevlerin öngörülemezliğinden kısmen sorumlu olan başlangıç ​​koşullarına duyarlılığın devreye girdiği, son derece küçük sayısal ölçekler nedeniyle merak ettim.
  4. Kesirli boyutlar kavramını Menger Süngerleri, Koch Eğrileri veya Sierpinski Halıları gibi büyüleyici fraktal meraklarla ilgili olması gerekmeyen başka şekillerde kullanmak. Belki de kavram, madencilik modellerinin boyutlarına, kesirli olarak davranılarak faydalı bir şekilde uygulanabilir mi?
  5. Fraktallar halinde devreye girenler gibi güç yasaları çıkarmak.
  6. Fraktallarda karşılaşılan işlevler doğrusal olmadığından, doğrusal olmayan regresyon için bazı pratik uygulamalar olup olmadığını merak ediyorum.
  7. Kaos teorisinin entropiye bazı teğet (ve bazen abartılmış) ilişkileri vardır, bu yüzden kaos teorisinde kullanılan işlevlerden Shannon'un Entropisini (veya bunun ve akrabaları ile sınırlanan) hesaplamanın bir yolu olup olmadığını merak ediyorum ya da tam tersi.
  8. Verilerde dönem ikiye katlama davranışını tanımlama.
  9. Yararlı bir şekilde "kendi kendini organize etme" olasılığı en yüksek olanları akıllıca seçerek bir sinir ağı için en uygun yapıyı belirlemek.
  10. Kaos ve fraktallar da teğetsel olarak hesaplama karmaşıklığıyla ilişkilidir, bu yüzden karmaşıklığın kaotik yapıları tanımlamak için kullanılabileceğini veya tam tersini merak ediyorum.
  11. Lyapunov üssünü ilk önce kaos teorisi açısından duydum ve o zamandan beri birkaç kez belirli sinir ağları ve entropi tartışmaları tariflerinde fark ettim.

Burada listelediğim muhtemelen onlarca başka ilişki var; bütün bunlar kafamın tepesinden geldi. Bu özel spekülasyonlara özel cevaplarla dar bir şekilde ilgilenmiyorum, ancak onları vahşi doğada olabilecek uygulama türlerine örnek olarak atıyorum. Uygulamalar özellikle veri madenciliği için geçerli olduğu sürece, mevcut araştırma örnekleri ve bunun gibi mevcut fikir uygulamalarına sahip yanıtları görmek istiyorum.

Muhtemelen tanımadığım diğer alanlarda (bilgi teorisi, bulanık kümeler ve sinir ağları gibi) ve regresyon gibi daha az yetkinliğe sahip olduğum diğer alanlarda bile daha fazla girdi olduğum farkında değilim hoş geldin. Buradaki pratik amacım, kaos teorisinin belirli yönlerini öğrenmek için daha fazla yatırım yapıp yapmayacağımı belirlemektir.

Ben CrossValidated bir arama yaptım ancak doğrudan vb iplik gelebileceğimi yakın oldu madencilik verilere kaos teorisi faydacı uygulamalarını ele dair herhangi konular görmedik Kaos teorisi, denklem serbest modelleme ve parametrik olmayan istatistikler , fırsatlar belirli bir alt kümeyle.


Yorumlar uzun tartışmalar için değildir; bu görüşme sohbete taşındı .
whuber

Yanıtlar:


7

Pratik bir yaklaşım olarak veri madenciliği (DM), matematiksel modelleme (MM) yaklaşımlarını neredeyse tamamlayıcı ve hatta bir kaos teorisine (CT) aykırı görünmektedir. Önce DM ve genel MM hakkında konuşacağım, sonra CT'ye odaklanacağım.

Matematiksel modelleme

Ekonomik modellemede DM, yakın zamana kadar neredeyse bir tabu olarak kabul edildi, nedensellik ve ilişkiler hakkında bilgi edinmek yerine korelasyonlar için balık kesmek , SAS blogunda bu gönderiye bakın . Tutum değişiyor, ancak sahte ilişkiler , veri tarama , p-hack vb. İle ilgili birçok tuzak var .

Bazı durumlarda, DM yerleşik MM uygulamalarına sahip alanlarda bile meşru bir yaklaşım gibi görünmektedir. Örneğin, DM, çok fazla veri üreten, parçacık parçalarını düşünen fiziksel deneylerde parçacık etkileşimlerini aramak için kullanılabilir. Bu durumda fizikçiler parçacıkların nasıl göründüğü hakkında bir fikre sahip olabilir ve veri kümelerindeki desenleri arayabilirler.

Kaos teorisi

Kaotik sistem muhtemelen DM teknikleri ile analize karşı özellikle dirençlidir. Yaygın psudo-random sayı üreteçlerinde kullanılan, bilindik bir doğrusal eşlenik yöntemi ( LCG ) düşünün . Aslında kaotik bir sistemdir . Bu nedenle rastgele sayıları "taklit etmek" için kullanılır. İyi bir jeneratör rastgele bir sayı dizisinden ayırt edilemez. Bu, istatistiksel yöntemler kullanarak rastgele olup olmadığını belirleyemeyeceğiniz anlamına gelir. Buraya veri madenciliğini de ekleyeceğim. Veri madenciliği ile RAND () oluşturulan dizisinde bir desen bulmaya çalışın! Yine de, bildiğiniz gibi tamamen deterministik bir sekanstır ve denklemleri de son derece basittir.

Kaos teorisi rastgele benzerlik kalıpları aramakla ilgili değildir. Kaos teorisi, süreçte ve dinamik ilişkiler hakkında öğrenmeyi içerir, böylece sistemde küçük rahatsızlıklar yükselen kararsız davranışlar yaratırken, bir şekilde bu kaosta istikrarlı modeller ortaya çıkar. Tüm bu harika şeyler, denklemlerin özellikleri nedeniyle gerçekleşir. Araştırmacılar daha sonra bu denklemleri ve sistemlerini inceliyorlar. Bu, uygulamalı veri madenciliğinin zihin kümesinden çok farklıdır.

Örneğin, kaotik sistemleri incelerken öz-benzerlik kalıpları hakkında konuşabilir ve veri madencilerinin kalıp arayışı hakkında da konuştuklarını fark edebilirsiniz. Ancak, bu "desen" kavramını çok farklı ele alır. Kaotik sistem bu örüntüleri denklemlerden üretecektir. Gerçek sistemleri vb. İzleyerek denklem kümelerini bulmaya çalışabilirler, ancak her zaman bir noktada denklemlerle ilgilenirler. Veri madencileri diğer taraftan gelecekti ve sistemin iç yapısı hakkında fazla bir şey bilmeyecek ya da tahmin edemeyecek, kalıplar aramaya çalışacaktı. Bu iki grubun aynı gerçek sistemlere veya veri setlerine baktığını düşünmüyorum.

Başka bir örnek, Feigenbaum'un ünlü dönemini iki katına çıkarmak için yarattığı en basit lojistik harita.

resim açıklamasını buraya girin

Denklem gülünç derecede basittir: Henüz, veri madenciliği teknikleriyle nasıl keşfedeceğini göremiyorum.

xn+1=rxn(1xn)


(1). Kaotik bir sistemin davranışını belirleyen denklemi saptayabildiğinizde, bu davranışı tamamen veya ona yakın olarak tahmin edebileceğinizi de ekleyeceğim. Veri madenciliği / tahmine dayalı modellemede nadiren bir R kare>> 5 elde edebiliriz.
rolando2

+1 bu kesinlikle bir süredir hazırlandığım cevabı tamamlayıcı, ki birkaç saat içinde yayınlayacağım.
SQLServerSteve

4

Bu soruyu cevaplamak için kaos teorisini okurken ortaya çıkardığım en garip şey, veri madenciliğinin ve akrabalarının kaos teorisinden yararlandığı şaşırtıcı bir araştırma eksikliğiydi. Bu, AB belambel'in Uygulamalı Kaos Teorisi: Karmaşıklık için Bir Paradigma ve Alligood ve diğerleri Kaos: Dinamik Sistemlere Giriş gibi kaynaklara danışarak onları bulmak için uyumlu bir çabaya rağmen (ikincisi, bu konu) ve kaynakçalarını bastırma. Tüm bunlardan sonra, sadece uygun olabilecek tek bir çalışma hazırlayacaktım ve sadece bu son durumu dahil etmek için “veri madenciliği” sınırlarını genişletmek zorunda kaldım: Teksas Üniversitesi'nden Belousov-Zhabotinsky (BZ) reaksiyonları (zaten aperiodisiteye eğilimli olduğu bilinen) üzerinde araştırma yapan bir ekip, malonik asitte, kaotik desenlerden dolayı kullanılan deneylerinde kullanılan tutarsızlıkları yanlışlıkla keşfetti. satıcılar [1]. Muhtemelen başkaları da var - kaos teorisinde uzman değilim ve literatürün kapsamlı bir değerlendirmesini yapamıyorum - ancak üç beden problemi gibi fizikten sıradan bilimsel kullanımlarla keskin bir orantısızlık, hepsini saymamız halinde çok fazla değişmeyecekti. Aslında, bu sorunun kapatıldığı arada, “Veri Madenciliği ve İlgili Alanlarda Neden Kaos Teorisinin Çok Az Uygulaması Var?” Başlığı altında yeniden yazmayı düşündüm. Bu, veri madenciliği ve ilgili alanlarda, nöral ağlar, örüntü tanıma, belirsizlik yönetimi, bulanık kümeler, vb. sonuçta, kaos teorisi aynı zamanda birçok yararlı uygulamaya sahip son teknoloji bir konudur. Aramamın neden sonuçsuz olduğunu ve izlenimin yanlış olduğunu anlamak için bu alanlar arasındaki sınırların tam olarak nerede olduğunu uzun ve çok düşünmek zorunda kaldım.

The; tldr Yanıt

Çalışma sayısındaki bu kesin dengesizliğin kısa açıklaması ve beklentilerden sapma, kaos teorisi ve veri madenciliği vb .'nin iki ayrı soru sınıfını cevapladığı gerçeğine atfedilebilir; aralarındaki keskin ikilik bir zamanlar belirdi, ancak kendi burnuna bakmak gibi, fark edilmeden gitmek kadar temel. Kaos teorisinin ve veri madenciliği gibi alanların göreceli yeniliğinin, uygulamaların bazı eksikliklerini açıkladığı inancı için bir gerekçe olabilir, ancak bu alanlar olgunlaştıkça bile göreceli dengesizliğin devam etmesini bekleyebiliriz, çünkü sadece aynı para. Şimdiye kadar yapılan uygulamaların neredeyse tamamı, birkaç şaşırtıcı kaotik sapma sergileyen iyi tanımlanmış çıktıları olan bilinen işlevler üzerinde yapılan çalışmalarda, oysa veri madenciliği ve sinir ağları ve karar ağaçları gibi münferit tekniklerin tümü, bilinmeyen veya zayıf tanımlanmış bir fonksiyonun belirlenmesini içerir. Örüntü tanıma ve bulanık kümeler gibi ilgili alanlar da, o kuruluşun araçları da kolayca görülmediği zaman, genellikle bilinmeyen veya kötü tanımlanmış işlevlerin sonuçlarının organizasyonu olarak görülebilir. Bu, yalnızca belirli nadir durumlarda geçilebilen pratik olarak aşılmaz bir uçurum yaratır - ancak bunlar bile tek kullanımlık bir durumun altında toplanabilir: veri madenciliği algoritmaları ile açıklıksız etkileşimi önler. Örüntü tanıma ve bulanık kümeler gibi ilgili alanlar da, o kuruluşun araçları da kolayca görülmediği zaman, genellikle bilinmeyen veya kötü tanımlanmış işlevlerin sonuçlarının organizasyonu olarak görülebilir. Bu, yalnızca belirli nadir durumlarda geçilebilen pratik olarak aşılmaz bir uçurum yaratır - ancak bunlar bile tek kullanımlık bir durumun altında toplanabilir: veri madenciliği algoritmaları ile açıklıksız etkileşimi önler. Örüntü tanıma ve bulanık kümeler gibi ilgili alanlar da, o kuruluşun araçları da kolayca görülmediği zaman, genellikle bilinmeyen veya kötü tanımlanmış işlevlerin sonuçlarının organizasyonu olarak görülebilir. Bu, yalnızca belirli nadir durumlarda geçilebilen pratik olarak aşılmaz bir uçurum yaratır - ancak bunlar bile tek kullanımlık bir durumun altında toplanabilir: veri madenciliği algoritmaları ile açıklıksız etkileşimi önler.

Kaos Bilimi İş Akışı ile Uyumsuzluk

“Kaos bilimindeki” tipik iş akışı, bifürkasyon diyagramları, Hénon haritaları, Poincaré kesitleri, faz diyagramları ve faz yörüngeleri gibi, genellikle faz alanının görsel yardımcılarının yanında, bilinen bir fonksiyonun çıktılarının hesaplamalı bir analizini yapmaktır. Araştırmacıların hesaplama deneylerine güvenmesi, kaotik etkilerin ne kadar zor bulunacağını göstermektedir; normalde kalem ve kağıtla belirleyebileceğiniz bir şey değil. Ayrıca sadece doğrusal olmayan fonksiyonlarda ortaya çıkarlar. Bilinen bir işlevimiz olmadığı sürece bu iş akışı mümkün değildir. Veri madenciliği regresyon denklemleri, bulanık fonksiyonlar ve benzerlerini verebilir, ancak hepsi aynı sınırlamayı paylaşırlar: hatalar için çok daha geniş bir pencereye sahip olan sadece genel yaklaşımlardır. Aksine, kaosa maruz kalan bilinen işlevler nispeten nadirdir, kaotik desenler veren girdi aralıkları gibi, kaotik etkileri test etmek için bile yüksek derecede özgüllük gerekir. Bilinmeyen fonksiyonların faz boşluğunda bulunan garip çekiciler, tanımları ve girdileri değiştikçe kesinlikle değişecek veya ortadan kalkacak ve Alligood, et al.

Veri Madenciliği Sonuçlarında Bulaşıcı Olarak Kaos

Aslında, veri madenciliği ve akrabalarının kaos teorisiyle ilişkisi pratik olarak çekicidir. Şifreleme şemalarındaki kaostan yararlanma konusunda en az bir araştırma kağıdına rastladığım göz önüne alındığında, kriptanalizi geniş bir şekilde belirli bir veri madenciliği biçimi olarak görürsek, bu gerçekten doğrudur (Şu anda alıntıyı bulamıyorum, ancak avlayabilirim) istek üzerine aşağı). Bir veri madencisi için, kaosun varlığı normalde kötü bir şeydir, çünkü çıktı verdiği görünüşte saçma değer aralıkları, bilinmeyen bir işleve yaklaşmanın zaten zorlu sürecini büyük ölçüde karmaşıklaştırabilir. Veri madenciliği ve ilgili alanlarda kaos için en yaygın kullanım, onu ortadan kaldırmaktır, bu da demek değildir. Kaotik etkiler mevcut ama fark edilmemişse, bunların bir veri madenciliği girişimi üzerindeki etkilerinin üstesinden gelmek zor olabilir. Sıradan bir sinir ağının veya karar ağacının kaotik bir çekicinin görünüşte saçma çıktının ne kadar kolay geçebileceğini veya giriş değerlerindeki ani artışların kesinlikle regresyon analizini nasıl engelleyebileceğini ve kötü örneklere veya diğer hata kaynaklarına atfedilebileceğini düşünün. Tüm işlevler ve girdi aralıkları arasındaki kaotik etkilerin nadir görülmesi, bunlarla ilgili soruşturmanın deneyciler tarafından ciddi ölçüde depireitleştirileceği anlamına gelir.

Veri Madenciliği Sonuçlarında Kaos Tespit Yöntemleri

Kaos teorisiyle ilişkili bazı önlemler, Kolmogorov Entropisi ve faz boşluğunun pozitif bir Lyapunov üssü sergilemesi şartı gibi aperiodik etkilerin tanımlanmasında yararlıdır. Bunların her ikisi de AB belambel'in Uygulamalı Kaos Teorisinde sağlanan kaos tespiti için kontrol listesinde [2], ancak çoğu bilinen limitleri olan belirli fonksiyonlar gerektiren Lyapunov üssü gibi yaklaşık fonksiyonlar için yararlı değildir. Genel prosedürü yine de veri madenciliği durumlarında yararlı olabilir; Belambel'in amacı nihayetinde bir “kaos kontrolü” programı, yani karışan aperiodik etkilerin ortadan kaldırılmasıdır. [3] Kaosa yol açan kesirli boyutların saptanması için kutu sayımı ve korelasyon boyutlarının hesaplanması gibi diğer yöntemler, veri madenciliği uygulamalarında Lyapunov ve listesindeki diğerlerinden daha pratik olabilir. Kaotik etkilerin diğer bir belirtisi, faz çıktılarında genellikle aperiodik (yani "kaotik") davranıştan önce gelen fonksiyon çıktılarında dönem ikiye katlama (veya üç kat ve daha fazla) örüntülerinin varlığıdır.

Teğetsel Uygulamaların Farklılaştırılması

Bu birincil kullanım durumu, sadece kaos teorisiyle teğet olarak ilişkili ayrı bir uygulama sınıfından ayırt edilmelidir. Daha yakından incelendiğimde, sorumda verdiğim “potansiyel uygulamalar” listesi neredeyse tamamen kaos teorisinin bağlı olduğu, ancak aperiodik davranışın (dönem ikiye katlanması hariç) bağımsız olarak uygulanabilecek kavramlardan yararlanma fikirlerinden oluşuyordu. Son zamanlarda, yerel minimadan pop sinir ağlarına popperetik davranış üreten yeni bir potansiyel niş kullanımını düşündüm, ancak bu da teğet uygulamalar listesine ait olacaktı. Birçoğu kaos bilimine yönelik araştırmalar sonucunda keşfedildi veya ete geçti, ancak diğer alanlara da uygulanabilir. Bu “teğet uygulamaların” birbirleriyle sadece bulanık bağlantıları vardır, ancak farklı bir sınıf oluştururlar, veri madenciliğinde kaos teorisinin ana kullanım durumundan kesin bir sınırla ayrılmış; ilki, kaos teorisinin aperiodik paternleri olmadan belirli yönlerinden yararlanırken, ikincisi sadece belki de Lyapunov üssünün pozitifliği ve dönem ikilemesinin tespiti gibi ön koşulların kullanımı ile veri madenciliği sonuçlarında karmaşık bir faktör olarak kaosun dışlanmasına ayrılmıştır. . Kaos teorisi ile doğru bir şekilde kullandığı diğer kavramlar arasında ayrım yaparsak, öncül uygulamalarının sıradan bilimsel çalışmada bilinen fonksiyonlarla sınırlı olduğunu görmek kolaydır. Bu ikincil kavramların kaosun yokluğunda potansiyel uygulamaları hakkında heyecanlanmak için gerçekten iyi bir neden var, aynı zamanda, beklenmedik aperiodik davranışın mevcut olduğunda veri madenciliği çabaları üzerindeki kontamine edici etkileri hakkında endişelenmenin de nedeni. Bu tür durumlar nadir olacak, ancak bu nadirlik muhtemelen tespit edilmeyecekleri anlamına gelecektir. Belambel'in yöntemi bu tür problemleri çözmede yararlı olabilir.

[1] s. 143-147, Alligood, Kathleen T .; Sauer, Tim D. ve Yorke, James A., 2010, Kaos: Dinamik Sistemlere Giriş, Springer: New York. [2] s. 208-213, Şambel, AB, 1993, Uygulamalı Kaos Teorisi: Karmaşıklık için Bir Paradigma, Academic Press, Inc .: Boston. [3] s. 215, belambel.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.