İyi soru. @ G5W, Wei-Yin Loh'ın kağıdına atıfta bulunmak için doğru yolda. Loh'un makalesi karar ağaçlarının istatistiksel öncüllerini tartışıyor ve doğru şekilde konumlarını Fisher'ın (1936) ayırt edici analiz üzerine çıkarıyor - temelde birden fazla grubu bağımlı değişken olarak sınıflandırarak regresyon - ve buradan AID, THAID, CHAID ve CART modelleri
Kısa cevap, “karar ağacı” yaklaşımı geliştirdiğini belirlediğim ilk makalenin 1959'a ve İngiliz araştırmacı William Belson'a Biyolojik Sınıflandırma İlkesi Eşleştirme ve Tahmin Etme başlıklı bir makalede yazdığıdır ( JRSS). .., Seri C Uygulamalı İstatistik, Cilt 8, No. 2, Haziran, 1959, sayfa 65-75), bunların arka biri kendi yaklaşımı tarif uygun popülasyon örnekleri ve bunun için kriterler oluşturmak:
Bu makalede Dr Belson, popülasyon örneklerini eşleştirmek için bir teknik açıklar. Bu, mevcut en iyi öngörücü veya eşleştirici kompoziti elde etmek için deneysel olarak geliştirilmiş tahmin edicilerin kombinasyonuna bağlıdır. Temel prensip, çoklu korelasyon metodundaki doğaldan oldukça farklıdır.
"Uzun" cevabı, diğer, hatta daha önceki düşünce akımlarının burada alakalı göründüğü. Örneğin, aktüeryal mortalite tablolarında kullanılan basit yaş cinsiyet kohortu kopuşları, birkaç yüzyıl öncesine dayanan kararlar hakkında düşünmek için bir çerçeve sunmaktadır. Ayrıca, Babillilere dayanan çabaların değişkenlerde doğrusal olmayan kuadratik denklemler kullandığı da tartışılabilir (parametrelerde değil, http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations). html ) alaka düzeyine sahip, en azından lojistik büyümenin parametrik modellerini hazırladıkları sürece (bunun bir uzatma olduğunu kabul ediyorum).Yorum, daha dolu bir motivasyon için lütfen okumaya devam edin). Ek olarak, filozoflar uzun süredir hiyerarşik olarak düzenlenmiş, nitel bilgilerin, örneğin Aristoteles'in Kategoriler Kitabı'nın varlığını kabul etmiş ve teorileştirmişlerdir . Bir hiyerarşi kavramı ve varsayımı burada anahtardır. Diğer ilgili, çok daha sonra yapılan keşifler, David Hilbert'in sonsuz, Hilbert'in gelişiminde 3-D Euclid uzayının sınırlarının ötesine geçiyordu.uzay, birleştirici, 4-D Minkowski ile ilgili fizikteki keşifler, uzay, mesafe ve zaman, Einstein'ın özel görelilik teorisinin ardındaki istatistiksel mekaniğin yanı sıra markov zincirleri, geçişler ve süreçlerin modellerine ilişkin olasılık teorisindeki yenilikler. Buradaki nokta, herhangi bir teoriyle uygulaması arasında önemli bir gecikme olabileceğidir - bu durumda, niteliksel bilgi teorileri ve deneysel değerlendirme, tahmin etme, sınıflandırma ve modelleme ile ilgili gelişmeler arasındaki gecikme.
En iyi tahmin, bu gelişmelerin, sürekli olarak dışındaki ölçek türlerini kaldıran modeller geliştirmekte (örneğin, nominal veya daha basit, kategorik bilgiler), veri modellerini saymaktan daha çok istatistikçilerin karmaşıklığının artmasıyla ilişkili olabilir. (poisson), çapraz sınıflandırılmış acil durum tabloları, dağılımsız parametrik olmayan istatistikler, çok boyutlu ölçeklendirme (örneğin, diğerlerinin yanı sıra JG Carroll), iki grup lojistik regresyonu gibi kalitatif bağımlı değişkenler ve yazışma analizleri gibi modeller (çoğunlukla Hollanda ve Fransa'da) 70'lerde ve 80'lerde).
İki grup lojistik regresyonunu iki grup ayırıcı analizle tartışıp karşılaştıran ve tam nominal özellikler için bunları eşdeğer çözümler sağladığını tespit eden geniş bir literatür var (örn. Dillon ve Goldstein. Multivariate Analysis , 1984).
JS Cramer'in lojistik regresyonun tarihi hakkındaki makalesi ( Lojistik Regresyonun Tarihi , http://papers.tinbergen.nl/02119.pdf ), tek değişkenli, lojistik fonksiyonun veya klasik S şeklindeki eğrinin gelişmesiyle ortaya çıktığını açıklar. :
Lojistik teriminin hayatta kalması ve cihazın geniş çapta uygulanması, birkaç bilginin kişisel geçmişleri ve bireysel eylemleri tarafından kesin olarak belirlendi ...
Lojistik eğrinin deterministik modelleri, 1825'te, Benjamin Gompertz'in ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) ilk gerçekten doğrusal olmayan lojistik modeli geliştiren bir makale yayınladığı zaman ( parametrelerde doğrusal olmayan ilk modeli (sadece doğrusal olmayan lojistik model) Babilliler) - Gompertz modeli ve eğrisi.
Karar zincirinin icat edilmesine yol açan bu zincirdeki bir diğer önemli bağlantının Columbia sosyolog Paul Lazarsfeld'in gizli yapı modelleri üzerindeki çalışması olduğunu söyleyebilirim. Çalışmaları 30'lu yıllarda başladı, II. Dünya Savaşı sırasında, OSS'ye yönelik Alman gazetelerinin içerik analiziyle devam etti (daha sonra CIA, John Naisbett'in Megatrends kitabında tartışıldığı gibi ) ve nihayet 1950'de yayınlandı. Andersen bunu şöyle açıkladı ( Latent Structure Analysis: Anket , Erling B. Andersen, İskandinavya İstatistik Dergisi , Cilt 9, Sayı 1, 1982, s. 1-12):
Klasik gizli yapı analizi teorisinin temeli, 1950’de II. Dünya Savaşı’ndaki Amerikan askerlerinin etnik kökenleri üzerine yapılan bir çalışmada Paul Lazarsfeld tarafından geliştirilmiştir. Lazarsfeld temel olarak gizli yapı modellerinin kavramsal temelini geliştirmekle ilgileniyordu ... Lazarsfeld tarafından geliştirilen istatistiksel yöntemler oldukça ilkeldi ... Lazarsfeld'in Columbia Üniversitesi'ndeki meslektaşı tarafından verimli tahmin yöntemleri ve test prosedürleri elde etmek için erken bir girişimde bulunuldu. , Bir makalede bulunan TW Anderson, ( Psychometrika , Mart 1954, Cilt 19, Sayı 1, s. 1-10, Gizli yapı analizinde parametrelerin tahmini üzerine), gizli sınıf modelinin parametreleri için etkin bir tahmin yöntemi geliştirdi ... Çerçeveyi (gizli sınıf modellerin) tanıtmak için, temel kavramları kısaca açıklayacağız ... ve daha sonra Goodman tarafından geliştirilen bir gösterim sistemini kullanacağız. (1974a) ... Veriler çoklu beklenmedik durum tablosu şeklinde verilmiştir ...
Acil durum tablosu tabanlı modeller (modeldeki tüm değişkenler nominal olarak ölçeklendirilmiş) ve daha yeni latent sınıf modeller (AID'den CHAID'ye (sonraki CART) ilerlemeyle ilgili olabileceği için burada yapılmaya değer bir ayrım vardır. tam olarak, ölçeklerin ve dağıtımların "karışımlarını" temel alan sonlu karışım modelleri, örneğin, Kamakura ve Russell, 1989, Pazar Bölümlemesi ve Esneklik Yapısı İçin Olasılıklı Bir Seçim Modeli) modelin kalıntılarını nasıl yarattıklarına. Eski beklenmedik durum tablosu modelleri için hücre, tamamen çapraz sınıflandırılmış tabloda yer alan sayımları, "kopyalamalar" için temel oluşturdu ve bu nedenle, modelin sınıflandırmada kullanılan bölümlerinde bulunan heterojenlik. Öte yandan, daha yeni karışım modelleri, kalıntılardaki heterojenliği ayırmanın temeli olarak tek bir konu boyunca tekrarlanan ölçümlere dayanmaktadır. Bu cevap değilgizli sınıf modelleri ve karar ağaçları arasında doğrudan bir bağlantı olduğunu öne sürmek. AID ve CHAID ile alaka düzeyi, modelleri değerlendirmek için kullanılan istatistiklerde özetlenebilir, AID sürekli bir F dağılımı kullanırken, CHAID kategorik bilgiler için uygun ki-kare dağılımını kullanır. Durumsallık tablolarının analizi ve modellenmesi yerine, LCM'ler, bence, bilhassa not edilen diğer birçok yenilikle birlikte, karar ağaçlarının gelişmesine yol açan bilmecede veya anlatımda önemli bir parça oluşturmaktadır.
CHAID, daha sonra, Güney Afrika'daki Gordon Kass tarafından 1980’de yapılan doktora tezinde, CHAID’deki bu Wiki kitabında belirtildiği gibi önerilen bir gelişmedir ( https://en.wikipedia.org/wiki/CHAID ). Elbette, CART bir kaç yıl sonra 80'lerde Breiman ve arkadaşlarının şimdi ünlü kitabı Sınıflandırma ve Regresyon Ağaçları kitabıyla geldi .
YARDIM, CHAID ve CART, ağacın benzeri, hiyerarşik olarak düzenlenmiş yapıları gerçeğin en iyi temsili olarak gösterir. Sadece farklı algoritmalar ve yöntemler kullanarak bu konuda giderler. Bana göre, bu ilerici yenilik zincirindeki bir sonraki adımlar, teorik olarak tanımlanamayan yapı teorilerinin ortaya çıkmasıdır. Bu Wiki makalesinde tanımlandığı gibi, "hiyerarşik olmayan" kuruluşun öğelerinin sıralanmadığı (hiyerarşik olmayan) veya farklı şekillerde sıralanma potansiyeline sahip bir organizasyon sistemidir "( https: //en.wikipedia .org / wiki / Heterarchy veya heterarchy hakkında daha derin, daha felsefi bir bakış açısı için bkz. Kontopoulos, Sosyal Yapı Mantığı). Ampirik bir bakış açısına göre, ağ yapılarının analizi ve modellenmesi yapıların anlaşılmasındaki bu tarihsel gelişmenin en temsilidir (örneğin, Freeman'ın Sosyal Ağ Analizinin Geliştirilmesi kitabı ). Pek çok ağ analisti, sonuçta ortaya çıkan ağda hiyerarşik bir düzenleme yapmaya çalışacak ve zorlayacak olsa da, bu, karmaşık bir dünyadaki multipleks ağ yapısının ampirik gerçekliği hakkında bir ifadeden çok, kökleşmiş ve bilinçsiz varsayımların bir ifadesidir.
Bu yanıt, karar ağaçlarının gelişmesine yol açan evrimin, süreçte her aşamada veya aşamada yeni çözümler ve yeni modeller gerektiren yeni "son teknoloji" yöntemlerle yeni sorular veya memnuniyetsizlik yarattığını göstermektedir. Bu durumda, iki grubun modellenmesinin (lojistik regresyon) sınırlandırılmasında ve bu çerçeveyi iki gruba genişletme ihtiyacının tanınmasında memnuniyetsizlikler görülebilir. Parametrik olmayan, dağıtım gerektirmeyen varsayımların ve modellerin (örn., CHAID ve CART) kullanılmasında bulunacak "normal dağılıma ilişkin normal olmayan varsayımların varsayımları (disriminant analiz veya AID) ile memnuniyetsizliğin yanı sıra, göreceli" özgürlük "ile karşılaştırılması.
Önerildiği gibi, karar ağaçlarının kökenlerinin neredeyse yüzyıllar öncesine dayanan ve coğrafi olarak dağılmış uzun bir geçmişi vardır. İnsanlık tarihi, bilim, felsefe ve düşüncedeki çoklu akımlar, günümüzde mevcut olan karar ağaçlarının lezzetlerinin gelişmesine yol açan anlatıyı ana hatlarıyla ortaya koyar. Bu tarihle ilgili kısa eskizimin önemli sınırlamalarını kabul eden ilk kişi ben olacağım.
/ ** Ekler ** /
Yeni Bilim Adamı'ndaki bu 2014 makalesinin başlığı, bilgileri ağaçlarda düzenlemeyi neden seviyoruz? ( Https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), Veri görselleştirme gurusu Manuel Lima'nın kitabının bir incelemedir Kitabı ağaç bir görselleştirme ve bilgisi için hatırlatıcı yardımı olarak ağaçlar bin y eski kullanımı izler. Çok az soru var, ancak AID, CHAID ve CART gibi yöntemlere özgü laik ve ampirik modeller ve grafiklerin, bu orijinal dini sınıflandırma geleneğinin devam eden evrimini temsil ettiği görülüyor.
Bu videoda (çevrimiçi olarak CART yazılımı uygulayıcıları Salford Systems tarafından yayınlanan), Leo Breiman A Tribute , Breiman, CART metodolojisine yol açan düşüncesinin gelişimi hakkında konuşuyor. Her şey, 2. Dünya Savaşı dönemindeki savaş savaşlarının siluetleri ile sıvanmış bir duvarla başladı.
https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323
Denis Konig'in 1936'da Sonlu ve Sonsuz Grafikler Teorisi'ne girişini okurken, daha önce çocuklar için eğlence ve bulmaca kaynağı olarak görülen bir alana ilk katı, matematiksel zemini sağladığı gibi, Tutte (s. 13) Konig'in kitabının 4'ü (s. 62'den başlayarak) grafik teorisinde ağaçlara ayrılmıştır. Tutte'nin Konig'in bir ağaç tanımını açıklaması “bir 'asiklik' grafiğin devre olmayan bir grafik olduğu, bir ağaç sonlu bir bağlı asiklik grafiktir, başka bir deyişle bir ağaçta bir ve sadece bir yol vardır. vertex başkasına verilmiş ... "Bana (ve ne bir grafik teorisyenine ne de bir matematikçiyim), bu, grafik teorisini ve öncüllerini Poincare'in Analiz Situs'unda veya Veblen'de önerir. Birleştirici topoloji üzerine dersler, daha sonra istatistikçiler için bir konu haline gelen erken entelektüel ve matematiksel öncülleri sağlamış olabilir.
İlk Bilgi Ağacı yaygın olarak, yaklaşık 270 CE, bilgiyi tanımlamak ve düzenlemek için metaforik bir ağaç kullanan Mantığa Giriş yazan, neoplatonik filozof Porfirine atfedilir ... http://www.historyofinformation.com/expanded.php? id = 3857
Bu Wiki makalesinde değinilen, İncil'deki Yaratılış Kitabı'ndaki Bilgi Ağacı'na daha erken bir referans bulduk ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) . Genesis muhtemelen bu referansa dayanarak 1.400 BCE'ye dayanıyor ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ Ne olursa olsun, Yaratılış Kitabı daha önce birkaç yüzyıl önce geldi Porfir.
Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)
ancak kesinlikle ilk değil. Wisconsin Üniversitesi'nden Wei-Yin Loh, karar ağaçlarının tarihi hakkında yazdı. İşte bir kağıt ve tarihin bazı slaytlar .