Karar ağacını kim icat etti?


24

Karar ağacı veri yapısını ve algoritmasını kimin icat ettiğini bulmaya çalışıyorum.

Karar ağacı öğrenimine ilişkin Wikipedia girişinde "ID3 ve CART'ın aynı anda bağımsız olarak icat edildiği (1970 ile 1980 arasında)" iddiası var. ID3 daha sonra sunuldu:

  • Quinlan, JR 1986. Karar Ağaçlarının İndüksiyonu. Mach. Öğrenin. 1, 1 (Mart 1986), 81-106

bu yüzden iddianın doğru olduğundan emin değilim.

Google kitaplarını kullanarak 1959 kitaplı İstatistiksel karar serisine ve 1958 Çalışma kağıtları koleksiyonuna atıfta bulundum . Bağlam açık değil ve bir algoritma sunmuyor gibi görünüyorlar. Bununla birlikte, veri yapısını tanımlamıyorlar ve iyi bilinen şekilde ele alıyorlar.

Google Akademik’i kullanarak 1853’e dayanan bir alıntı buldum, ancak bunlar ayrıştırma hatalarıydı ve o tarihten itibaren gerçek alıntılar değildi.


9
CART hakkındaki en büyük referans, Classification and Regression Trees Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984)ancak kesinlikle ilk değil. Wisconsin Üniversitesi'nden Wei-Yin Loh, karar ağaçlarının tarihi hakkında yazdı. İşte bir kağıt ve tarihin bazı slaytlar .
G5W

2
Harika referans! İlk regresyon ağacının Morgan, JN ve Sonquist, JA'da (1963) yayınlanan 1963 olduğunu söyledi. Anket verilerinin analizinde sorunlar ve bir öneri. Amerikan İstatistik Kurumu Dergisi, 58: 415–434. Makale pdfs.semanticscholar.org/9577/… adresindedir ve 17. sayfada bir ağaç bulunmaktadır. Veri yapısının 1958'den çok daha erken, hatta daha erken olduğu
görülüyor

@ G5W, neden bunu bir cevaba çevirmiyorsun?
dediklerinin - Eski Monica

7
Bu soru açıkça bana konuyla ilgili görünüyor. Açık bırakmak için oy veriyorum.
dediklerinin - Eski Monica

Harika kurşun. Onu googling yapmaya çalıştım ama doğru olanın kim olduğundan emin değilim. Bir referans verebilir misiniz?
DaL

Yanıtlar:


18

İyi soru. @ G5W, Wei-Yin Loh'ın kağıdına atıfta bulunmak için doğru yolda. Loh'un makalesi karar ağaçlarının istatistiksel öncüllerini tartışıyor ve doğru şekilde konumlarını Fisher'ın (1936) ayırt edici analiz üzerine çıkarıyor - temelde birden fazla grubu bağımlı değişken olarak sınıflandırarak regresyon - ve buradan AID, THAID, CHAID ve CART modelleri

Kısa cevap, “karar ağacı” yaklaşımı geliştirdiğini belirlediğim ilk makalenin 1959'a ve İngiliz araştırmacı William Belson'a Biyolojik Sınıflandırma İlkesi Eşleştirme ve Tahmin Etme başlıklı bir makalede yazdığıdır ( JRSS). .., Seri C Uygulamalı İstatistik, Cilt 8, No. 2, Haziran, 1959, sayfa 65-75), bunların arka biri kendi yaklaşımı tarif uygun popülasyon örnekleri ve bunun için kriterler oluşturmak:

Bu makalede Dr Belson, popülasyon örneklerini eşleştirmek için bir teknik açıklar. Bu, mevcut en iyi öngörücü veya eşleştirici kompoziti elde etmek için deneysel olarak geliştirilmiş tahmin edicilerin kombinasyonuna bağlıdır. Temel prensip, çoklu korelasyon metodundaki doğaldan oldukça farklıdır.

"Uzun" cevabı, diğer, hatta daha önceki düşünce akımlarının burada alakalı göründüğü. Örneğin, aktüeryal mortalite tablolarında kullanılan basit yaş cinsiyet kohortu kopuşları, birkaç yüzyıl öncesine dayanan kararlar hakkında düşünmek için bir çerçeve sunmaktadır. Ayrıca, Babillilere dayanan çabaların değişkenlerde doğrusal olmayan kuadratik denklemler kullandığı da tartışılabilir (parametrelerde değil, http://www-history.mcs.st-and.ac.uk/HistTopics/Quadratic_etc_equations). html ) alaka düzeyine sahip, en azından lojistik büyümenin parametrik modellerini hazırladıkları sürece (bunun bir uzatma olduğunu kabul ediyorum).Yorum, daha dolu bir motivasyon için lütfen okumaya devam edin). Ek olarak, filozoflar uzun süredir hiyerarşik olarak düzenlenmiş, nitel bilgilerin, örneğin Aristoteles'in Kategoriler Kitabı'nın varlığını kabul etmiş ve teorileştirmişlerdir . Bir hiyerarşi kavramı ve varsayımı burada anahtardır. Diğer ilgili, çok daha sonra yapılan keşifler, David Hilbert'in sonsuz, Hilbert'in gelişiminde 3-D Euclid uzayının sınırlarının ötesine geçiyordu.uzay, birleştirici, 4-D Minkowski ile ilgili fizikteki keşifler, uzay, mesafe ve zaman, Einstein'ın özel görelilik teorisinin ardındaki istatistiksel mekaniğin yanı sıra markov zincirleri, geçişler ve süreçlerin modellerine ilişkin olasılık teorisindeki yenilikler. Buradaki nokta, herhangi bir teoriyle uygulaması arasında önemli bir gecikme olabileceğidir - bu durumda, niteliksel bilgi teorileri ve deneysel değerlendirme, tahmin etme, sınıflandırma ve modelleme ile ilgili gelişmeler arasındaki gecikme.

En iyi tahmin, bu gelişmelerin, sürekli olarak dışındaki ölçek türlerini kaldıran modeller geliştirmekte (örneğin, nominal veya daha basit, kategorik bilgiler), veri modellerini saymaktan daha çok istatistikçilerin karmaşıklığının artmasıyla ilişkili olabilir. (poisson), çapraz sınıflandırılmış acil durum tabloları, dağılımsız parametrik olmayan istatistikler, çok boyutlu ölçeklendirme (örneğin, diğerlerinin yanı sıra JG Carroll), iki grup lojistik regresyonu gibi kalitatif bağımlı değişkenler ve yazışma analizleri gibi modeller (çoğunlukla Hollanda ve Fransa'da) 70'lerde ve 80'lerde).

İki grup lojistik regresyonunu iki grup ayırıcı analizle tartışıp karşılaştıran ve tam nominal özellikler için bunları eşdeğer çözümler sağladığını tespit eden geniş bir literatür var (örn. Dillon ve Goldstein. Multivariate Analysis , 1984).

JS Cramer'in lojistik regresyonun tarihi hakkındaki makalesi ( Lojistik Regresyonun Tarihi , http://papers.tinbergen.nl/02119.pdf ), tek değişkenli, lojistik fonksiyonun veya klasik S şeklindeki eğrinin gelişmesiyle ortaya çıktığını açıklar. :

Lojistik teriminin hayatta kalması ve cihazın geniş çapta uygulanması, birkaç bilginin kişisel geçmişleri ve bireysel eylemleri tarafından kesin olarak belirlendi ...

Lojistik eğrinin deterministik modelleri, 1825'te, Benjamin Gompertz'in ( https://en.wikipedia.org/wiki/Benjamin_Gompertz ) ilk gerçekten doğrusal olmayan lojistik modeli geliştiren bir makale yayınladığı zaman ( parametrelerde doğrusal olmayan ilk modeli (sadece doğrusal olmayan lojistik model) Babilliler) - Gompertz modeli ve eğrisi.

Karar zincirinin icat edilmesine yol açan bu zincirdeki bir diğer önemli bağlantının Columbia sosyolog Paul Lazarsfeld'in gizli yapı modelleri üzerindeki çalışması olduğunu söyleyebilirim. Çalışmaları 30'lu yıllarda başladı, II. Dünya Savaşı sırasında, OSS'ye yönelik Alman gazetelerinin içerik analiziyle devam etti (daha sonra CIA, John Naisbett'in Megatrends kitabında tartışıldığı gibi ) ve nihayet 1950'de yayınlandı. Andersen bunu şöyle açıkladı ( Latent Structure Analysis: Anket , Erling B. Andersen, İskandinavya İstatistik Dergisi , Cilt 9, Sayı 1, 1982, s. 1-12):

Klasik gizli yapı analizi teorisinin temeli, 1950’de II. Dünya Savaşı’ndaki Amerikan askerlerinin etnik kökenleri üzerine yapılan bir çalışmada Paul Lazarsfeld tarafından geliştirilmiştir. Lazarsfeld temel olarak gizli yapı modellerinin kavramsal temelini geliştirmekle ilgileniyordu ... Lazarsfeld tarafından geliştirilen istatistiksel yöntemler oldukça ilkeldi ... Lazarsfeld'in Columbia Üniversitesi'ndeki meslektaşı tarafından verimli tahmin yöntemleri ve test prosedürleri elde etmek için erken bir girişimde bulunuldu. , Bir makalede bulunan TW Anderson, ( Psychometrika , Mart 1954, Cilt 19, Sayı 1, s. 1-10, Gizli yapı analizinde parametrelerin tahmini üzerine), gizli sınıf modelinin parametreleri için etkin bir tahmin yöntemi geliştirdi ... Çerçeveyi (gizli sınıf modellerin) tanıtmak için, temel kavramları kısaca açıklayacağız ... ve daha sonra Goodman tarafından geliştirilen bir gösterim sistemini kullanacağız. (1974a) ... Veriler çoklu beklenmedik durum tablosu şeklinde verilmiştir ...

Acil durum tablosu tabanlı modeller (modeldeki tüm değişkenler nominal olarak ölçeklendirilmiş) ve daha yeni latent sınıf modeller (AID'den CHAID'ye (sonraki CART) ilerlemeyle ilgili olabileceği için burada yapılmaya değer bir ayrım vardır. tam olarak, ölçeklerin ve dağıtımların "karışımlarını" temel alan sonlu karışım modelleri, örneğin, Kamakura ve Russell, 1989, Pazar Bölümlemesi ve Esneklik Yapısı İçin Olasılıklı Bir Seçim Modeli) modelin kalıntılarını nasıl yarattıklarına. Eski beklenmedik durum tablosu modelleri için hücre, tamamen çapraz sınıflandırılmış tabloda yer alan sayımları, "kopyalamalar" için temel oluşturdu ve bu nedenle, modelin sınıflandırmada kullanılan bölümlerinde bulunan heterojenlik. Öte yandan, daha yeni karışım modelleri, kalıntılardaki heterojenliği ayırmanın temeli olarak tek bir konu boyunca tekrarlanan ölçümlere dayanmaktadır. Bu cevap değilgizli sınıf modelleri ve karar ağaçları arasında doğrudan bir bağlantı olduğunu öne sürmek. AID ve CHAID ile alaka düzeyi, modelleri değerlendirmek için kullanılan istatistiklerde özetlenebilir, AID sürekli bir F dağılımı kullanırken, CHAID kategorik bilgiler için uygun ki-kare dağılımını kullanır. Durumsallık tablolarının analizi ve modellenmesi yerine, LCM'ler, bence, bilhassa not edilen diğer birçok yenilikle birlikte, karar ağaçlarının gelişmesine yol açan bilmecede veya anlatımda önemli bir parça oluşturmaktadır.

CHAID, daha sonra, Güney Afrika'daki Gordon Kass tarafından 1980’de yapılan doktora tezinde, CHAID’deki bu Wiki kitabında belirtildiği gibi önerilen bir gelişmedir ( https://en.wikipedia.org/wiki/CHAID ). Elbette, CART bir kaç yıl sonra 80'lerde Breiman ve arkadaşlarının şimdi ünlü kitabı Sınıflandırma ve Regresyon Ağaçları kitabıyla geldi .

YARDIM, CHAID ve CART, ağacın benzeri, hiyerarşik olarak düzenlenmiş yapıları gerçeğin en iyi temsili olarak gösterir. Sadece farklı algoritmalar ve yöntemler kullanarak bu konuda giderler. Bana göre, bu ilerici yenilik zincirindeki bir sonraki adımlar, teorik olarak tanımlanamayan yapı teorilerinin ortaya çıkmasıdır. Bu Wiki makalesinde tanımlandığı gibi, "hiyerarşik olmayan" kuruluşun öğelerinin sıralanmadığı (hiyerarşik olmayan) veya farklı şekillerde sıralanma potansiyeline sahip bir organizasyon sistemidir "( https: //en.wikipedia .org / wiki / Heterarchy veya heterarchy hakkında daha derin, daha felsefi bir bakış açısı için bkz. Kontopoulos, Sosyal Yapı Mantığı). Ampirik bir bakış açısına göre, ağ yapılarının analizi ve modellenmesi yapıların anlaşılmasındaki bu tarihsel gelişmenin en temsilidir (örneğin, Freeman'ın Sosyal Ağ Analizinin Geliştirilmesi kitabı ). Pek çok ağ analisti, sonuçta ortaya çıkan ağda hiyerarşik bir düzenleme yapmaya çalışacak ve zorlayacak olsa da, bu, karmaşık bir dünyadaki multipleks ağ yapısının ampirik gerçekliği hakkında bir ifadeden çok, kökleşmiş ve bilinçsiz varsayımların bir ifadesidir.

Bu yanıt, karar ağaçlarının gelişmesine yol açan evrimin, süreçte her aşamada veya aşamada yeni çözümler ve yeni modeller gerektiren yeni "son teknoloji" yöntemlerle yeni sorular veya memnuniyetsizlik yarattığını göstermektedir. Bu durumda, iki grubun modellenmesinin (lojistik regresyon) sınırlandırılmasında ve bu çerçeveyi iki gruba genişletme ihtiyacının tanınmasında memnuniyetsizlikler görülebilir. Parametrik olmayan, dağıtım gerektirmeyen varsayımların ve modellerin (örn., CHAID ve CART) kullanılmasında bulunacak "normal dağılıma ilişkin normal olmayan varsayımların varsayımları (disriminant analiz veya AID) ile memnuniyetsizliğin yanı sıra, göreceli" özgürlük "ile karşılaştırılması.

Önerildiği gibi, karar ağaçlarının kökenlerinin neredeyse yüzyıllar öncesine dayanan ve coğrafi olarak dağılmış uzun bir geçmişi vardır. İnsanlık tarihi, bilim, felsefe ve düşüncedeki çoklu akımlar, günümüzde mevcut olan karar ağaçlarının lezzetlerinin gelişmesine yol açan anlatıyı ana hatlarıyla ortaya koyar. Bu tarihle ilgili kısa eskizimin önemli sınırlamalarını kabul eden ilk kişi ben olacağım.

/ ** Ekler ** /

  1. Yeni Bilim Adamı'ndaki bu 2014 makalesinin başlığı, bilgileri ağaçlarda düzenlemeyi neden seviyoruz? ( Https://www.newscientist.com/article/mg22229630-800-why-do-we-love-to-organise-knowledge-into-trees/ ), Veri görselleştirme gurusu Manuel Lima'nın kitabının bir incelemedir Kitabı ağaç bir görselleştirme ve bilgisi için hatırlatıcı yardımı olarak ağaçlar bin y eski kullanımı izler. Çok az soru var, ancak AID, CHAID ve CART gibi yöntemlere özgü laik ve ampirik modeller ve grafiklerin, bu orijinal dini sınıflandırma geleneğinin devam eden evrimini temsil ettiği görülüyor.

  2. Bu videoda (çevrimiçi olarak CART yazılımı uygulayıcıları Salford Systems tarafından yayınlanan), Leo Breiman A Tribute , Breiman, CART metodolojisine yol açan düşüncesinin gelişimi hakkında konuşuyor. Her şey, 2. Dünya Savaşı dönemindeki savaş savaşlarının siluetleri ile sıvanmış bir duvarla başladı.

https://www.salford-systems.com/videos/conferences/cart-founding-fathers/a-tribute-to-leo-breiman?utm_source=linkedin&utm_medium=social&utm_content=3599323

  1. Denis Konig'in 1936'da Sonlu ve Sonsuz Grafikler Teorisi'ne girişini okurken, daha önce çocuklar için eğlence ve bulmaca kaynağı olarak görülen bir alana ilk katı, matematiksel zemini sağladığı gibi, Tutte (s. 13) Konig'in kitabının 4'ü (s. 62'den başlayarak) grafik teorisinde ağaçlara ayrılmıştır. Tutte'nin Konig'in bir ağaç tanımını açıklaması “bir 'asiklik' grafiğin devre olmayan bir grafik olduğu, bir ağaç sonlu bir bağlı asiklik grafiktir, başka bir deyişle bir ağaçta bir ve sadece bir yol vardır. vertex başkasına verilmiş ... "Bana (ve ne bir grafik teorisyenine ne de bir matematikçiyim), bu, grafik teorisini ve öncüllerini Poincare'in Analiz Situs'unda veya Veblen'de önerir. Birleştirici topoloji üzerine dersler, daha sonra istatistikçiler için bir konu haline gelen erken entelektüel ve matematiksel öncülleri sağlamış olabilir.

  2. İlk Bilgi Ağacı yaygın olarak, yaklaşık 270 CE, bilgiyi tanımlamak ve düzenlemek için metaforik bir ağaç kullanan Mantığa Giriş yazan, neoplatonik filozof Porfirine atfedilir ... http://www.historyofinformation.com/expanded.php? id = 3857

  3. Bu Wiki makalesinde değinilen, İncil'deki Yaratılış Kitabı'ndaki Bilgi Ağacı'na daha erken bir referans bulduk ... https://en.wikipedia.org/wiki/Tree_of_life_(biblical) . Genesis muhtemelen bu referansa dayanarak 1.400 BCE'ye dayanıyor ... https://www.biblica.com/bible/bible-faqs/when-was-the-bible-written/ Ne olursa olsun, Yaratılış Kitabı daha önce birkaç yüzyıl önce geldi Porfir.


1
Harika bir "bu tarihin kısa eskiz" olduğunu. Köklerin 50 yıldan daha derin olması gerektiğini düşündüm ama onların Aristoteles ve Babillilere varacaklarını düşünmedim. Yöntemlerin karar ağacına nasıl yaklaştığını çok iyi gösterdin. Hala daha kesin bir çıkış noktasını özlüyorum. Bir şema gördüğünüz ve şöyle bir şey söylediğiniz eski bir kitaba atıfta bulunmayı umuyordum: "peki, bu bir karar ağacıdır" ;-)
DaL 23:17

1
Soruda ve bazı cevaplarda kullanılan isimlendirmeyi sevmiyorum. CART sınıflandırma ve regresyon ağaçlarının bir nedenidir. Yukarıda belirtildiği gibi bir karar ağacı istatistiksel analiz içerebilir veya içermeyebilir ve genellikle verilere dayanır ve verilere dayanmaz. Asıl soru, sınıflandırma ağaçları ile ilgili olmalıydı .
Frank Harrell

16

CART ile ilgili en büyük referans:

Sınıflandırma ve Regresyon Ağaçları
Leo Breiman, Jerome Friedman, Charles J. Stone, RA Olshen (1984)

ama bu kesinlikle konuyla ilgili en eski çalışma değildi.

1986 tarihli Karar Ağaçlarının İndüksiyonu belgesinde Quinlan, ID3'ün öncüsü olarak Hunt'in Kavram Öğrenme Sistemini (CLS) tanımladı. CLS'ye 1963'te çıkıyor, ancak referanslar

EB Hunt, J. Martin, PJ Taşı,
Endüksiyon
Akademik Basında Deneyler , New York, 1966

Wisconsin Üniversitesi'nden Wei-Yin Loh, karar ağaçlarının tarihi hakkında yazdı. Bir kağıt var

Elli Yıl Sınıflandırma ve Regresyon Ağaçları Wei-Yin Loh Uluslararası İstatistiksel Değerlendirme (2014), 82, 3, 329–348 doi: 10.1111 / insr.12016

Ayrıca konuyla ilgili yaptığı bir konuşmadan bir Slide Deck de var .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.