“Iris” veri setinin hangi yönleri onu örnek / öğretim / test veri seti olarak başarılı kılmıştır?


28

"İris" veri kümesi muhtemelen burada çoğu insan için tanıdık - kanonik test veri setlerinin bir ve veri görselleştirme gelen makine öğrenmeye her şey için bir örnek go-veri kümesi bulunuyor. Örneğin, bu sorudaki herkes tedaviyle ayrılmış saçılma noktalarının tartışılması için kullandı.

Ne yapar İris veri yüzden kullanışlı set? Sadece orada ilk olduğunu mu? Birisi yararlı bir örnek / test veri seti oluşturmaya çalışıyorsa , hangi dersleri alabilirdi?


13
Küçük ama önemsiz değil. Basit ama zorlu. Gerçek veri. Fisher'ın ünü, veri olmasına rağmen. Gelenek. Atalet. Süreklilik. Bunu heceleyecek çiçek resimleri bulabilirsiniz.
Nick Cox

Ve şimdi saat gibi çalışıyor.
Michael M

@NickCox'un tam üzerinde olduğunu söyleyebilirim.
Marc Claesen

@NickCox Bu bir cevap olarak biraz genişletmek ister misiniz?
Fomite

6
'İris' veri seti, ayırt edici analizlerin yanı sıra, açıklama amacıyla denetlenmemiş sınıflandırma (model tabanlı veya modelsiz kümeleme) için kullanılabilir. Bu soru , istatistiksel analizin belirli yönlerini göstermek için iyi veri setleri nelerdir?
chl

Yanıtlar:


40

İris veri kümesi haklı yaygın özellikle istatistiksel grafikler, çok değişkenli istatistik ve makine öğrenimi çeşitli problemleri gösterme bakımından istatistiksel bilim boyunca kullanılır.

  • 150 gözlem içeren, küçük ama önemsiz değil.

  • İris türleri arasında yapraklarının ve sepals'larının ölçümlerinden ayırt edilmesinin yarattığı görev basit ama zordur.

  • Veriler gerçek verilerdir ancak görünüşe göre iyi kalitededir. Prensipte ve pratikte, test veri setleri sentetik olabilir ve bir noktaya değinmek için gerekli veya faydalı olabilir. Bununla birlikte, birkaç kişi gerçek verilere itiraz ediyor.

  • Veriler, 1936'da ünlü İngiliz istatistikçi Ronald Fisher tarafından kullanıldı. (Daha sonra şövalyeydi ve Sir Ronald oldu.) En azından bazı öğretmenler, alanda çok iyi bilinen birisinin bağlantısı olan veri seti fikri gibi. Veriler ilk başta istatistiksel olarak düşünen botanikçi Edgar S. Anderson tarafından yayınlandı, ancak bu daha önceki orijin, ilişkiyi azaltmıyor.

  • Birkaç ünlü veri setini kullanmak, her öğrenciye Guinness için çalıştığını ya da birçok ünlü istatistikçinin birbiriyle düştüğünü söylemek gibi elimizdeki geleneklerden biridir. Atalet gibi gelebilir, ancak eski ve yeni yöntemleri karşılaştırırken ve herhangi bir yöntemi değerlendirirken, bunları bilinen veri kümeleri üzerinde denemek ve böylece yöntemleri nasıl değerlendirdiğimizde bir süreklilik sağlamak için genellikle yararlı kabul edilir.

  • Son olarak, fakat en az değil, Iris veri kümesi, örneğin veri setindeki faydalı Wikipedia girdisinden olduğu gibi, ilgili çiçeklerin resimleriyle zevkli bir şekilde birleştirilebilir .

Not. İlgilendiğiniz bitkileri dikkatlice alıntılayarak biyolojik doğruluk için bit yapın. İris setosa , İris versicolor ve İris virginica üç türdür (bazı istatistiksel hesaplarda olduğu gibi çeşitler değil); binominalleri burada olduğu gibi italik olarak sunulmalıdır; ve cins adı olarak Iris ve belirli türleri belirten diğer isimler sırasıyla büyük ve küçük harfle başlamalıdır.


3
(+1) Yorumunuzu güzel bir şekilde bir cevaba genişlettiğiniz için teşekkür ederiz.
kardinal

5
Biyolojik doğruluk için ilkeli bir duruşma yapabilseydim, +1 daha eklerdim.
Fomite

6

Veri kümesi önemsiz olmayacak kadar büyük ve ilginç, ancak “cebinize sığacak” kadar küçük ve deneyleri yavaşlatmayacak kadar küçük.

Bence kilit nokta, fazla uydurma hakkında da öğretmesi. Mükemmel bir puan vermek için yeterli sütun yok: Bunu dağınık noktalara baktığımızda hemen görüyoruz ve birbirleriyle örtüşüp birbirleriyle karşılaşıyorlar. Dolayısıyla, mükemmel bir puan alan herhangi bir makine öğrenme yaklaşımı şüpheli olarak kabul edilebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.