Kesikli veri ile sürekli veri arasındaki fark nedir?
Kesikli veri ile sürekli veri arasındaki fark nedir?
Yanıtlar:
Ayrık veriler yalnızca belirli değerleri alabilir. Potansiyel olarak bu değerlerin sonsuz bir sayısı olabilir, ancak her biri farklıdır ve aralarında gri alan yoktur. Kesikli veriler sayısal - elma sayıları olabilir - ancak kategorik de olabilir - kırmızı veya mavi veya erkek veya kadın veya iyi veya kötü.
Sürekli veriler tanımlanmış ayrı değerlerle sınırlı değildir, ancak sürekli aralıktaki herhangi bir değeri içerebilir. Herhangi iki sürekli veri değeri arasında sonsuz sayıda başka olabilir. Sürekli veri her zaman esasen sayısaldır.
Bazen bir türden düzgün olan nümerik verileri diğerininki gibi ele almak mantıklı olur. Örneğin, yükseklik gibi bir şey süreklidir, ancak çoğu zaman küçük farklılıkları çok fazla önemsemeyiz ve bunun yerine yükseklikleri birkaç ayrı bölmede gruplandırırız . Tersine, ekonomideki büyük miktardaki belirli bir birimin - pirinç taneleri veya termitler veya paralar - sayıyorsak - 2.000,006 ve 2.000,008'i önemli ölçüde farklı değerler olarak düşünmemeyi tercih edebiliriz; yaklaşık süreklilik.
Bazen sayısal verileri kategorik olarak ele almak da faydalı olabilir, örneğin: zayıf, normal, obez. Bu genellikle başka tür bir kazanma türüdür.
Kategorik verileri sürekli olarak değerlendirmek nadiren mantıklıdır.
Veri her zaman ayrıktır. n
Bir değişken üzerindeki değerlerin bir örneği verildiğinde , değişkenin alabileceği maksimum belirgin değer sayısı eşittir n
. Bu teklifi görün
Tüm gerçek örnek uzayları ayrıktır ve tüm gözlemlenebilir rastgele değişkenler ayrık dağılımlara sahiptir. Sürekli dağılım matematiksel işlem için uygun, ancak pratik olarak gözlemlenemeyen bir matematiksel yapıdır. EJG Pitman (1979, s. 1).
Bir değişken üzerindeki verilerin tipik olarak rastgele bir değişkenden alındığı varsayılır. Değişkenin aralıktaki herhangi iki farklı nokta arasında alabileceği sonsuz sayıda olası değer varsa, rasgele değişken bir aralıkta süreklidir. Örneğin, boy, ağırlık ve zaman tipik olarak sürekli olarak kabul edilir. Tabii ki, bu değişkenlerin herhangi bir ölçümü kesin olarak kesin ve bir anlamda ayrık olacaktır.
Sıralı (yani sıralı), sıralanmamış (yani nominal)
ve ikili ayrık değişkenleri ayırt etmek faydalıdır .
Bazı giriş ders kitapları sürekli bir değişkeni sayısal değişkenle karıştırır. Örneğin, bir bilgisayar oyunundaki bir puan, sayısal olmasına rağmen ayrıktır.
Bazı giriş ders kitapları bir oran değişkenini sürekli değişkenlerle karıştırır. Bir sayım değişkeni bir oran değişkenidir ancak sürekli değildir.
Gerçek uygulamada, bir değişken, yeterince büyük sayıda farklı değer alabildiğinde, sürekli olarak sürekli olarak ele alınır.
Sıcaklıklar süreklidir. 23 derece, 23.1 derece, 23.100004 derece olabilir.
Seks ayrıktır. Sadece erkek ya da kadın olabilirsin (yine de klasik düşüncede). 1, 2, vs. gibi bir sayıyla temsil edebileceğiniz bir şey
Aradaki fark, birçok istatistik ve veri madenciliği algoritmasının bir türünü kaldırabileceği, diğerini kaldıramadığı için önemlidir. Örneğin düzenli regresyonda, Y sürekli olmalıdır. Lojistik regresyonda Y ayrıktır.
Ayrık veri yalnızca belirli değerleri alabilir.
Örnek: Bir sınıftaki öğrenci sayısı (yarım öğrenciniz olamaz).
Sürekli Veri , herhangi bir değer alabilen (bir aralık içinde) veridir
Örnekler:
Veri tabanı durumunda, verinin niteliği sürekli olsa bile, verileri her zaman ayrık olarak saklarız. Verinin doğasını neden vurgulamalıyım? Verileri analiz etmemize yardımcı olabilecek verilerin dağıtımını yapmalıyız. Verilerin niteliği sürekli ise, bunları sürekli analizle kullanmanızı öneririm.
Sürekli ve ayrık bir örnek alın: MP3. Dijital formatta saklanırsa, "ses" türü bile analojidir. Onu her zaman analojik bir şekilde analiz etmeliyiz.
Bir yandan, pratik açıdan Jeromy Anglim'in cevabına katılıyorum. Sonunda, çoğu zaman ayrık değişkenlerle uğraşıyoruz - teorik bakış açısına göre sürekli olsalar da - ve bunun örneğin sınıflandırma için gerçek bir etkisi var. Strobl'ın Rastgele Ormanların çoklu kesme noktalarına (daha yüksek doğrulukta fakat potansiyel olarak benzer nitelikte) değişkenlere karşı önyargılı olduğunu gösteren makalesini hatırlayın. Kişisel tecrübelerime göre, olasılıksal sinir ağları, değişkenler aynı tipte olmadıkça (yani sürekli) farklı doğruluklar sunarken bir önyargı da sunabilir. Öte yandan, teorik bir bakış açısıyla, klasik sınıflandırma (örneğin sürekli, ayrık, nominal vb.), IMHO, haktır. Buna göre, Quinlan'ın M5 algoritmasını tanımlayan makalesinin kaynak adının, 'regresör' olan harika bir seçim. Bu nedenle sürekli ve ayrıkların tanımı ve etkileri 'ortama' bağlı olarak ilgilidir.
refs:
Quinlan JR (1992). Sürekli sınıflarla öğrenme. In: AI'nın 5. Avustralya Ortak Konferansı. Sidney (Avustralya), 343-348.
Strobl C., Boulesteix A.-L., Zeileis A., ve Hothorn T. (2007). Rastgele ormandaki önyargı değişken önem ölçütleri: resimler, kaynaklar ve bir çözüm. BMC Biyoinformatik, 8, 25. doi: 10.1186 / 1471-2105-8-25
Kesikli veriler özel değerler alırken, sürekli veriler ayrı değerlerle sınırlı değildir.
Kesikli veriler belirgindir ve aralarında gri alan yoktur; sürekli veriler ise sürekli veri değeri üzerinde herhangi bir değeri işgal eder.
Ayrık veri Belirli değerleri alabilirler. Sayısaldırlar.
Kesikli veriler sadece tamsayı değerlerini alabilirken sürekli veri herhangi bir değeri alabilir. Örneğin, her yıl bir hastane tarafından tedavi edilen kanser hastalarının sayısı ayrıdır, ancak kilonuz süreklidir. Bazı veriler süreklidir, ancak yaşınız gibi ayrı bir şekilde ölçülür. Yaşınızı belirtildiği gibi bildirmek çok yaygındır, 31.