Diğer cevapları takdir ediyorum, ama bana öyle geliyor ki, bazı topolojik altyapılar cevaplara çok ihtiyaç duyulan bir yapı verecektir.
Tanımlar
Alanların tanımlarını belirleyerek başlayalım:
kategorik değişken, etki alanı öğeleri içeren bir değişkendir, ancak bunlar arasında bilinen bir ilişki yoktur (bu nedenle yalnızca kategorilerimiz vardır). Örnekler, bağlama bağlıdır, ancak genel durumda haftanın günlerini karşılaştırmanın zor olduğunu söyleyebilirim: Pazartesi Pazar gününden önce, eğer öyleyse, önümüzdeki Pazartesi ne olacak? Belki daha kolay, ancak daha az kullanılan bir örnek kıyafet parçalarıdır: bir emri anlamlandıracak bir bağlam sunmadan, pantolonun jumper'lardan önce gelip gelmediğini söylemek zordur.
sıra değişkeni toplam düzene sahip bir değişkendir etki alanı üzerinde tanımlanmış , yani alanın her iki öğesi için, birbirinin aynı veya birinin diğerinden daha büyük olduğunu söyleyebiliriz. Bir Likert ölçekli bir sıra değişkenin tanımı, iyi bir örnektir. "biraz katılıyorum" kesinlikle "kesinlikle katılmıyorum" dan "katılmıyorum" daha yakındır.
aralık değişkeni, alanı öğeler arasındaki mesafeleri tanımlayan bir değişkendir (a metrik ) tanımlayan ve böylece aralıkları tanımlamamıza izin veren .
Alan örnekleri
Kullandığımız en yaygın küme olarak, doğal ve gerçek sayılar standart toplam düzen ve metriklere sahiptir. Bu yüzden kategorilerimize numara atarken dikkatli olmalıyız. Düzeni ve mesafeyi göz ardı etmemeye dikkat etmezsek, kategorik verilerimizi aralıklı verilerde pratik olarak dönüştürürüz. Kişi nasıl çalıştığını bilmeden bir makine öğrenme algoritması kullandığında, bu varsayımları istemeden yapma riskiyle kendi sonuçlarını potansiyel olarak geçersiz kılar. Örneğin, en popüler derin öğrenme algoritmaları, aralıklarından ve sürekli özelliklerinden yararlanan gerçek sayılarla çalışır. Başka bir örnek olarak, 5'li Likert ölçeklerini düşünün ve bunlara uyguladığımız analizin, katılıyorum ve katılıyorum arasındaki mesafeninkatılmıyorum ile aynıdır ve ne katılıyorum ne katılmıyorum . Böyle bir ilişki için dava açmak zor.
Sıklıkla birlikte çalıştığımız bir diğer küme dizeler . Dizelerle çalışırken kullanışlı olan bir dizi dize benzerlik metriği vardır. Ancak, bunlar her zaman yararlı değildir. Örneğin, adresler için, John Smith Caddesi ve John Smith Yolu, dize benzerliği açısından oldukça yakındır, ancak açıkçası, birbirinden kilometrelerce uzakta olabilecek iki farklı varlığı temsil eder.
Özet istatistikler
Tamam, şimdi bazı özet istatistiklerin buna nasıl uyduğunu görelim. İstatistikler sayılarla çalıştığından, işlevleri aralıklarla iyi tanımlanmıştır. Ancak bunları kategorik veya sıralı verilere genelleştirip genelleştiremeyeceğimize / nasıl örnekleyeceğimize ilişkin örnekleri görelim:
- modu - hem kategorik hem de sıralı verilerle çalışırken, hangi öğenin en sık kullanıldığını söyleyebiliriz. Yani buna sahibiz. Daha sonra @Maddenker'in yanıtlarında listelediği diğer tüm önlemleri de türetebiliriz. @ gung'un güven aralığı da faydalı olabilir.
- medyan - @ peter-flom'un söylediği gibi, bir siparişiniz olduğu sürece medyanızı türetebilirsiniz.
- ortalama , ama aynı zamanda standart sapma, yüzdelikler, vb.
Veri bağlamsallığı örneği
Sonunda, verilerinizde tanımladığınız düzen ve metriklerin çok içeriksel olduğunu tekrar vurgulamak istiyorum. Bu şimdiye kadar açık olmalı, ancak size son bir örnek vereyim: coğrafi konumlarla çalışırken onlara yaklaşmanın birçok farklı yolu var:
- eğer aralarındaki mesafeyle ilgilenirsek, temelde bize iki boyutlu bir sayısal alan, dolayısıyla aralık veren coğrafi konumlarıyla çalışabiliriz.
- eğer ilişkilerinin bir parçasıyla ilgileniyorsak, toplam bir düzen tanımlayabiliriz (örneğin bir cadde bir kentin parçasıdır, iki şehir eşittir, bir kıta bir ülke içerir)
- iki dizenin aynı adresi temsil edip etmediğiyle ilgileniyorsak, yazım hatalarını ve kelimelerin yerlerini değiştirmeyi tolere edecek, ancak farklı terim ve adları ayırt ettiğinizden emin olun. Bu kolay bir şey değil, sadece davayı ortaya koymak.
- Hepimizin günlük olarak karşılaştığı, bunların hiçbirinin mantıklı olmadığı birçok kullanım durumu vardır. Bazılarında adresleri sadece farklı kategoriler olarak ele almaktan başka yapılacak bir şey yok, diğerlerinde ise çok akıllı veri modelleme ve önişleme söz konusu.