“Veri seti” ile tam olarak ne kastedilmektedir?


10

Sadece veri noktalarının toplanması mı? Yoksa farklı değişkenlerin değerleri ile düzenlenmiş tablo biçimindeki farklı elemanlar için veri noktalarının gösterimi midir? Ham verilerden farkı nedir?


"Veri noktası" ile ne demek istiyorsun, en azından 2D olmasını bekliyorsun? Bir zaman serisi veya sınav puanları seti bir veri seti olabilir; en azından bunlar bir satırda olabilir, muhtemelen satır etiketleri olmadan. @FranckDernoncourt
smci

1
Bence bu sadece bir veri koleksiyonu. Bu terimi kesinlikle kullanıyorum. Bunun çok fazla olduğunu sanmıyorum. Verilerin "ham" veya önceden işlenmiş veya temizlenmiş vs. olup olmadığı dikeydir.
gung - Monica'yı eski

Yanıtlar:


9

Deneyimlerime göre, "veri kümesi" (veya "veri kümesi"), veri topluluğunu ifade eden resmi olmayan bir terimdir. Genellikle bir veri kümesi birden fazla değişken içerir ve tek bir konuyu ilgilendirir; muhtemelen tek bir örneği ilgilendirir.

Sıklıkla Çapraz Doğrulanmış soruların yazarlarını gördüğüm bir hata "veri kümesi" ni "değişken" veya "vektör" ile eşanlamlı olarak kullanmaktır.


3
Veri kümesi vs değişken veya vektör üzerinde anlaştı. "Verilerim" de olduğu gibi beni "veriler" de kullanmaya başlama. Tersine, "bir veri setim var", verilerin çoğul olduğu konusunda ısrar edenleri tahriş eden ya da bu ısrarları bilgiçlik olarak düşünürlerse, bu ısrarcılığı pedantik olarak görenleri tahriş eden her iki şekilde de tahriş etmemenin harika bir yoludur .
Nick Cox

3
@NickCox "Veri" üzerindeki dilbilgisi savaşlarında, "veri" nin kitlesel bir isim olduğunu iddia eden en az popüler olan gruptayım.
Kodiolog

3
Bunun çoğunluk olduğundan şüpheleniyorum ve daha çok popülerlik kazandığını düşünüyorum.
Nick Cox

8

Bence Wikipedia bunu tanımlamakta iyi bir iş çıkarıyor:

En yaygın olarak bir veri kümesi, tablonun her sütununun belirli bir değişkeni temsil ettiği ve her satırın söz konusu veri kümesinin belirli bir üyesine karşılık geldiği tek bir veritabanı tablosunun veya tek bir istatistiksel veri matrisinin içeriğine karşılık gelir. Veri kümesi, veri kümesinin her üyesi için bir nesnenin boyu ve ağırlığı gibi değişkenlerin her biri için değerleri listeler. Her değer veri olarak bilinir. Veri kümesi, satır sayısına karşılık gelen bir veya daha fazla üye için veri içerebilir.

Veri kümesi terimi, belirli bir deney veya olaya karşılık gelen, yakından ilişkili tablolar topluluğundaki verilere atıfta bulunmak için daha gevşek bir şekilde kullanılabilir. Bu tipe bir örnek, uzay sondalarında enstrümanlar ile deneyler yapan uzay kurumları tarafından toplanan veri kümeleridir.

Açık veri disiplininde, veri kümesi, halka açık bir veri havuzunda yayınlanan bilgileri ölçen birimdir. Avrupa Açık Veri portalı yarım milyondan fazla veri kümesini toplamaktadır. Bu alanda başka tanımlar önerilmiştir, ancak şu anda resmi bir tanım yoktur. Diğer bazı sorunlar (gerçek zamanlı veri kaynakları, ilişkisel olmayan veri kümeleri, vb.) Bu konuda fikir birliğine varma zorluğunu artırır.

Gördüğünüz gibi terim biraz belirsiz.


Ve bir bilgisayar görme ortamında, bir veri seti sadece doğal görüntülerin ve bunların etiketlerinin veya ek açıklamalarının bir koleksiyonu olabilir.
Sycorax, Reinstate Monica'ya

"Veritabanı *" ile kastedilen nedir
ankit

@ankit Geleneksel CS anlamı en.wikipedia.org/wiki/Database
Franck Dernoncourt

@Sycorax Evet, sanırım bir görüntüyü (veya başka bir sinyali) veritabanındaki bir blot verisi olarak düşünebiliriz.
Franck Dernoncourt

7

Veri kümesini tanımlayabilmeniz için önce veri noktasını tanımlamanız gerekebileceğini düşünüyorum : neden bir ilkel ve tanımlamaya ihtiyaç duyulmuyor, tersi değil?

En az iki tanım benim için anlamlı:

  1. Bir veya daha fazla değişken (alanlar, sütunlar) için bir veya daha fazla gözlem (vakalar, kayıtlar, satırlar).

  2. Her ne olursa olsun, bir program tarafından okunabilen bir dosyada veri olarak depolanır.

Tablo düzeni yaygındır, ancak herhangi bir tanımın parçası olduğunu düşünmüyorum; verinin nasıl saklandığı doğal olarak pratikte önemli olabilir.

PS "Format" kelimesi o kadar aşırı yüklü ki, açıkça belirtilmedikçe en iyi şekilde engelleniyor. Bunun için kullanıldığını gördüm

  1. Genel veya özel metin veya ikili dosya biçimi

  2. Veri yapısı, örneğin tablo veya diğer

  3. Veri depolama veya değişken türleri, örn. Bit, tamsayı, gerçek, karakter

  4. Sunum biçimini kontrol eden gösterim biçimi, örneğin ondalık basamak sayısı hakkında ayrıntılar; ondalık, onaltılık veya ikili ekran.


6

Orada burada bazı iyi cevaplar zaten ve ben daha derine Nick Cox veya Franck Dernoncourt "veri kümesi" atıfta hususu daha nüfuz sanmıyorum kavramsal koleksiyonu , ya ilişkin verilerin belirli düzenlemesi bu veri kullanır örneğin içine bir tablo / matris veya bilgisayar tarafından okunabilen bir dosya. Franck'un özü, basit bir tanım olacağını varsayarsanız, sürekli toplanan veriler veya birkaç tabloya yayılmış veriler gibi uç noktalardan bahseder. (Tüm istatistik yazılımları işleyemez, ancak verilerin birden çok tablo içeren ilişkisel bir veritabanında saklandığı bir durumu hayal etmek çok kolaydır . Tüm veritabanı tek bir "veri kümesi" midir?)

Ekleyeceğim bir şey de, veri kümelerinin matematiksel anlamda genellikle ayarlanmadığıdır! Sensu stricto bir küme bir nesne içerir veya içermez, ancak bu nesnenin birden fazla kopyasını içeremez. Bir kalıbı sekiz kez yuvarlar ve 1, 4, 3, 5, 5, 4, 6, 4 alırsam, yuvarlanan skorlar dizisi sadece {1, 3, 4, 5, 6} olur. Elemanların herhangi bir sırada olabileceğini unutmayın, sadece değer olarak artan yazdım ama örneğin {5, 4, 1, 6, 3} kümesi matematiksel olarak ona eşittir. Ancak genellikle bir veri kümesi ile kastettiğimiz bu değil!

Bir çoklu set (veya torba ) girişlerin tekrarlanmasına izin verir, örn. {1, 4, 3, 5, 5, 4, 6, 4}, ancak bunun hala bir düzen duygusu içermediğini unutmayın, bu nedenle {1, 3, 4, 4, 4, 5, 5, 6}. Belki de "veri kümesi" içindeki "küme" en iyi "çoklu küme" olarak okunabilir. Dahası, siparişin korunmasını istiyorsanız bunun yerine bir vektör kullanabilirsiniz: (1, 4, 3, 5, 5, 4, 6, 4) (1, 3, 4, 4, 4, 5, 5, 6). Sıralama bize bir tür tanımlayıcı olarak hizmet edebilecek bir endeks verir - bize "hangi dördü hangisidir?" - ve genellikle gözlemleri doğal zamansal veya coğrafi sıralarına göre kaydetmek için bir amaca hizmet eder. gibi formüller gördüğündex¯=1ni=1nxix1x2

Ancak vektörler yalnızca bir değişkeni kaydetmek içindir - birkaç tanesi için, korunan düzen ile tablo haline getirmek için bir matris kullanmak daha uygun olabilir. Zaman içinde üç boyutlu bir voksel ızgarasının bir özelliğini ölçmek gibi daha karmaşık durumlar için, verileri bir tensörde düzenlemeye bile geçebilirsiniz (örneğin bu soruya bakın ).

Ancak, pratik olarak uygunsuz olsa bile, kavramsal olarak bir çoklu kümenin çoğu basit durumda yeterli olabileceğini unutmayın. Kalıbı yuvarlayarak aynı anda bozuk para atarsam ve iki sonucu birlikte kaydetmek istersem, o zaman {(1, H), (3, T), (4, H), (4, H ), Bir matris yerine (4, T), (5, H), (5, T), (6, T)}. Örneğin sıradan bir küme, (4, H) 'nin çokluğunu saymayacağı için yeterli olmayacaktır.


1
Bir veri kümesinin, tanımlayıcılarını farklı kılmak için ihtiyaç duyabileceği kırışıklık ile bir dizi gözlem olduğu fikrini satın alabilirim. Ama haklısın, buradaki anlam, küme teorisindeki uzaklıktan biraz uzak. Burada bahsettiğiniz gibi, gözlem sırasının genellikle çok önemli olduğunu ve her zaman olmasa da çoğu zaman bir zaman veya diğer düzen değişken (ler) i tarafından verileceğini vurgulayın.
Nick Cox

@NickCox (+1) Gerçekten de ifade etmek için henüz zaman bulamadığım ya da daha başka bir deyişle, gözlemlerin genellikle bir tanımlayıcı ile gelmesi - bazen zamansal, bazen lokasyon bazlı, bazen her ikisi. Verileri bir vektör, matris veya tensöre kodladığımızda, genellikle istediğimiz yapıyı doğrudan sağlar ve açık bir tanımlayıcı (sabit kodlu bir dizin gibi), özellikle önemli olan yalnızca düzen veya göreceli konum ise gereksiz hale getirilebilir. Kuşkusuz tüm bunlar için doğru bir terminoloji vardır.
Silverfish

Siparişin önemli olmadığını söylemekle ilgili bir sorunum yok. Tek değişkenli değildir. Ölçüm zamanı ile eşleştirilmiş X değerleri eşleştirdiğinizde sipariş önemlidir. Ama sonra, noktaların çok boyutlu olduğunu gerçekten düşünebiliriz ve bir dizi çok boyutlu verinin sırası tekrar önemli değildir. Ayrıca, gerçekte iki tane benzersiz yapan zımni bir tanımlayıcı olduğunu düşünen bir sorunum yok.
gung - Monica'yı eski

@gung Zamanın veya seri düzenin örtük olduğu veri kümelerini düşünüyordum. Açık bir sıralama değişkenine sahip olmamanın kötü bir uygulama olduğunu ve şimdi gereksiz olduğunu söyleyebilirim, ancak böyle bir sipariş değişkeninin eksikliği veri kümesi olmaktan diskalifiye olmaz. Aslında 1970'lerde rutin olarak mekansal serileri örtülü tanımlayıcı ile işleyecektim çünkü kendi Fortran programım bir tane girmek için (önemsiz değil) emeği gereksiz kıldı.
Nick Cox

Bana iyi geliyor, @NickCox. Sipariş değişkeninin örtük olduğunu söyleyebilirim, bu durumda ama bir anlamda hala orada.
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.