Sadece veri noktalarının toplanması mı? Yoksa farklı değişkenlerin değerleri ile düzenlenmiş tablo biçimindeki farklı elemanlar için veri noktalarının gösterimi midir? Ham verilerden farkı nedir?
Sadece veri noktalarının toplanması mı? Yoksa farklı değişkenlerin değerleri ile düzenlenmiş tablo biçimindeki farklı elemanlar için veri noktalarının gösterimi midir? Ham verilerden farkı nedir?
Yanıtlar:
Deneyimlerime göre, "veri kümesi" (veya "veri kümesi"), veri topluluğunu ifade eden resmi olmayan bir terimdir. Genellikle bir veri kümesi birden fazla değişken içerir ve tek bir konuyu ilgilendirir; muhtemelen tek bir örneği ilgilendirir.
Sıklıkla Çapraz Doğrulanmış soruların yazarlarını gördüğüm bir hata "veri kümesi" ni "değişken" veya "vektör" ile eşanlamlı olarak kullanmaktır.
Bence Wikipedia bunu tanımlamakta iyi bir iş çıkarıyor:
En yaygın olarak bir veri kümesi, tablonun her sütununun belirli bir değişkeni temsil ettiği ve her satırın söz konusu veri kümesinin belirli bir üyesine karşılık geldiği tek bir veritabanı tablosunun veya tek bir istatistiksel veri matrisinin içeriğine karşılık gelir. Veri kümesi, veri kümesinin her üyesi için bir nesnenin boyu ve ağırlığı gibi değişkenlerin her biri için değerleri listeler. Her değer veri olarak bilinir. Veri kümesi, satır sayısına karşılık gelen bir veya daha fazla üye için veri içerebilir.
Veri kümesi terimi, belirli bir deney veya olaya karşılık gelen, yakından ilişkili tablolar topluluğundaki verilere atıfta bulunmak için daha gevşek bir şekilde kullanılabilir. Bu tipe bir örnek, uzay sondalarında enstrümanlar ile deneyler yapan uzay kurumları tarafından toplanan veri kümeleridir.
Açık veri disiplininde, veri kümesi, halka açık bir veri havuzunda yayınlanan bilgileri ölçen birimdir. Avrupa Açık Veri portalı yarım milyondan fazla veri kümesini toplamaktadır. Bu alanda başka tanımlar önerilmiştir, ancak şu anda resmi bir tanım yoktur. Diğer bazı sorunlar (gerçek zamanlı veri kaynakları, ilişkisel olmayan veri kümeleri, vb.) Bu konuda fikir birliğine varma zorluğunu artırır.
Gördüğünüz gibi terim biraz belirsiz.
Veri kümesini tanımlayabilmeniz için önce veri noktasını tanımlamanız gerekebileceğini düşünüyorum : neden bir ilkel ve tanımlamaya ihtiyaç duyulmuyor, tersi değil?
En az iki tanım benim için anlamlı:
Bir veya daha fazla değişken (alanlar, sütunlar) için bir veya daha fazla gözlem (vakalar, kayıtlar, satırlar).
Her ne olursa olsun, bir program tarafından okunabilen bir dosyada veri olarak depolanır.
Tablo düzeni yaygındır, ancak herhangi bir tanımın parçası olduğunu düşünmüyorum; verinin nasıl saklandığı doğal olarak pratikte önemli olabilir.
PS "Format" kelimesi o kadar aşırı yüklü ki, açıkça belirtilmedikçe en iyi şekilde engelleniyor. Bunun için kullanıldığını gördüm
Genel veya özel metin veya ikili dosya biçimi
Veri yapısı, örneğin tablo veya diğer
Veri depolama veya değişken türleri, örn. Bit, tamsayı, gerçek, karakter
Sunum biçimini kontrol eden gösterim biçimi, örneğin ondalık basamak sayısı hakkında ayrıntılar; ondalık, onaltılık veya ikili ekran.
Orada burada bazı iyi cevaplar zaten ve ben daha derine Nick Cox veya Franck Dernoncourt "veri kümesi" atıfta hususu daha nüfuz sanmıyorum kavramsal koleksiyonu , ya ilişkin verilerin belirli düzenlemesi bu veri kullanır örneğin içine bir tablo / matris veya bilgisayar tarafından okunabilen bir dosya. Franck'un özü, basit bir tanım olacağını varsayarsanız, sürekli toplanan veriler veya birkaç tabloya yayılmış veriler gibi uç noktalardan bahseder. (Tüm istatistik yazılımları işleyemez, ancak verilerin birden çok tablo içeren ilişkisel bir veritabanında saklandığı bir durumu hayal etmek çok kolaydır . Tüm veritabanı tek bir "veri kümesi" midir?)
Ekleyeceğim bir şey de, veri kümelerinin matematiksel anlamda genellikle ayarlanmadığıdır! Sensu stricto bir küme bir nesne içerir veya içermez, ancak bu nesnenin birden fazla kopyasını içeremez. Bir kalıbı sekiz kez yuvarlar ve 1, 4, 3, 5, 5, 4, 6, 4 alırsam, yuvarlanan skorlar dizisi sadece {1, 3, 4, 5, 6} olur. Elemanların herhangi bir sırada olabileceğini unutmayın, sadece değer olarak artan yazdım ama örneğin {5, 4, 1, 6, 3} kümesi matematiksel olarak ona eşittir. Ancak genellikle bir veri kümesi ile kastettiğimiz bu değil!
Bir çoklu set (veya torba ) girişlerin tekrarlanmasına izin verir, örn. {1, 4, 3, 5, 5, 4, 6, 4}, ancak bunun hala bir düzen duygusu içermediğini unutmayın, bu nedenle {1, 3, 4, 4, 4, 5, 5, 6}. Belki de "veri kümesi" içindeki "küme" en iyi "çoklu küme" olarak okunabilir. Dahası, siparişin korunmasını istiyorsanız bunun yerine bir vektör kullanabilirsiniz: (1, 4, 3, 5, 5, 4, 6, 4) (1, 3, 4, 4, 4, 5, 5, 6). Sıralama bize bir tür tanımlayıcı olarak hizmet edebilecek bir endeks verir - bize "hangi dördü hangisidir?" - ve genellikle gözlemleri doğal zamansal veya coğrafi sıralarına göre kaydetmek için bir amaca hizmet eder. gibi formüller gördüğünde
Ancak vektörler yalnızca bir değişkeni kaydetmek içindir - birkaç tanesi için, korunan düzen ile tablo haline getirmek için bir matris kullanmak daha uygun olabilir. Zaman içinde üç boyutlu bir voksel ızgarasının bir özelliğini ölçmek gibi daha karmaşık durumlar için, verileri bir tensörde düzenlemeye bile geçebilirsiniz (örneğin bu soruya bakın ).
Ancak, pratik olarak uygunsuz olsa bile, kavramsal olarak bir çoklu kümenin çoğu basit durumda yeterli olabileceğini unutmayın. Kalıbı yuvarlayarak aynı anda bozuk para atarsam ve iki sonucu birlikte kaydetmek istersem, o zaman {(1, H), (3, T), (4, H), (4, H ), Bir matris yerine (4, T), (5, H), (5, T), (6, T)}. Örneğin sıradan bir küme, (4, H) 'nin çokluğunu saymayacağı için yeterli olmayacaktır.