“Büyük Veri” nin tanımı nedir?


23

Bir tane var mı?

Bulabildiğim tüm tanımlar, verinin boyutunu, karmaşıklığını / çeşitliliğini veya hızını tanımlar.

Wikipedia'nın tanımı , gerçek bir numarayla bulduğum tek tanım.

Büyük veri boyutları, 2012'den itibaren birkaç düzine terabayttan tek bir veri kümesinde birçok petabayta kadar değişen bir veri hedefidir.

Bununla birlikte, bu görünüşte , bir sonraki paragrafta atıfta bulunulan, "büyük" verilerin küçük olabileceğini ve yalnızca 3GB veri üreten bir uçakta 100.000 sensörün büyük olarak kabul edilebileceğini gösteren MIKE2.0 tanımıyla çelişmektedir .

IBM şunları söylemesine rağmen:

Büyük veri, büyüklük meselesinden daha basit.

tanımlarında büyüklüğü vurgulamışlardır .

O'Reilly de vurguladı "volume, velocity and variety" . Her ne kadar iyi açıklanmış olsa da ve daha derinlemesine tanım, başkalarının ifadesi gibi görünüyor - ya da tam tersi.

Bir Computer Weekly makale başlığının , "Büyük veri nedir ve rekabet avantajı elde etmek için nasıl kullanılabileceği" başlıklı makalelerin oldukça iyi toplandığını düşünüyorum .

Ancak ZDNet 2012'den itibaren aşağıdakilerle kazanıyor :

“Büyük Veri”, BT pazarının yüksek performanslı bilgi işlem alanından toplanan bir terimdir ... On tane teknoloji tedarikçisinin sunumlarından geçerse, on beş veya daha fazla farklı tanımın ortaya çıkması muhtemeldir. Elbette her bir tanım, tedarikçinin ürün ve hizmetlerine olan ihtiyacı destekleme eğilimindedir. Hayal et.

Temel olarak "büyük veri", bir şekilde şekil veya biçimde "büyük" dür.

"Büyük" nedir? Şu anda ölçülebilir mi?

Eğer "büyük" tahmin edilemezse, yalnızca genellemelere dayanmayan bir tanım var mı?


7
"" Büyük "nedir? Şu anda ölçülebilir mi?" Emin. Büyük şimdiki zamanda sen işleyebilir daha fazladır;)
Oded

1
@Oded, daha sonra "tanıtıcı" tanımlamanız gerekir :-).
Ben

14
Sorman gerekiyorsa, senin saymak için yeterince büyük değil. ;)
FrustratedWithFormsDesigner

@Ben - Bu her birey ve sistem için farklı tanımlanmıştır ...
Oded

4
"Büyük" büyük olasılıkla "ele alınması zor" anlamına gelir. Belleğe sığmayacak, diski doldurmaya, ağ üzerinden aktarmaya zaman

Yanıtlar:


42

Bir tane yok; bu bir terimdir.

Sınırlayıcı, verilerinizin geleneksel sistemlerin yeteneklerinin ötesinde olduğu şeklindedir. Veriler en büyük diskte depolanamayacak kadar büyük, sorgular özel optimizasyon olmadan çok uzun sürüyor, ağ veya disk gelen trafik akışını desteklemiyor, düz eski bir veri görünümü şekil için görselleştirmeyi işlemeyecek veri boyutu / genişliği ...

Temel olarak, verilerinizin, "sadece daha fazla donanım ekleyin" in kesmeyeceği, hatalı tanımlanmış bir devrilme noktasının ötesinde olduğu.


+1 ve dahası, daha büyük donanımlar yakalandıkça "büyük" sayılan şey her zaman değişiyor ve daha önce özelleştirilmiş araçlar olgunlaşmış, standart hale getirilmiş ve bu gibi sorunlarla başa çıkmak için ticari olarak satılıyor.
FrustratedWithFormsDesigner

Başka bir deyişle: hayır, fikrim yok, hayır, hayır :-).
Ben

Ayrıca, büyük veriler büyük bir şey haline gelmeden önce, birçok şirket ve araştırma enstitüsü zaten büyük veri işleriyle uğraştı. Sadece şimdi tüm sosyal medya / çevrimiçi büyük veri zorlukları ile daha ana akış haline geldi.
Paul Hiemstra

2

Oracle bağlantısında işaret edildiği gibi (Immad Careem tarafından yapılan yorum) oracle.com/us/technologies/big-data/index.html. Büyük Veri, bir RDBMS'de depolanan ilişkisel bir veri olmayan her şeydir . Yutturmaca önce birkaç yıl sadece "çok fazla veri" oldu. Şimdi büyüdü ve pazarlamacılar tarafından bir tür özel veri olarak tanıtıldı.

Büyük Veri'yi gerçek bir şey olarak değerlendirmek için ikincil nedenler (pazarlama dışında) vardır.

  1. Harita Azaltma Buluşu
  2. Hadoop gibi NOSQL teknolojileri
  3. Geleneksel RDBMS'deki bazı gelişmeler, yapılandırılmamış veri türlerinin talebinden etkilenmiştir.
  4. EMC2 şirketi tarafından sunulan bazı donanım teknolojileri

2
"Harita Azaltmanın İcadı"? Dalga mı geçiyorsun?
Telastyn

1
"İlişkisel veri olmayan her şey", yalnızca Oracle kadar RDB merkezli bir kişiden gelebilecek bir tanımdır (ve yanlış). Bu tanım uyarınca, her SolR endeksi, her MongoDB veritabanı ve her Berkley DB "büyük veri" dir. Ve bu sadece aptalca.
Joachim Sauer

0

Doug Laney'in cevabını bir başlangıç ​​noktası olarak kullanarak , şimdi 30'un üzerinde olan ve güçlü olan Büyük Veri tanımlarının bir listesini tersine tasarladık. "Büyük Veri" için tanım listemiz burada yer almaktadır .

Düzeltmeler, girişler, grafikler vb.


-1

O'Reilly'yi ve diğerlerini nihayet, Gartner'ın 11 yıl önce ilk kez tanıttığımız 3V büyük veriye dayandırdığını görmek harika. Başvuru için, işte 2001 yılında yazdığım orijinal eser: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Gartner'ın yakın zamanda güncellenmiş tanımı aynı zamanda şu değeri de kabul ediyor: "Büyük Veri, gelişmiş içgörü keşfi, karar verme ve süreç otomasyonu için yenilikçi bilgi işlem biçimlerini gerektiren hacimler, hızlar ve / veya çeşitliliğe sahip bilgi varlıklarıdır."

Ayrıca, teknolojinin benimsenmesi açısından kuralcı olan üç vektör boyunca veri büyüklüğünü ölçmek için bir yöntem geliştirdik. Ancak bunu halka açık olarak paylaşamam.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.