Veri önişleme ve aykırı algılama tekniklerini kapsayan iyi kitaplar


11

Başlık ilerledikçe, genel olarak veri önişlemini ve özellikle aykırı algılama tekniklerini kapsayan iyi, güncel bir kitap biliyor mu?

Kitabın sadece buna odaklanması gerekmiyor, ancak yukarıda belirtilen konularla kapsamlı bir şekilde ilgilenmeli - bir başlangıç ​​noktası olan ve kağıtların bir listesini alıntılayan bir şeyden memnun olmazdım, çeşitli tekniklerin açıklamaları görünmelidir kitabın kendisi.

Kayıp verilerle ilgilenme teknikleri tercih edilir, ancak gerekli değildir ...


Ne tür verilere (bilimsel alan veya ölçüm tekniği) baktığınızı söyleyebilir misiniz?
Sb ile mutsuz cbeleites

Web kullanıcılarından toplanan veriler (daha spesifik olamaz). Zaman damgaları (veriler kesinlikle zamanla ilgili olmasa da, en azından sezgisel olarak), kategorik özellikler ve sürekli özellikler dahildir. Aykırı değerlere sayısız neden olabilir. web robotları, kötü niyetli kullanıcılar ve daha birçok kaynak. Veriler de oldukça büyüktür (CSV biçiminde
GB'ler

Benim için yeterince spesifik: kimyasal veya spektroskopik veri setleri için ön işleme tabi tutmanıza gerek yok ...
SX ile mutsuz cbeleites

Yanıtlar:


3

Stata'ya özgü olmasına rağmen , veri yönetimi ve hazırlama alanında Scott Long'un Stata Kullanarak Veri Analizi İş Akışı adlı kitabını buldum . Yazar, veri yönetiminde verilerin temizlenmesi ve arşivlenmesi, aykırı değerlerin kontrol edilmesi ve eksik verilerin ele alınması gibi iyi uygulamalarla ilgili birçok yararlı tavsiye vermektedir.


2
Bu kitabı da çok seviyorum ama veri yönetimi söz konusu olduğunda yünlü Stata kullanıcısıyım. Ben katılmıyorum, bu listedeki diğerleri yararlı olmak için çok Stata özgü olduğunu, bu yüzden uyarı emptor / lector olduğunu savundu.
Dimitriy V. Masterov

Topladığımdan çok stata-ish ve ne stata aşina değilim, ne olsaydım bu proje için de yardımcı olmaz (veriler çok büyük, farklı teknolojiler kullanarak)
em70

Kitap gerçekten çok kendine özgü. Belirli veri (ve özellikle meta veri) işleme teknikleri Stata'ya özgüdür, ancak genel fikirler platformlar arasında aktarılabilir. Piyasada yaklaşık 20 Stata kitap / 100 R kitap oranı ile, R'de iş akışını organize etmekle ilgili karşılaştırılabilir kitapların bulunmamasına şaşırıyorum - ikincisi imkansız mı? Stata'ya tahsis ettiğim en büyük bellek miktarı 64Gb'lik bir makinede 48Gb idi - bu boyutun önemli olup olmadığı. Çok farklı yapıdaki nesneleri manipüle etmeniz gerekiyorsa, bunu Stata'da değil, R'de yapmak istersiniz.
StasK


0

Konuya bağlı olarak temellere (aykırı değerleri, eksik değerleri, ağırlıklandırmayı, kodlamayı) sahipseniz, açık akademik literatürde çok daha fazlası bulunur. Örneğin, anket araştırmasında (birçok şeyin yanlış gidebileceği ve birçok önyargı kaynağına eğilimli bir konu olan) bulunacak birçok iyi makale bulunmaktadır.

Düzenli kesitsel regresyon için hazırlanırken, işler daha az karmaşık olabilir . Sorun, örneğin çok fazla 'aykırı değer' kaldırmanız ve dolayısıyla modelinizi yapay olarak iyi takmanız olabilir.

Bu nedenle, iyi teknikler öğrenmenin yanı sıra sağduyunuzu da aklınızda bulundurmanızı öneririm. Teknikleri körü körüne değil, doğru uyguladığınızdan emin olun. Diğer cevaplardaki yazılım tartışmasına gelince. Veri kümesi boyutunuza bağlı olarak SPSS'nin veri hazırlama için kötü olmadığını düşünüyorum (SAS hakkında da iyi şeyler duydum). Açılır menüler çok sezgiseldir.

Ancak sorunuza doğrudan bir cevap olarak, akademik literatür konuya ve analize bağlı olarak veri hazırlığınız için çok iyi bir kaynak olabilir veya olmayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.