Veri analizi projelerinde çalıştığımda, verileri genellikle virgül veya sekmeyle ayrılmış (CSV, TSV) veri dosyalarında depolarım. Veriler genellikle özel bir veritabanı yönetim sistemine aittir. Birçok uygulamam için bu aşırı şeyler olurdu.
CSV ve TSV dosyalarını Excel'de (veya muhtemelen başka bir Elektronik Tablo programı) düzenleyebilirim. Bunun yararları vardır:
- e-tablolar veri girmeyi kolaylaştırır
Ayrıca birkaç sorun var:
- CSV ve TSV dosyalarıyla çalışmak, çeşitli özelliklerin kaybolması ve yalnızca etkin sayfanın nasıl kaydedileceği vb. Hakkında çok çeşitli uyarı mesajlarına yol açar. Bu nedenle, sadece dosyayı açmak ve küçük bir değişiklik yapmak istiyorsanız sinir bozucu.
- Birçok "sözde akıllı" dönüşüm gerçekleştirir. Örneğin, 12/3 girerseniz, bir tarih girmek istediğinizi düşünür. GÜNCELLEME: Tarih örneğinin birçok örnekten sadece biri olduğunu söylemeliydim; sorunların çoğu uygunsuz dönüşümle ilgili gibi görünmektedir. Özellikle, sayılara veya tarihlere benzeyen metin alanları sorunlara neden olur.
Alternatif olarak, standart bir metin düzenleyicideki metin dosyasıyla doğrudan çalışabilirim. Bu girdiğim şeyin kaydedilen şey olmasını sağlar. Bununla birlikte, veri girmenin çok garip bir yoludur (sütunlar sıralanmaz; verileri birden çok hücreye girmek zordur vb.).
Soru
- CSV veya TSV veri dosyalarıyla çalışmak için iyi bir strateji nedir? yani, hangi strateji verilerin girilmesini ve değiştirilmesini kolaylaştırırken, girdiğiniz şeyin doğru bir şekilde yorumlanmasını sağlar?