Sütunlara veya veri türlerine bakılmaksızın veri dosyalarının alınmasını içeren bir proje üzerinde çalışan birini tanıyorum. Görev, herhangi bir sayıda sütun ve çeşitli veri türleriyle bir dosya almak ve sayısal veriler üzerinde özet istatistikler çıkarmaktır.
Ancak, belirli sayı tabanlı veriler için dinamik olarak veri türlerinin nasıl atanacağından emin değildir. Örneğin:
CITY
Albuquerque
Boston
Chicago
Bu açıkça sayısal veriler değildir ve metin olarak saklanacaktır. Ancak,
ZIP
80221
60653
25525
kategorik olarak açıkça işaretlenmez. Yazılımı, posta kodunu sayısal olarak atar ve bunun için bu tür veriler için anlamlı olmayan özet istatistikler çıkarır.
Birkaç fikir vardı:
- Bir sütun tümüyle tamsayı ise, kategorik olarak etiketleyin. Bu açıkça işe yaramazdı, ama bir fikirdi.
- Bir sütunda n'den az benzersiz değer varsa ve sayısalsa, kategorik olarak etiketleyin. Bu daha yakın olabilir, ancak yine de sayısal verilerle ilgili sorunlar olabilir.
- Gerçekten kategorik olması gereken ortak sayısal verilerin bir listesini tutun ve sütun başlıklarını eşleşmeler için bu listeyle karşılaştırın. Örneğin, içinde "ZIP" olan herhangi bir şey kategorik olur.
Bağırsaklarım, sayısal verileri kategorik veya sayısal olarak doğru bir şekilde atamanın bir yolu olmadığını, ancak bir öneri umduğunu söyledi. Herhangi bir fikir büyük takdir.