«data-cleaning» etiketlenmiş sorular

4
R'deki tutarsız formattaki verilerin temizlenmesi?
Herhangi bir istatistik yapılmadan önce çok fazla temizlik gerektiren dağınık anket verileriyle sık sık ilgilenirim. Bunu Excel'de, bazen Excel formüllerini kullanarak ve bazen girişleri tek tek kontrol ederek yapıyordum. R'de bunları yapmak için komut dosyaları yazarak bu görevlerin gittikçe daha fazlasını yapmaya başladım, ki bu çok yararlı oldu (faydalar yapılanların …
16 r  data-cleaning 

1
Tekilleştirme işleminde son teknoloji
Kayıt tekilleştirme işleminde en gelişmiş yöntemler nelerdir? Veri tekilleştirme de denir: kayıt bağlantısı, varlık çözümü, kimlik çözümü, birleştirme / temizleme. Örneğin CBLOCK [1] hakkında bilgim var. Yanıtların ayrıca yöntemleri uygulayan mevcut yazılımlara referansları da içermesi hoşuma gider. Örneğin Mahout'un gölgelik kümelemeyi uyguladığını biliyorum . Lucene kullanan Duke da var . …

3
Verileri Yeniden Şekillendirmek / Yeniden Yapılandırmak için en iyi yol nedir?
Ben bir laboratuvar için araştırma görevlisiyim (gönüllü). Ben ve küçük bir grup, büyük bir çalışmadan alınan bir veri kümesi için veri analizi ile görevlendirildik. Ne yazık ki, veriler bir tür çevrimiçi uygulama ile toplanmış ve verilerin en kullanışlı biçimde çıkması için programlanmamıştır. Aşağıdaki resimler temel sorunu göstermektedir. Bunun "Yeniden Şekillendirme" …
12 r  excel  data-cleaning 

3
Otomatik veri temizleme
Sık karşılaşılan bir sorun ML'nin verilerin kalitesinin düşük olmasıdır: özellik değerlerindeki hatalar, yanlış sınıflandırılan örnekler vb. Bu sorunu ele almanın bir yolu verileri manuel olarak gözden geçirmek ve kontrol etmektir, ancak başka teknikler var mı? (Eminim vardır!) Hangileri daha iyi ve neden?

2
Gerçek verilerden “demo” verileri oluşturma: şekil değiştirmeden gizleme
(Bunu ne ile etiketleyeceğime dair gerçek bir fikrim yok çünkü istatistikçi değilim ve bunun hangi alana girdiğini bilmiyorum. Daha uygun etiketler eklemekten çekinmeyin.) Veri analiz yazılımı üreten bir şirkette çalışıyorum ve en son ürünümüzü test etmek ve tanıtmak için iyi bir veri setine ihtiyacımız var. Veritabanını rastgele bir sayı üretecinin …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.