Bence sık sık, keşifsel analizlerle bir tavşan deliğinden aşağıya inmiş gibi hissetme eğiliminin, sorduğunuz asıl soruları görmemekten kaynaklandığını düşünüyorum. Bazen kendim yapıyorum ve sonra hedeflerimin ne olduğunu kendime hatırlatmam gerekiyor. Örneğin, belirli bir model oluşturmaya mı ya da mevcut olanın yeterliliğini değerlendirmeye mi çalışıyorum? Verilerle ilgili sorunların kanıtını mı arıyorum (yani, adli veri analizi)? Ya da, analizin ilk aşamalarında, resmi olmayan bir model geliştirmeye geçmeden önce belirli soruları gayrı resmi olarak araştırdığım (örneğin, iki değişken arasında bir ilişki var mı?)? Özetle, kendinize arsaları ve masaları kesip yakalarsanız, ancak asıl amacınızın ne olduğunu veya bu arsanın / masanın neden alakalı olduğunu açıkça belirtemezseniz, o zaman sizi bilirsiniz.
Yazarken yaptığım gibi, bir program yazarken veya bir makale yazarken keşifsel veri analizine yaklaşmaya çalışıyorum. Her iki durumda da, önce bir taslak oluşturmadan başlayamam. Bu taslak elbette değişebilir (ve sıklıkla yapar), ancak bir tanesi olmadan yazmaya başlamak yetersizdir ve çoğu zaman zayıf bir nihai ürün verir.
WRT organizasyonu, her analistin kendisi için işe yarayan bir iş akışı bulması gerekir - bunu yapmak IMO'nun başkasının iş akışını katı bir şekilde izlemeye çalışmaktan daha önemlidir (yine de başkalarının yaptıklarından fikir almak her zaman yararlıdır). Programlı olarak çalışıyorsanız (yani, bir takım sonuçlar üretmek / yeniden üretmek için çalıştırılabilecek kodlar yazmak) ve çalışmanızı git içine kontrol etmek istiyorsanız, o zaman bu konuda zaten birçok mil ötedesiniz. Kodunuzu düzenlemek için biraz zaman geçirmeniz gerekebileceğinden şüpheleniyorum ve bunun için anahatlarınızı takip etmenizi öneririm. Örneğin, analiz dosyalarınızı nispeten kısa ve hedefli tutun; böylece her biri belirli bir soruyu yanıtlar (örneğin, belirli bir regresyon modeli için tanı grafikleri). Bunları projenin büyüklüğüne ve karmaşıklığına bağlı olarak bir veya iki düzeyde alt dizinlerde düzenleyin. Bu şekilde, proje kendini belgelendirir; dizinlerin, alt dizinlerin ve dosyaların liste görünümü (her dosyanın başında yer alan yorumla birlikte) teorik olarak taslağınızı yeniden oluşturmalıdır.
Elbette, büyük bir projede, veri temizleme ve yönetimi yapan bir kodunuz, belirli bir model türünü tahmin etmek için yazdığınız kod veya yazdığınız diğer yardımcı programların da olabilir veri analiziniz için anahatlar bu yüzden proje klasörünüzün farklı bir bölümünde düzenlenmelidirler.
Güncelleme: Bunu gönderdikten sonra, "çıkmazlar" hakkındaki sorunuzu doğrudan ele almadığımı fark ettim. Tüm bir analiz setinin değerinin olmadığına gerçekten karar verirseniz, o zaman gitde çalışıyorsanız, ilgili dosyaları / dosyaları "Bu analiz satırını terk etmedim çünkü üretken." Yazdıklarınızı sıkıştırıp çöpe atmadan farklı olarak, istenirse, daha sonra ne yaptığınıza geri dönebilirsiniz.
Ancak, düşündüğünüz bir çerçeveden ilerlerseniz, daha az çıkmaz elde edeceğinizi düşünüyorum. Bunun yerine, değerli ve ilgili bir soruyu araştırmak için zaman harcıyorsanız - bu boş bir bulguya yol açsa veya beklediğiniz gibi çıkmasa bile - muhtemelen yaptığınız ve sonucun kaydını tutmak isteyebilirsiniz. minimum, böylece daha sonra tekrarlamak için hata yapmazsınız). Bunları, "Ek" olarak, anahattınızın altına taşıyın.