Aşağıdaki sorunla karşılaştım, keşif oldukça tipik.
Birkaç milyon satır gibi büyük verilerim var. Bazı önemsiz analiz, örneğin birkaç alt sorgudan oluşan bir SQL sorgusu çalıştırın. Örneğin X özelliğinin zaman içinde arttığını belirten bir sonuç elde ediyorum.
Şimdi, buna yol açabilecek iki olası şey var:
- X gerçekten zaman içinde artıyor
- Analizimde bir hata var
Birincisinin ikinciden ziyade olduğunu nasıl test edebilirim? Ara sonuçlar hala milyonlarca satırdan oluşabileceğinden, adım adım bir hata ayıklayıcı, bir tane olsa bile yardımcı olmaz.
Düşünebildiğim tek şey, bir şekilde test etmek istediğim özelliğe sahip küçük, sentetik bir veri kümesi oluşturmak ve analizini bir birim testi olarak çalıştırmaktı. Bunu yapmak için araçlar var mı? Özellikle, ancak bunlarla sınırlı olmamak kaydıyla, SQL.