Ürünlerimizden birinin birkaç günlük dosyası üzerinde veri kümesi oluşturmaya çalışıyorum.
Farklı günlük dosyalarının kendi düzeni ve içeriği vardır; Onları başarıyla grupladım, sadece bir adım kaldı ...
Gerçekten, günlük "mesajlar" en iyi bilgidir. Tüm bu mesajların kapsamlı bir listesine sahip değilim ve bu liste her gün değişebilir çünkü bu dayalı sabit kod için kötü bir fikir.
Ne yapmak istiyorum, kimlik metnini değer metninden ayırmaktır (örneğin: "Yüklenen dosya XXX" olur (tanımlama: "Yüklenen dosya", değer: "XXX")). Ne yazık ki, bu örnek basittir ve gerçek dünyada farklı düzenler ve bazen birden fazla değer vardır.
Ben dize çekirdekleri kullanmayı düşünüyordum, ama kümeleme için tasarlanmıştır ... ve kümeleme burada geçerli değildir (farklı mesaj türlerinin sayısını bilmiyorum ve sonunda, çok fazla olurdu).
Herhangi bir fikrin var mı?
Yardımın için teşekkürler.
Not: Program yapanlar için bunu anlamak daha kolay olabilir. Kodun logf ("blabla% s", "xxx") olarak içerdiğini varsayalım -> "blabla" ve "xxx" ayrılmış olmak istiyorum