Python ile analitik yeni başlayanlar bu yüzden lütfen nazik olun :-) Bu sorunun cevabını bulamadım - başka bir yerde farklı bir formatta zaten cevaplandıysa özür dilerim.
Bir perakende satış mağazası için işlem verileri veri kümem var. Açıklama ile birlikte değişkenler:
- bölüm: mağazanın bölümü, bir str;
- prod_name: ürünün adı, str;
- makbuz: faturanın numarası, int;
- kasiyer, kasiyer sayısı, int;
- maliyet: öğenin maliyeti, bir kayan nokta;
- tarih, AA / GG / YY biçiminde, bir str;
- saat, SS: DD: SS, str;
Makbuz, tek bir işlemde satın alınan tüm ürünler için aynı değere sahiptir, bu nedenle tek bir işlemde yapılan ortalama satın alma sayısını belirlemek için kullanılabilir.
Bununla ilgili en iyi yol nedir? Esasen groupby()
, bir histogram oluşturabilmem için makbuz değişkenini kendi özdeş olaylarına göre gruplandırmak için kullanmak istiyorum .
Pandalar DataFrame'deki verilerle çalışma.
DÜZENLE:
Üstbilgi içeren bazı örnek veriler (prod_name aslında onaltılık bir sayıdır):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
Bu örnek kümesinden, 102857 makbuzunun iki tekrarını gösteren bir makbuz histogramı beklemekteyim (bu kişi bir işlemde iki öğe satın aldığından) ve sırasıyla 102856 makbuzunun ve 102858 makbuzunun bir kez gerçekleştiğini gösterir. Not: Veri setim çok büyük değil, hakkında 1 milyon sıra.