Sondaki CAPS'yi ayrı bir sütuna taşımak için regex içeren sütunları nasıl bölebilirim?

11

Regex kullanarak bir sütun bölmek çalışıyorum, ama doğru bölünmüş almak gibi görünmüyor. Tüm sondaki CAPS'ları alıp ayrı bir sütuna taşımaya çalışıyorum. Yani arka arkaya 2-4 CAPS olan tüm CAPS alıyorum. Ancak, yalnızca 'Name'sütun boşken 'Team'sütundan ayrılır.

İşte benim kod:

import pandas as pd

url = "https://www.espn.com/nba/stats/player/_/table/offensive/sort/avgAssists/dir/desc"

df = pd.read_html(url)[0].join(pd.read_html(url)[1])
df[['Name','Team']] = df['Name'].str.split('[A-Z]{2,4}', expand=True)

Bunu istiyorum:

print(df.head(5).to_string())
   RK             Name POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron JamesLA  SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky RubioPHX  PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka DoncicDAL  SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben SimmonsPHIL  PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae YoungATL  PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

bu olmak için:

print(df.head(5).to_string())
   RK             Name    Team    POS  GP   MIN   PTS  FGM   FGA   FG%  3PM  3PA   3P%  FTM  FTA   FT%  REB   AST  STL  BLK   TO  DD2  TD3    PER
0   1  LeBron James        LA    SF  35  35.1  24.9  9.6  19.7  48.6  2.0  6.0  33.8  3.7  5.5  67.7  7.9  11.0  1.3  0.5  3.7   28    9  26.10
1   2   Ricky Rubio        PHX    PG  30  32.0  13.6  4.9  11.9  41.3  1.2  3.7  31.8  2.6  3.1  83.7  4.6   9.3  1.3  0.2  2.5   12    1  16.40
2   3   Luka Doncic        DAL    SF  32  32.8  29.7  9.6  20.2  47.5  3.1  9.4  33.1  7.3  9.1  80.5  9.7   8.9  1.2  0.2  4.2   22   11  31.74
3   4   Ben Simmons        PHIL    PG  36  35.4  14.9  6.1  10.8  56.3  0.1  0.1  40.0  2.7  4.6  59.0  7.5   8.6  2.2  0.7  3.6   19    3  19.49
4   5    Trae Young        ATL    PG  34  35.1  28.9  9.3  20.8  44.8  3.5  9.4  37.5  6.7  7.9  85.0  4.3   8.4  1.2  0.1  4.8   11    1  23.47

python regex pandas

— chitown88
kaynak

9

Sen gibi bir normal ifade kullanarak iki sütuna veri ayıklamak olabilir ^(.*?)([A-Z]+)$veya ^(.*[^A-Z])([A-Z]+)$:

df[['Name','Team']] = df['Name'].str.extract('^(.*?)([A-Z]+)$', expand=True)

Bu, "Ad" Grubundaki büyük harf olmayan son karaktere ve "Takım" Grubundaki son büyük harflere kadar saklanır.

Bkz regex demo 1. ve düzenli ifade demo 2.

ayrıntılar

^ - bir dizenin başlangıcı
(.*?)- Grup 1'i yakalama: satır sonu karakterleri dışında sıfır veya daha fazla karakter, mümkün olduğunca az
veya
(.*[^A-Z]) - ASCII büyük harf olmayan (sonraki kalıplar eşleştiğinde verilen) son karaktere kadar, satır kesme karakterleri dışındaki sıfır veya daha fazla karakter (olabildiğince çok) (bu modelin, son büyük harfler)
([A-Z]+) - Yakalama grubu 2: bir veya daha fazla ASCII büyük harf
$ - dizenin sonu.

— Wiktor Stribiżew
kaynak

1

Fonksiyonlarda birkaç değişiklik yaptım, yeniden paket eklemeniz gerekebilir.

Biraz manuel, ama umarım bu yeterli olacaktır. İyi günler!

df_obj_skel = dict()
df_obj_skel['Name'] = list()
df_obj_skel['Team'] = list()
for index,row in df.iterrows():
    Name = row['Name']
    Findings = re.search('[A-Z]{2,4}$', Name)
    Refined_Team = Findings[0]
    Refined_Name = re.sub(Refined_Team + "$", "", Name)
    df_obj_skel['Team'].append(Refined_Team)
    df_obj_skel['Name'].append(Refined_Name)
df_final = pd.DataFrame(df_obj_skel)
print(df_final)

— Yüksek Oktan
kaynak