«pandas» etiketlenmiş sorular

Pandas, veri manipülasyonu ve analizi için bir Python kütüphanesidir, örneğin veri çerçeveleri, çok boyutlu zaman serileri ve istatistiklerde, deneysel bilim sonuçlarında, ekonometrikte veya finansta yaygın olarak bulunan kesitsel veri kümeleri. Pandalar, Python'daki ana veri bilimi kütüphanelerinden biridir.

2
Filtrelenmiş ikili kartezyen ürünler üretin
Sorun bildirimi Tam ikili kartezyen ürünler (doğru ve yanlış tüm sütunları ile belirli sayıda sütun içeren tablolar), belirli özel koşullara göre filtre oluşturmak için verimli bir yol arıyorum. Örneğin, üç sütun / bit n=3için tam tabloyu alırız df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True True …

1
pandasUDF ve pyarrow 0.15.0
Son zamanlarda pysparkEMR kümelerinde çalışan bir dizi işte bir sürü hata almaya başladım . Errolar java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Hepsi applybir panda serisinin işlevlerinde gerçekleşiyor …


9
bir sütun pandadan bir NxN matrisi oluşturma
her satırda bir liste değeri olan dataframe var. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] bir satır ve diğer tüm satırlara karşı bir puan hesaplamak zorundayım Örneğin: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 and id 1 , …
11 python  pandas  numpy 

1
Python'dan oluşturulan dinamik döngüden null değerler nasıl düşürülür?
Ben böyle bir veri çerçevesi var: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 Yukarıdaki veri çerçevesinden XML oluşturuyorum. XML içine doldurulmuş null değerini kaldırmak istiyorum. Kodum bu sütun ve satır değerini XML'den düşürmelidir. Kodum header = """<ORD>{}</ORD>""" …

3
pandalar, bir sütundaki değerlerin durumuna göre aynı anda birden çok sütundaki değerlerin üzerine yazar
Böyle bir DataFrame var: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Ben col1 ":" bölündükten sonra listenin uzunluğunu almak istiyorum, sonra uzunluk> 2 VEYA uzunluk <= 2 ise değerlerin üzerine …
11 python  pandas  apply 

2
Sondaki CAPS'yi ayrı bir sütuna taşımak için regex içeren sütunları nasıl bölebilirim?
Regex kullanarak bir sütun bölmek çalışıyorum, ama doğru bölünmüş almak gibi görünmüyor. Tüm sondaki CAPS'ları alıp ayrı bir sütuna taşımaya çalışıyorum. Yani arka arkaya 2-4 CAPS olan tüm CAPS alıyorum. Ancak, yalnızca 'Name'sütun boşken 'Team'sütundan ayrılır. İşte benim kod: import pandas as pd url = "https://www.espn.com/nba/stats/player/_/table/offensive/sort/avgAssists/dir/desc" df = pd.read_html(url)[0].join(pd.read_html(url)[1]) df[['Name','Team']] …
11 python  regex  pandas 




2
Pandalar: Yerel minima-maxima'ya dayalı verilerin zikzak segmentasyonu
Bir zaman çizelgesi verilerim var. Veri oluşturma date_rng = pd.date_range('2019-01-01', freq='s', periods=400) df = pd.DataFrame(np.random.lognormal(.005, .5,size=(len(date_rng), 3)), columns=['data1', 'data2', 'data3'], index= date_rng) s = df['data1'] Her bir zig-zag çizgisinin y ekseninde, |highest - lowest value|bir önceki mesafenin bir yüzdesini (% 20) aşması koşulunu yerine getiren yerel maxima ve yerel minima …

3
Birden çok kategorik sütunu dönüştürme
Veri setimde numaralandırmak istediğim iki kategorik sütun var. İki sütunun her ikisi de ülkeler içerir, bazıları çakışır (her iki sütunda da görünür). Aynı ülke için aynı numarayı sütun1 ve sütun2'de vermek istiyorum. Verilerim şöyle görünüyor: import pandas as pd d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', …


3
Pandas gruplandırılmış DataFrame'e Python işlevi uygulamak - hesaplamaları hızlandırmak için en etkili yaklaşım nedir?
Oldukça büyük Pandalar DataFrame ile uğraşıyorum - veri setim aşağıdaki dfdüzene benziyor : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( repeats = …

3
Panda'nın veri çerçevesinden bir sütunun yalnızca bir kısmını sil
Aşağıdaki örnek veri çerçevesi var: df = pd.DataFrame(data = {'RecordID' : [1,1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5], 'DisplayLabel' : ['Source','Test','Value 1','Value 2','Value3','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2'], 'Value' : ['Web','Logic','S','I','Complete','Person','Voice','>20','P','Mail','OCR','A','I','Dictation','Understandable','S','I','Web','Logic','R','S']}) Bu da bu veri çerçevesini oluşturur: +-------+----------+---------------+----------------+ | Index | RecordID | Display Label | Value | +-------+----------+---------------+----------------+ | 0 | 1 …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.