Pandalar'a birden fazla JSON satırı içeren bir dosya yükleme


Bir JSON dosyasında Python pandaları (0.14.0) veri çerçevesine okumaya çalışıyorum. JSON dosyasının ilk satır satırı:

{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe.  The sandwiches and wraps are good but a little overpriced and the food items are the same.  The chicken caesar salad wrap is my favorite here but everything else is pretty much par for the course.", "type": "review", "business_id": "Jp9svt7sRT4zwdbzQ8KQmw"}

Ben aşağıdakileri yapmanız çalışıyorum: df = pd.read_json(path).

Aşağıdaki hatayı alıyorum (tam izleme ile):

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/d/anaconda/lib/python2.7/site-packages/pandas/io/", line 198, in read_json
  File "/Users/d/anaconda/lib/python2.7/site-packages/pandas/io/", line 266, in parse
  File "/Users/d/anaconda/lib/python2.7/site-packages/pandas/io/", line 483, in _parse_no_numpy
    loads(json, precise_float=self.precise_float), dtype=None)
ValueError: Trailing data

Nedir Trailing datahatası? Bunu bir veri çerçevesine nasıl okuyabilirim?

Bazı önerilerin ardından, .json dosyasının birkaç satırı aşağıda verilmiştir:

{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe.  The sandwiches and wraps are good but a little overpriced and the food items are the same.  The chicken caesar salad wrap is my favorite here but everything else is pretty much par for the course.", "type": "review", "business_id": "Jp9svt7sRT4zwdbzQ8KQmw"}
{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "TNJRTBrl0yjtpAACr1Bthg", "review_id": "qq3zF2dDUh3EjMDuKBqhEA", "stars": 3, "date": "2005-11-23", "text": "I agree with other reviewers - this is a pretty typical financial district cafe.  However, they have fantastic pies.  I ordered three pies for an office event (apple, pumpkin cheesecake, and pecan) - all were delicious, particularly the cheesecake.  The sucker weighed in about 4 pounds - no joke.\n\nNo surprises on the cafe side - great pies and cakes from the catering business.", "type": "review", "business_id": "Jp9svt7sRT4zwdbzQ8KQmw"}
{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "H_mngeK3DmjlOu595zZMsA", "review_id": "i3eQTINJXe3WUmyIpvhE9w", "stars": 3, "date": "2005-11-23", "text": "Decent enough food, but very overpriced. Just a large soup is almost $5. Their specials are $6.50, and with an overpriced soda or juice, it's approaching $10. A bit much for a cafe lunch!", "type": "review", "business_id": "Jp9svt7sRT4zwdbzQ8KQmw"}

Kullandığım bu .json dosyası, spesifikasyona göre her satırda bir JSON nesnesi içeriyor. web sitesini önerildiği gibi denedim ve aşağıdaki hatayı veriyor:

Parse error on line 14:
...t7sRT4zwdbzQ8KQmw"}{    "votes": {
Expecting 'EOF', '}', ',', ']'

Dosyada, JSON nesnesinin parçası olmayan ek verileriniz var.
Martijn Pieters

Json dosyasının son birkaç satırı neye benziyor?
Bryan Oakley

Bu örnek, Pandalar 0.16.0'da benim için iyi okur. Pandaların hangi sürümünü kullanıyorsunuz?
Andy Hayden

@ user62198 0.16.0'a güncelleme, read_json için bazı düzeltmeler yapıldı.
Andy Hayden

@Cornel Ghiban, tüm dosyayı yükleyebilir veya tek bir satırda okuyabilirim. Bahsettiğiniz formata dönüştürmek biraz zor olabilir, çünkü bu tür 5 milyondan fazla kayıt var.



Pandas'ın 0.19.0 sürümünden itibaren linesparametreyi şu şekilde kullanabilirsiniz :

import pandas as pd

data = pd.read_json('/path/to/file.json', lines=True)

linesArgümanla ilgili olarak bu sorunun geçici çözümünü nasıl elde edeceğiniz hakkında bir fikriniz var mı?


Satır satır okumak zorundasın. Örneğin, tarafından sağlanan aşağıdaki kodu kullanabilirsiniz ryptophan üzerinde reddit :

import pandas as pd

# read the entire file into a python array
with open('your.json', 'rb') as f:
    data = f.readlines()

# remove the trailing "\n" from each line
data = map(lambda x: x.rstrip(), data)

# each element of 'data' is an individual JSON object.
# i want to convert it into an *array* of JSON objects
# which, in and of itself, is one large JSON object
# basically... add square brackets to the beginning
# and end, and have all the individual business JSON objects
# separated by a comma
data_json_str = "[" + ','.join(data) + "]"

# now, load it into pandas
data_df = pd.read_json(data_json_str)

Merhaba, un json dosyasını okumaya ve dataframe'e depolamaya çalışıyorum. Ancak, kodunuzu kullandığımda bir hata aldım: "TypeError: sıra öğesi 0: beklenen str örneği, bayt bulundu". Bunun nesi var biliyor musun?


Aşağıdaki kod, JSONiçeriği bir içine yüklememe yardımcı oldu dataframe:

import json
import pandas as pd

with open('Appointment.json', encoding="utf8") as f:
    data = f.readlines()
    data = [json.loads(line) for line in data] #convert string to dict format
df = pd.read_json(data) # Load into dataframe


Benzer bir problemim vardı.

O çıkıyor pd.read_json(myfile.json)otomatik olarak üst klasöründe arayacaktır, ancak bu dosya ile aynı klasörde değilseniz hata 'Veri sondaki' Bu döndürür.

Anladım, çünkü bunu yapmaya çalıştığımda open('myfile.json', 'r')ve bir FileNotFoundhata aldım , bu yüzden yolları kontrol ettim.

Myfile.json dosyasını not defterimle aynı klasöre taşıyamamıştım.

pd.read_json('../myfile.json')Sadece işe yarayacak şekilde değiştiriliyor .

Ne ValueError: Trailing datazaman vermesi gerektiğini bir vermesi aptalca FileNotFound. Bu bana da oldu.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.