Python CSV hatası: satır NULL bayt içeriyor

Question 1

Aşağıdaki kodla bazı CSV dosyalarıyla çalışıyorum:

reader = csv.reader(open(filepath, "rU"))
try:
    for row in reader:
        print 'Row read successfully!', row
except csv.Error, e:
    sys.exit('file %s, line %d: %s' % (filename, reader.line_num, e))

Ve bir dosya bu hatayı veriyor:

file my.csv, line 1: line contains NULL byte

Ne yapabilirim? Google, bunun yanlış bir şekilde .csv olarak kaydedilmiş bir Excel dosyası olabileceğini öne sürüyor. Python'da bu sorunu aşmanın bir yolu var mı?

== GÜNCELLEME ==

@ JohnMachin'in aşağıdaki yorumunu takiben, bu satırları betiğime eklemeyi denedim:

print repr(open(filepath, 'rb').read(200)) # dump 1st 200 bytes of file
data = open(filepath, 'rb').read()
print data.find('\x00')
print data.count('\x00')

Ve aldığım çıktı bu:

'\xd0\xcf\x11\xe0\xa1\xb1\x1a\xe1\x00\x00\x00\x00\x00\x00\x00\x00\ .... <snip>
8
13834

Yani dosya gerçekten NUL baytları içeriyor.

Question 2

@ S.Lott'un dediği gibi, dosyalarınızı 'rU' modunda değil, 'rb' modunda açmalısınız. Ancak bu, mevcut sorununuza neden OLMAYABİLİR. Bildiğim kadarıyla, 'rU' modunu kullanmak \r, verilere gömülü ise sizi mahveder , ancak başka dramalara neden olmaz. Ayrıca birkaç dosyanız (tümü 'rU' ?? ile açılmış) olduğunu, ancak yalnızca birinin soruna neden olduğunu not ediyorum.

Eğer csv modülü dosyanızda "NULL" (saçma mesaj, "NUL" olmalıdır) baytınız olduğunu söylüyorsa, dosyanızda ne olduğuna bakmanız gerekir. 'Rb' kullanmak sorunu çözse bile bunu yapmanızı öneririm.

repr()sizin hata ayıklama arkadaşınız (veya olmak istiyor). Platformdan bağımsız bir şekilde neye sahip olduğunuzu net bir şekilde gösterecektir (bu, ne odolduğunu veya ne yaptığını bilmeyen yardımcılar için yararlıdır ). Bunu yap:

print repr(open('my.csv', 'rb').read(200)) # dump 1st 200 bytes of file

ve sonucu dikkatlice kopyalayıp / yapıştırarak (yeniden yazmayın) sorunuzun bir düzenlemesine (yoruma değil).

Ayrıca, dosya gerçekten tehlikeli ise, örneğin dosyanın başlangıcından itibaren makul bir mesafede \ r veya \ n yok ise, tarafından bildirilen satır numarasının reader.line_num(yararsız bir şekilde) olacağını unutmayın 1. \x00Bunu yaparak (varsa) ilkinin nerede olduğunu bulun

data = open('my.csv', 'rb').read()
print data.find('\x00')

ve repr veya od ile en azından bu kadar baytı boşalttığınızdan emin olun.

Sana ne data.count('\x00')anlatıyor Çok fazla varsa, şöyle bir şey yapmak isteyebilirsiniz

for i, c in enumerate(data):
    if c == '\x00':
        print i, repr(data[i-30:i]) + ' *NUL* ' + repr(data[i+1:i+31])

NUL baytlarını bağlam içinde görebilmeniz için.

Eğer görebiliyorsanız \x00(veya çıktıda \0sizin de od -cçıktı), o zaman kesinlikle dosyasında boş karakter (ler) varsa ve böyle bir şey yapmak gerekir:

fi = open('my.csv', 'rb')
data = fi.read()
fi.close()
fo = open('mynew.csv', 'wb')
fo.write(data.replace('\x00', ''))
fo.close()

Bu arada, dosyaya (son birkaç satır dahil) bir metin düzenleyiciyle baktınız mı? Diğer dosyalar gibi ("NULL bayt" istisnası olmayan) makul bir CSV dosyası gibi mi görünüyor?

Question 3

data_initial = open("staff.csv", "rb")
data = csv.reader((line.replace('\0','') for line in data_initial), delimiter=",")

Bu benim için çalışıyor.

Question 4

UTF-16 olarak okumak da benim sorunumdu.

İşte sonuçta işe yarayan kodum:

f=codecs.open(location,"rb","utf-16")
csvread=csv.reader(f,delimiter='\t')
csvread.next()
for row in csvread:
    print row

Konum, csv dosyanızın dizinidir.

Question 5

Ben de bu problemle karşılaştım. Python csvmodülünü kullanarak, MS Excel'de oluşturulan ve aldığınız NULL bytehatayla karşılaşan bir XLS dosyasını okumaya çalışıyordum . Etrafıma baktım ve MS Excel elektronik tablo dosyalarından veri okumak ve biçimlendirmek için xlrd Python modülünü buldum . xlrdModül ile hem dosyayı düzgün okuyabiliyorum hem de dosyanın birçok farklı kısmına daha önce yapamadığım şekilde erişebiliyorum.

Sana yardımcı olabileceğini düşündüm.

Question 6

Kaynak dosyanın kodlamasını UTF-16'dan UTF-8'e dönüştürmek sorunumu çözüyor.

Python'da bir dosya utf-8'e nasıl dönüştürülür?

import codecs
BLOCKSIZE = 1048576 # or some other, desired size in bytes
with codecs.open(sourceFileName, "r", "utf-16") as sourceFile:
    with codecs.open(targetFileName, "w", "utf-8") as targetFile:
        while True:
            contents = sourceFile.read(BLOCKSIZE)
            if not contents:
                break
            targetFile.write(contents)

Question 7

Yokmuş gibi davranmak istiyorsanız, boş değerleri filtrelemek için bir üreteci satır içi yapabilirsiniz. Elbette bu, boş baytların kodlamanın gerçekten bir parçası olmadığını ve gerçekten bir tür hatalı yapaylık veya hata olduğunu varsaymaktır.

with open(filepath, "rb") as f:
    reader = csv.reader( (line.replace('\0','') for line in f) )

    try:
        for row in reader:
            print 'Row read successfully!', row
    except csv.Error, e:
        sys.exit('file %s, line %d: %s' % (filename, reader.line_num, e))

Question 8

Bunu neden yapıyorsun?

 reader = csv.reader(open(filepath, "rU"))

Dokümanlar, bunu yapmanız gerektiği konusunda oldukça açık:

with open(filepath, "rb") as src:
    reader= csv.reader( src )

Mod okumak için "rb" olmalıdır.

http://docs.python.org/library/csv.html#csv.reader

Eğer csvfile bir dosya nesnesiyse, fark yaratan platformlarda 'b' bayrağıyla açılmalıdır.

Question 9

görünüşe göre bu bir XLS dosyası ve http://www.garykessler.net/library/file_sigs.html onayladığı gibi bir CSV dosyası değil

Question 10

Csv okuyucu yerine string için dosya oku ve bölme işlevini kullanıyorum:

lines = open(input_file,'rb') 

for line_all in lines:

    line=line_all.replace('\x00', '').split(";")

Question 11

Aynı hatayı aldım. Dosyayı UTF-8 olarak kaydetti ve çalıştı.

Question 12

Bu, OpenOffice Calc ile bir CSV dosyası oluşturduğumda başıma geldi. CSV dosyasını metin düzenleyicimde oluşturduğumda, daha sonra Calc ile düzenlesem bile olmadı.

Metin düzenleyicimde Calc ile oluşturduğum dosyadaki verileri düzenleyici tarafından oluşturulan yeni bir dosyaya kopyalayıp yapıştırarak sorunumu çözdüm.

Question 13

Boş başlıklara NULL bayt ekleyen bir web hizmetinden üretilen bir CSV'yi açarken aynı sorunu yaşadım. Dosyayı temizlemek için aşağıdakileri yaptım:

with codecs.open ('my.csv', 'rb', 'utf-8') as myfile:
    data = myfile.read()
    # clean file first if dirty
    if data.count( '\x00' ):
        print 'Cleaning...'
        with codecs.open('my.csv.tmp', 'w', 'utf-8') as of:
            for line in data:
                of.write(line.replace('\x00', ''))

        shutil.move( 'my.csv.tmp', 'my.csv' )

with codecs.open ('my.csv', 'rb', 'utf-8') as myfile:
    myreader = csv.reader(myfile, delimiter=',')
    # Continue with your business logic here...

Sorumluluk reddi: Bunun orijinal verilerinizin üzerine yazdığını unutmayın. Yedek bir kopyasına sahip olduğunuzdan emin olun. Uyarıldın!

Question 14

Tüm bu 'rU' dosya modundan nefret edenler için: Mac'te bir Windows makinesinden 'rb' dosya moduyla bir CSV dosyası açmayı denedim ve bu hatayı csv modülünden aldım:

Error: new-line character seen in unquoted field - do you need to 
open the file in universal-newline mode?

Dosyayı 'rU' modunda açmak iyi çalışıyor. Evrensel yeni satır modunu seviyorum - beni çok fazla güçlükten kurtarıyor.

Question 15

Bununla karşılaştım, csvreader'a teslim etmeden önce yanıt gövdesini açmak için doğru bir ara katman yazılımı olmadan sıkıştırılmış bir csv dosyasını indirirken ve hurda kullanırken karşılaştım. Dolayısıyla dosya gerçekten bir csv dosyası değildi ve line contains NULL bytehatayı buna göre attı .

Question 16

Gzip.open kullanmayı denediniz mi?

with gzip.open('my.csv', 'rb') as data_file:

Sıkıştırılmış ancak "csv.gz" yerine ".csv" uzantılı bir dosyayı açmaya çalışıyordum. Bu hata gzip.open'i kullanana kadar gösterilmeye devam etti

Question 17

Bir durum şudur - CSV dosyası boş satırlar içeriyorsa, bu hata görünebilir. Yazmaya veya okumaya devam etmeden önce satırı kontrol etmek gereklidir.

for row in csvreader:
        if (row):       
            do something

Bu çeki koda ekleyerek sorunumu çözdüm.