Ruby (1.9) ile birçok rastgele siteden çok fazla HTML tüketen bir tarayıcı yazıyorum.
Bağlantıları çıkarmaya çalışırken, sadece .scan(/href="(.*?)"/i)
nokogiri / hpricot (büyük hızlanma) yerine kullanmaya karar verdim . Sorun şu ki, artık birçok " invalid byte sequence in UTF-8
" hata alıyorum .
Anladığım kadarıyla, net/http
kütüphanenin kodlamaya özgü herhangi bir seçeneği yok ve gelen şeyler temelde doğru şekilde etiketlenmemiş.
Bu gelen verilerle gerçekten çalışmanın en iyi yolu nedir? .encode
Değiştir ve geçersiz seçenekler setiyle denedim , ancak şu ana kadar başarılı olamadım ...
'U*'
Unutmayacağına emin 'C*'
misin?