Ruby (1.9) ile birçok rastgele siteden çok fazla HTML tüketen bir tarayıcı yazıyorum.
Bağlantıları çıkarmaya çalışırken, sadece .scan(/href="(.*?)"/i)nokogiri / hpricot (büyük hızlanma) yerine kullanmaya karar verdim . Sorun şu ki, artık birçok " invalid byte sequence in UTF-8" hata alıyorum .
Anladığım kadarıyla, net/httpkütüphanenin kodlamaya özgü herhangi bir seçeneği yok ve gelen şeyler temelde doğru şekilde etiketlenmemiş.
Bu gelen verilerle gerçekten çalışmanın en iyi yolu nedir? .encodeDeğiştir ve geçersiz seçenekler setiyle denedim , ancak şu ana kadar başarılı olamadım ...
'U*'Unutmayacağına emin 'C*'misin?