Web sitelerinden metin nasıl çıkarılır?


1

Birden çok web sitesinden bir kelime belgesine metin ayıklamak otomatikleştirmek için bir yol arıyorum. Doc kelimesine yapıştırıldığında "birleştirme biçimlendirme" kullanarak yapıştırmaya ihtiyacım var. Bu, ayıklanan metnin doc kelimesine yapıştırıldıktan sonra bitmesini istiyorum - Örnek

Metin çıkarıcısına yalnızca "Önceki Bölüm" dediği, ancak "önceki bölüm" demediği bölümün sonuna kadar, "Kitap 1, Bölüm 1 - Bir İlçede Erken Sabah" bölüm başlığından başlayarak metni çıkarması gerekiyor. Daha sonra Kitap 21 Bölüm 44'ün sonuna ulaşana kadar bir sonraki bölüme geçmem gerekiyor.

Sarmal Ejderha: Kitap 1 - Bölüm 1 kadar gidiyor Sarmal Ejderha: Kitap 21 - Bölüm 44


web siteleri ARE metin (biçimlendirme), böylece bir ayrıştırıcı arayacaksınız. yalnızca basit bir HTML sitesi için, öğe gövdelerini çıkarmak için genel bir XML ayrıştırıcı kullanılabilir, ancak metin biriktirme, filtreleme, kopyalama ve yapıştırma işlemlerini yürütmek için komut dosyası kodu yazmanız gerekir. Dinamik içerik sunucusu veya istemci komut dosyalarında üreten daha karmaşık siteler için, onu biraz daha zor bulabilirsiniz. İyi şanslar.
Frank Thomas

Şu ana kadar hangi kodun var?
Burgi

Şu anda henüz bunun için yazılmış bir kod yok, dürüst olmak gerekirse, komut dosyaları için nasıl kod yazacağımı bile bilmiyorum. XML ayrıştırıcısı için önerisi olan var mı?
Woz

@ Wozzie dürüstçe vba kullanarak oldukça kolay bir şekilde kelime içinde yapabilirsiniz.
BigElittles
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.