Bu bir programlama sorusuysa, alınan tüm içeriği ayrıştırmak için kendi normal ifadenizi yazmanızı öneririm. Hedef etiketler, standart HTML için IMG ve A'dır. JAVA için,
final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";
bu, Pattern ve Matcher sınıfları ile birlikte etiketlerin başlangıcını algılamalıdır. CSS de istiyorsanız LINK etiketi ekleyin.
Ancak, ilk başta düşündüğünüz kadar kolay değildir. Birçok web sayfası iyi biçimlendirilmemiş. Tüm düzensiz ifadeleri hesaba katmanız gerekiyorsa, insanoğlunun "tanıyabileceği" tüm bağlantıları programatik olarak çıkarmak gerçekten zordur.
İyi şanslar!