Bu konuda biraz yardım için minnettar olurum. XML komut dosyası ile işaretlenmiş büyük bir metin cesedi ile çalışıyorum ve bazı şeyleri düzeltmem gerekiyor. Daha spesifik olarak, silmem gereken (parantezler dahil) köşeli parantez içerisinde birkaç tane sayı var (yani, [[1234] gibi). Her numara farklıdır ve bu numaralarda 3 ile 5 rakam arasında bir şey olabilir.
Yapmam gereken ikinci şey, XML etiketlerini diğer bazı metin parçalarının etrafına yerleştirmek. Bunlar yuvarlak parantez içindeki isimlerdir. Yani, gibi:
O (Bay Smith) dedi ki ...
Hangisini değiştirmek istiyorum:
Dedi <annot> (Mr. Smith) </annot>ki ... '.
Bu değişikliklerin ikisini de nasıl yapabilirim?
Genişletilmiş Modu kullanmayı ve '[. *]' Aramayı çoktan denedim, ancak sonuç alınmadı. RegEx ile aynı şeyi denediğimde çok fazla hit alıyorum, ancak corpus'taki her köşeli parantez için arama yapıyor gibi görünüyor.