NER için denetimsiz özellik öğrenme


11

Oldukça iyi sonuçlar veren el işi özelliklerimle CRF algoritması kullanarak NER sistemini uyguladım. Mesele şu ki POS etiketleri ve lemmalar da dahil olmak üzere birçok farklı özellik kullandım.

Şimdi aynı NER'i farklı dil için yapmak istiyorum. Burada sorun POS etiketleri ve lemmaları kullanamıyorum. Derin öğrenme ve denetimsiz özellik öğrenme hakkında makaleler okumaya başladım.

Sorum şu:

CRF algoritması ile denetimsiz özellik öğrenme için yöntemler kullanılabilir mi? Bunu deneyen ve iyi bir sonuç alan var mı? Bu konuda herhangi bir makale veya eğitim var mı?

Bu özellik oluşturma yöntemini hala tam olarak anlayamıyorum, bu yüzden işe yaramayacak bir şey için fazla zaman harcamak istemiyorum. Yani herhangi bir bilgi gerçekten yardımcı olacaktır. Derin öğrenmeye dayalı bütün NER sistemi oluşturmak şimdilik çok fazla.

Yanıtlar:


5

Evet, denetimsiz öğrenmeyi CRF modeliyle birleştirmek tamamen mümkündür. Özellikle, word2vec özelliklerini CRF'nize girdi olarak kullanma olasılığını araştırmanızı tavsiye ederim .

Word2vec, belirli bir bağlam için uygun olan sözcükleri ve rastgele seçilen sözcükleri ayırt etmek için a'yı eğitir. Modelin seçme ağırlıkları daha sonra belirli bir kelimenin yoğun vektör temsili olarak yorumlanabilir.

Bu yoğun vektörler, anlamsal veya sözdizimsel olarak benzer olan kelimelerin benzer vektör temsillerine sahip olduğu çekici özelliğe sahiptir. Temel vektör aritmetiği, kelimeler arasındaki bazı ilginç öğrenilmiş ilişkileri bile ortaya koymaktadır.
Örneğin, vektör ("Paris") - vektör ("Fransa") + vektör ("İtalya"), vektöre oldukça benzeyen bir vektör verir ("Roma").

Yüksek bir seviyede, seyrek bir giriş vektörünü, kelime benzerlik bilgisi içeren yoğun bir çıkış vektörüne dönüştürebileceğiniz için, word2vec temsillerini LDA veya LSA temsillerine benzer olarak düşünebilirsiniz.

Bu bağlamda, LDA ve LSA aynı zamanda denetimsiz özellik öğrenimi için de geçerli seçeneklerdir - her ikisi de kelimeleri "konular" ın bir kombinasyonu olarak göstermeye çalışır ve yoğun kelime gösterimleri çıkarır.

İngilizce metin için Google, 100 milyar kelimelik büyük bir Google Haberler veri kümesinde önceden hazırlanmış word2vec modellerini dağıtır, ancak diğer diller için kendi modelinizi eğitmeniz gerekir.


Hey, yumruk Cevabın için sana teşekkür etmek istiyorum. Bir sorum daha var. Word2vec algoritmasından döndürülen sözcük vektörünün kayan nokta değerleri vardır, bu nedenle büyük ve daha büyük gibi sözcüklerin vektör alanında yakın olan vektörleri olacaktır, ancak vektörlerin değerleri tamamen farklı olabilir. Örneğin, büyük = [0.1, 0.2, 0.3] ve daha büyük = [0.11, 0.21, 0.31]. CRF algoritması için bir sorun değil mi, çünkü bu algoritma onları benzer değil mi? Bu kelime vektörlerini CRF'de kullanmadan önce yapılması gereken herhangi bir ek işlem var mı? Umarım sorum yeterince açıktır.
MaticDiba

4

Ben sadece 5 ay geç kaldım ama CRFSuite ile aslında bu kayan nokta özelliklerini sayı olarak değil, dize olarak kullanabilirsiniz. Bunun için, her boyut için benzersiz bir etiket icat etmeniz ve ardından bir ":" ve ardından değeri eklemeniz yeterlidir.

Örneğin, "orman" kelimesi 5 boyutta temsil edilir: 0.1 0.4 0.8 0.2 0.9

Sonra CRFSuite bu kelime + özelliğini şu şekilde alır:

ETİKET f1: 0,1 f2: 0,4 f3: 0,8 f4: 0,2 f5: 0,9

elbette `` LABEL '' yerine gerçek bir dize koyar ve tüm boşlukları sekmelerle ayırırsınız (CRFSuite biçimi budur).

Diğer paketler için olsa emin değilim.


4

Bu 2014 makalesinde ( GitHub ) yazarlar, yoğun yerleştirme, ikili yerleştirilmiş yerleştirme, küme yerleştirme ve yeni bir prototip yöntemi de dahil olmak üzere, CRF tabanlı bir NER sistemine kelime düğünlerini dahil etmek için birçok stratejiyi karşılaştırdı . Yoğun vektörlerin doğrudan vlad tarafından önerildiği gibi kullanılması, en basit yoldur ancak aynı zamanda çoklu değerlendirmelerde en az etkilidir.

Prototip fikrini alana özgü NER projeme uyguladım ve bu benim için oldukça iyi çalışıyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.