Emoji için duyarlılık verileri


12

Deneme için biz kullanmak istiyorum Emoji birçok zemin gerçek olarak Tweets / basit nicel senitment analiz için veri eğitim gömülü. Tweetler genellikle NLP'nin iyi çalışması için çok yapılandırılmamıştır.

Her neyse, Unicode 6.0'da 722 Emoji var ve muhtemelen Unicode 7.0'a 250 tane daha eklenecek.

Onlar için duyarlılık ek açıklamaları içeren bir veritabanı (örneğin, SentiWordNet gibi) var mı?

(SentiWordNet'in de belirsiz anlamlara izin verdiğini unutmayın . Örneğin komik olanı düşünün , ki bu sadece olumlu değil: "bu komik tatlar" muhtemelen olumlu değil ... aynı ;-)mesela aynıdır . Ama bunun daha zor olduğunu düşünmüyorum. Emoji için normal kelimelerden daha ...)

Ayrıca, bunları duyarlılık analizi için kullanma deneyiminiz varsa, duymak isterim.


Şu anda böyle bir şeyin var olduğuna inanmayın, ancak bunun için bir şey koyarsanız sevinirsiniz!
indico

Erich Schubert, tam olarak aynı şeyi arıyorum! Bunun için yararlı bir kaynak bulma şansınız oldu mu?
saeed mehrabi

Yanıtlar:


4

Toplam 972 emoji, onları manuel olarak etiketleyememek kadar büyük değil, ancak iyi bir zemin gerçeği olarak çalışacaklarından şüpheliyim. Twitter gibi kaynaklar ironi, alaycılık ve duygusal sembollerin (emoji veya ifade gibi) normal yorumdan farklı bir şey ifade ettiği diğer zor ayarlarla doludur. Örneğin, birisi "xxx müşterilerini aldattı ve şimdi kendilerini aldattılar! Ha ha ha!: D" yazabilir. Bu kesinlikle olumsuz bir yorum, ancak yazar xxx şirketi belada gördüğüne sevindim ve bu nedenle olumlu ifade ekledi. Bu vakalar o kadar sık ​​değil, ama kesinlikle gerçek için uygun değildir.

Çok daha yaygın yaklaşım, ifadeyi gerçek veri kümesini toplamak için bir tohum olarak kullanmaktır . Örneğin, bu makalede yazarlar, daha fazla sınıflandırma için yararlı sözcüklerin sözlüğünü almak için ifade ve duygusal karma etiketleri kullanırlar.


1
Aslında katılmıyorum. Yazar başlarının belada olmasını sevdiği için, bu orada olumlu bir duygu. Bu şirket hakkında olumsuz bir yorum, ancak yine de yazar tarafından olumlu bir duygu. Bu daha basit senaryoda (bunun tam hedef olduğunu söylemiyorum), kullanıcının gönderisine hangi emojileri ekleyeceğini tahmin etmek bana makul bir görev gibi geliyor. Aslında, emojinin önemli olacağı birçok durum oluşturabilirsiniz .. "Got f_cked :-)" deyin, "Got f_cked. :-("
Erich Schubert

Kişinin bir özneye karşı tutumunun aksine duygularını tahmin etmeye çalışırsanız, evet, bu örnek işe yaramaz. Ama daha birçokları var. Alaycılık yaygın bir durumdur. "Ah evet, sen gerçek bir 'efendisin';)" cümlesini düşün. İnsan olumsuz bağlamı yakalayabilir, ancak olumlu ifade olumlu duyguyu gösterecektir. Ama gerçekten anlamadım: tweet'lerden öznel bilgi almak mı yoksa sadece olası emojileri tahmin etmek mi istiyorsunuz? Benzer görünseler de, ikinci görev aslında duygu analizi ile ilgili değildir. En azından doğrudan değil.
Ağustos'ta arkadaş

"Göz kırpma" ifadesi genellikle "pozitif" değil, "ironik" olarak kabul edilir ... bu yüzden SentiWordNet gibi iyi bir sözlük mantıklıdır. SentiWordNet'te komik görünüyorsanız, birden fazla anlamı da var! sentiwordnet.isti.cnr.it/search.php?q=funny (Bu nedenle , manuel olarak açıklama eklemek önemsiz değildir, çünkü pozitif / negatif kadar basit değildir; ancak her zamanki ara sözleşme anlaşması doğrulamasını vb. yapmanız gerekir)
Erich Schubert

Şimdi fikrinizi görüyorum. Ama gerçekten işe yarayacağını sanmıyorum, çünkü (çoğu) emojiler benim için gerçekten iyi bir tahminci gibi görünmüyor ve açıkça başka özellikleri kullanmak istemiyorsunuz. Her neyse, bu sadece deneyimlerime dayanan bir görüş, sadece veriler gerçek cevaplar verebilir. İyi şanslar!
Ağustos'ta arkadaş

Başka özellikleri kullanmak istemediğimi kim söyledi? Ama bunlar için veritabanlarını gördüm ...
Erich Schubert

0

Bu Github deposunu yararlı buldum (iyi bir başlangıç): https://github.com/wooorm/emoji-emotion Eksi beş (negatif) ve artı beş (pozitif) arasında bir tamsayı olan değerlik için derecelendirilmiş emoji listesi.

Desteklenen unicode-emoji listesine bakın: https://github.com/wooorm/emoji-emotion/blob/master/Support.md

Bazı emojilerin, hem olumlu hem de olumsuz duygular için kullanıldığından, stuck_out_tongue_closed_eyes (0) gibi tartışmalı kafa karıştırıcı kutuplar aldığını unutmayın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.