NLTK'nın tüm olası pos etiketleri nelerdir?


141

Doğal Dil Araç Seti (nltk) tarafından kullanılan tüm olası pos etiketlerini içeren bir listeyi nasıl bulabilirim?

Yanıtlar:


151

Kitap , etiket kümeleri hakkında nasıl yardım bulabileceğinize dair bir not içerir, örneğin:

nltk.help.upenn_tagset()

Diğerleri muhtemelen benzerdir. (Not: Belki de öncelikle tagsetsbunun için indirme yardımcısının Modeller bölümünden indirmeniz gerekir )


3
Şimdi merak ediyorum: bu konuda bu kadar gizemli olan nedir? Hiçbir zaman NLTK'yı hiç kullanmadım ve bu cevabı bulmak beş dakika aramayı ve aramamı aldı ... Gerçekten bu gizli mi?
phipsgabler

5
Sanırım ne kadar gizli bir soru değil, bu da benim için sadece tek bir cümleyi etiketlemeye çalışıyordu, çünkü nltk'nin fiillerimi isim olarak etiketlemesinin nedenini araştırıyorum ve nasıl farklı tagets bilmiyorum kullanılabilir. Bu da yardımcı oldu, teşekkürler!
Phonebox

2
@phipsgabler diğerleri benim gibiyse, yanlış beklentilerim vardı. Poz kısaltmalarını RBanlamlarına benzeyen bir arama tablosu / liste / harita bekledim adverb. ( İşte bir örnek ; veya Penn Treebank Etiket Kümesini bağlayan @ Suzana'nın cevabına bakınız ). Ama haklısın, yerleşik nltk.help.upenn_tagset('RB')yardımcı olur ve nltkkitabın başlarında bahsedilmiştir ,
Kızıl Bezelye

137

Biraz zaman kazanmak için, burada küçük bir cesetten aldığım bir liste var. Tam olup olmadığını bilmiyorum, ama upenn_tagset yardım tanımlarının (hepsi değilse de) çoğu olmalıdır ...

CC : birlikte, koordinasyon

& 'n and both but either et for less minus neither nor or plus so
therefore times v. versus vs. whether yet

CD : sayısal, kardinal

mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
fifteen 271,124 dozen quintillion DM2,000 ...

DT : belirleyici

all an another any both del each either every half la many much nary
neither no some such that the them these this those

EX : orada varoluşsal

there

IN : edat veya bağlaç, ast

astride among uppon whether out inside pro despite on by throughout
below within for towards near behind atop around if like until below
next into if beside ...

JJ : sıfat veya sayı, sıralı

third ill-mannered pre-war regrettable oiled calamitous first separable
ectoplasmic battery-powered participatory fourth still-to-be-named
multilingual multi-disciplinary ...

JJR : sıfat, karşılaştırmalı

bleaker braver breezier briefer brighter brisker broader bumper busier
calmer cheaper choosier cleaner clearer closer colder commoner costlier
cozier creamier crunchier cuter ...

JJS : sıfat, üstün

calmest cheapest choicest classiest cleanest clearest closest commonest
corniest costliest crassest creepiest crudest cutest darkest deadliest
dearest deepest densest dinkiest ...

LS : liste öğesi işaretleyicisi

A A. B B. C C. D E F First G H I J K One SP-44001 SP-44002 SP-44005
SP-44007 Second Third Three Two * a b c d first five four one six three
two

MD : modsal yardımcı

can cannot could couldn't dare may might must need ought shall should
shouldn't will would

NN : isim, ortak, tekil veya kitle

common-carrier cabbage knuckle-duster Casino afghan shed thermostat
investment slide humour falloff slick wind hyena override subhumanity
machinist ...

NNP : isim, özel, tekil

Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
Shannon A.K.C. Meltex Liverpool ...

NNS : isim, ortak, çoğul

undergraduates scotches bric-a-brac products bodyguards facets coasts
divestitures storehouses designs clubs fragrances averages
subjectivists apprehensions muses factory-jobs ...

PDT : ön belirleyici

all both half many quite such sure this

POS : genetik işaretleyici

' 's

PRP : zamir, kişisel

hers herself him himself hisself it itself me myself one oneself ours
ourselves ownself self she thee theirs them themselves they thou thy us

PRP $: zamir, iyelik

her his mine my our ours their thy your

RB : zarf

occasionally unabatingly maddeningly adventurously professedly
stirringly prominently technologically magisterially predominately
swiftly fiscally pitilessly ...

RBR : zarf, karşılaştırmalı

further gloomier grander graver greater grimmer harder harsher
healthier heavier higher however larger later leaner lengthier less-
perfectly lesser lonelier longer louder lower more ...

RBS : zarf, en üstün

best biggest bluntest earliest farthest first furthest hardest
heartiest highest largest least less most nearest second tightest worst

RP : parçacık

aboard about across along apart around aside at away back before behind
by crop down ever fast for forth from go high i.e. in into just later
low more off on open out over per pie raising start teeth that through
under unto up up-pp upon whole with you

YAPıLıR : edat veya mastar belirteç olarak "ila"

to

UH : birleşme

Goodbye Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen
huh howdy uh dammit whammo shucks heck anyways whodunnit honey golly
man baby diddle hush sonuvabitch ...

VB : fiil, taban formu

ask assemble assess assign assume atone attention avoid bake balkanize
bank begin behold believe bend benefit bevel beware bless boil bomb
boost brace break bring broil brush build ...

VBD : fiil, geçmiş zaman

dipped pleaded swiped regummed soaked tidied convened halted registered
cushioned exacted snubbed strode aimed adopted belied figgered
speculated wore appreciated contemplated ...

VBG : fiil, mevcut katılımcı veya ulaç

telegraphing stirring focusing angering judging stalling lactating
hankerin' alleging veering capping approaching traveling besieging
encrypting interrupting erasing wincing ...

VBN : fiil, geçmiş katılımcı

multihulled dilapidated aerosolized chaired languished panelized used
experimented flourished imitated reunifed factored condensed sheared
unsettled primed dubbed desired ...

VBP : fiil, şimdiki zaman, 3. tekil kişi değil

predominate wrap resort sue twist spill cure lengthen brush terminate
appear tend stray glisten obtain comprise detest tease attract
emphasize mold postpone sever return wag ...

VBZ : fiil, şimdiki zaman, 3. kişi tekil

bases reconstructs marks mixes displeases seals carps weaves snatches
slumps stretches authorizes smolders pictures emerges stockpiles
seduces fizzes uses bolsters slaps speaks pleads ...

WDT : WH-belirleyici

that what whatever which whichever

WP : WH zamiri

that what whatever whatsoever which who whom whosoever

WRB : Wh-zarf

how however whence whenever where whereby whereever wherein whereof why

2
@PALEN eksik nedir?
binarymax

2
Eksik: $, '', (, ), ,, --, ., :, FW, NNPS, SYM, WP$, [iki backticks]. Bkz nltk.help.upenn_tagset().

6
Teşekkürler! Bu yanıt olarak seçilmeliydi, çünkü bu sadece cevaplamaktan çok daha kapsamlı, esas olarak, bulmak için konsolunuza bir şey yazın.
slartibartfast

63

Etiket kümesi, etiketleyiciyi eğitmek için kullanılan korpoza bağlıdır. Varsayılan etiketleyici Penn Treebank Etiket Kümesininltk.pos_tag() kullanır .

NLTK 2'de, hangi etiketleyicinin varsayılan etiketleyici olduğunu aşağıdaki gibi kontrol edebilirsiniz:

import nltk
nltk.tag._POS_TAGGER
>>> 'taggers/maxent_treebank_pos_tagger/english.pickle'

Bu, Treebank corpus üzerinde eğitilmiş bir Maksimum Entropi etiketleyicisi olduğu anlamına gelir.

nltk.tag._POS_TAGGERNLTK 3'te artık mevcut değil ancak belgeler hazır etiketleyicinin hala Penn Treebank etiket kümesini kullandığını belirtiyor.


6
Teşekkür ederim, imo bu kabul edilenden çok daha yararlı bir cevap.
Dale

3
Bu eksik bir cevap. İlk olarak, nltk.tag._POS_TAGGERyürütülmez ve nelerin içe aktarılacağı hakkında özel talimatlar sağlanmaz. Ayrıca, kullanılan etiketleyiciyi bulmak cevabın yarısıdır, soru etiketleyici içindeki tüm olası etiketlerin bir listesini almak istiyor
Hamman Samuel

3
Etiket kümesini belirleyen etiketleyici değil, şirkettir. Şirket adını bildiğiniz anda, tam etiket kümesi yalnızca bir Google aramasıdır.
Suzana

34

Kısaltmalar ile anahtarlanan bir dikte erişmek için aşağıdakiler yararlı olabilir:

>>> from nltk.data import load
>>> tagdict = load('help/tagsets/upenn_tagset.pickle')
>>> tagdict['NN'][0]
'noun, common, singular or mass'
>>> tagdict.keys()
['PRP$', 'VBG', 'VBD', '``', 'VBN', ',', "''", 'VBP', 'WDT', ...

2
Bu yaklaşımı kabul edilen çözümden daha çok tercih ediyorum, çünkü daha basit ve olası değerleri açıkça numaralandırıyor
Hamman Samuel

1
Bunun, kullanılan etiketleyici tarafından kullanılan etiket kümesi olduğundan nasıl emin olabiliriz? Afaik nltk birkaç tetikleyici kullanabilir.
Nikana Reklawyks

Hamman ile aynı fikirdeyim, bu şekilde programlı anlamları aramanıza izin veren ilave bir bonusu var
datavoredan

28

Referans resmi sitede mevcuttur

Oradan kopyalayıp yapıştırma:

  • CC | Birlikte koordinasyon |
  • CD | Kardinal sayısı |
  • DT | Belirleyici |
  • EX | Varoluşçu orada |
  • FW | Yabancı kelime |
  • IN | Edat ya da alt bağlantı |
  • JJ | Sıfat |
  • JJR | Sıfat, karşılaştırmalı |
  • JJS | Sıfat, üstünlük |
  • LS | Liste kalemi işaretleyicisi |
  • MD | Kip |
  • NN | İsim, tekil veya kitle |
  • NNS | Çoğul isim |
  • NNP | Özel isim, tekil |
  • NNPS | Özel isim, çoğul |
  • PDT | Predeterminer |
  • POS | İyelik sonu |
  • PRP | Kişisel zamir |
  • PRP $ | İyelik zamiri |
  • RB | Zarf |
  • RBR | Zarf, karşılaştırmalı |
  • RBS | Üstün zarf |
  • RP | Parçacık |
  • SYM | Sembolü |
  • Kime | için |
  • UH | Enjeksiyon |
  • VB | Temel form fiil |
  • VBD | Geçmiş zaman fiili |
  • VBG | Fiil, fiil veya mevcut katılımcı |
  • VBN | Geçmiş katılımcı fiil |
  • VBP | Fiil, 3. şahıs olmayan tekil hediye |
  • VBZ | Fiil, 3. şahıs tekil hediyesi |
  • WDT | Wh belirleyici |
  • WP | Wh-zamir |
  • WP $ | İyelik zamiri |
  • WRB | Wh-zarf |


1
['LS', 'TO', 'VBN', "''", 'WP', 'UH', 'VBG', 'JJ', 'VBZ', '--', 'VBP', 'NN', 'DT', 'PRP', ':', 'WP$', 'NNPS', 'PRP$', 'WDT', '(', ')', '.', ',', '``', '$', 'RB', 'RBR', 'RBS', 'VBD', 'IN', 'FW', 'RP', 'JJR', 'JJS', 'PDT', 'MD', 'VB', 'WRB', 'NNP', 'EX', 'NNS', 'SYM', 'CC', 'CD', 'POS']

Doug Shore'un yöntemine dayanarak daha fazla kopyala yapıştır dostu yap


Bunu kolaylık katkısı olarak kabul ediyorum. Biçimlendirmeyi geliştirmeyi düşündüm, ancak bu bu yayının amacına aykırı olabilir. Eğer dikkate alınız düzenlemek ing ve her iki elde etmek yenisatırlar birlikte biçimlendirme kodu kullanarak, güzel biçimlendirme VE copy-paste-dostu. stackoverflow.com/editing-help
Yunnosch

Bunu yapmayı düşündüm, ama bence bu daha az kullanışlı olacak.
Fluffy Ribbit

0

Sadece bu kelimeyi çalıştırın.

import nltk
nltk.download('tagsets')
nltk.help.upenn_tagset()

nltk.tag._POS_TAGGERçalışmaz. AttributeError verecektir : 'nltk.tag' modülünün '_POS_TAGGER' özelliği yoktur . Artık NLTK 3'te mevcut değil.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.