Bir kelimenin önüne "a" ve "an" ile nasıl doğru bir şekilde önek olabilirim?

Question 1

Bir isim verildiğinde, o kelimenin "a" veya "an" ile doğru şekilde önekini almasını istediğim bir .NET uygulamam var. Bunu nasıl yaparım?

Cevabın basitçe ilk harfin sesli olup olmadığını kontrol etmek olduğunu düşünmeden önce, aşağıdaki gibi cümleleri düşünün:

dürüst bir hata
kullanılmış bir araba

Question 2

Wikipedia'yı indirin
Dosyayı açın ve yalnızca makale metnini çıkaran hızlı bir filtre programı yazın (indirme, makale dışı meta verilerle birlikte genellikle XML biçimindedir).
A (n) .... 'nin tüm örneklerini bulun ve aşağıdaki sözcük ve tüm önekleri için bir dizin oluşturun (bunun için basit bir sonek kullanabilirsiniz). Bu, büyük / küçük harfe duyarlı olmalıdır ve maksimum kelime uzunluğuna ihtiyacınız olacak - 15 harf?
(isteğe bağlı) 5 defadan daha az ortaya çıkan veya "a" ile "an" ın 2/3'ten daha az çoğunluğa ulaştığı (veya diğer bazı eşikleri - burada ince ayar yapın) tüm önekleri atın. Köşe durumlardan kaçınmak için tercihen boş ön eki saklayın.
Önek veritabanınızı, ebeveyni aynı "a" veya "bir" ek açıklamayı paylaşan tüm önekleri atarak optimize edebilirsiniz.
"A" veya "AN" kullanılıp kullanılmayacağına karar verirken, en uzun eşleşen öneki bulun ve öncülüğünü takip edin. 4. adımda boş öneki atmadıysanız, her zaman eşleşen bir önek (yani boş önek) olacaktır, aksi takdirde tamamen eşleşmeyen bir dize için özel bir duruma ihtiyacınız olabilir (bu tür giriş çok nadir olmalıdır) .

Muhtemelen bundan daha iyisini elde edemezsiniz - ve kesinlikle çoğu kurala dayalı sistemi yenecektir.

Düzenleme: Bunu JS / C # 'da uyguladım . Sen olabilir tarayıcınızda denemek , ya da kullandığı küçük, yeniden kullanılabilir javascript uygulaması indirin. .NET uygulaması AvsAnnuget üzerindeki pakettir . Uygulamalar önemsizdir, bu nedenle gerekirse başka bir dile aktarılması kolay olmalıdır.

"Kuralların" düşündüğümden biraz daha karmaşık olduğu ortaya çıktı:

öyle bir beklenmeyen sonuç ama öyle bir ittifak oyu
öyle bir dürüst karar ama bir hanımeli çalı
Semboller: Bu bir 0800 numarası veya bir ∞ kekik.
Kısaltmalar: Bir NASA bilimcisi, ancak bir NSA analisti; bir FIAT arabası ancak bir FAA politikası.

... bu da kural tabanlı bir sistem kurmanın zor olacağının altını çiziyor!

Question 3

Bir istisna listesi kullanmanız gerekir. Tüm istisnaların iyi tanımlandığını sanmıyorum çünkü bazen kelimeyi söyleyen kişinin aksanına bağlıdır.

Aptalca bir yol, Google'a iki olasılığı sormak (arama API'lerinden birini kullanarak) ve en popüler olanı kullanmaktır:

http://www.google.co.uk/search?q=%22a+europe%22 - 841.000 isabet
http://www.google.co.uk/search?q=%22an+europe%22 - 25.000 isabet

Veya:

http://www.google.co.uk/search?q=%22a+honest%22 - 797.000 isabet
http://www.google.co.uk/search?q=%22an+honest%22 - 8.220.000 isabet

Bu nedenle "Avrupa" ve "dürüst" doğru versiyonlardır.

Question 4

Sözcük telaffuzları için bir kelime yazım kaynağı bulabilirseniz, örneğin:

"honest":"on-ist"
"horrible":"hawr-uh-buhl, hor-"

Kararınızı, yazılan telaffuz dizisinin ilk karakterine dayandırabilirsiniz. Performans için, belki de istisna kümelerini önceden oluşturmak için böyle bir arama kullanabilir ve bunun yerine yürütme sırasında bu küçük arama kümelerini kullanabilirsiniz.

Eklemek için düzenlendi:

!!! - İstisnalarınızı oluşturmak için bunu kullanabileceğinizi düşünüyorum: http://www.speech.cs.cmu.edu/cgi-bin/cmudict

Elbette her şey sözlükte olmayacak - yani her olası istisna, istisna kümelerinizde ortaya çıkmayacaktır - ancak bu durumda, varsayılan olarak ünlüler için / ünsüzler için varsayılan olarak veya daha iyi olasılıklarla başka bir sezgisel kullanabilirsiniz.

(CMU sözlüğüne baktığımda, ülkeler ve diğer bazı yerler için özel isimler içerdiğini görmekten memnun oldum - bu yüzden "Ukraynalı", "USA Today gazetesi", "Urallardan esinlenilmiş bir resim" gibi örnekler verecek.)

Eklemek için bir kez daha düzenleme: CMU sözlüğü genel kısaltmalar içermez ve s, f, l, m, n, u ve x ile başlayanlar için endişelenmeniz gerekir. Ancak Wikipedia'da olduğu gibi istisnalara eklemek için kullanabileceğiniz pek çok kısaltma listesi var.

Question 5

Manuel olarak uygulamanız ve istediğiniz istisnaları eklemeniz gerekir, örneğin ilk harf 'H' ve ardından 'O' gibi dürüst, saat ... ve ayrıca avrupa, üniversite, kullanılan ...

Question 6

"A" ve "an" fonetik kurallar tarafından belirlendiğinden ve yazım kurallarına göre belirlenmediğinden, muhtemelen şöyle yapardım:

Sözcüğün ilk harfi ünsüz ise -> 'a'
Sözcüğün ilk harfi sesli ise-> 'an'
Rjumnro'nun dediği gibi istisnaların bir listesini (kalp, röntgen, ev) tutun .

Question 7

Belirsiz makaleler için gramer kurallarına bakmanız gerekir (İngilizce dilbilgisinde yalnızca iki belirsiz makale vardır - "a" ve "an). Bu seslerin doğru olduğunu kabul etmeyebilirsiniz, ancak İngilizce gramer kuralları çok açıktır :

"A ve an sözcükleri belirsiz makalelerdir. Bir sesli harfle (a, e, i, o, u) başlayan sözcüklerden önce belirsiz makale ve ünsüz bir sesle başlayan sözcüklerden önce (tümü diğer harfler). "

Bu demektir ki bir sesli harf Not sesi değil, bir sesli harf harf . Örneğin, "namus" veya "varis" gibi sessiz bir "h" ile başlayan sözcükler ünlü olarak kabul edilir ve bu nedenle "bir" ile devam ettirilir - örneğin, "Sizinle tanışmak bir onurdur". Bir ünsüz sesle başlayan kelimelerin önüne bir ön ek gelir - bu yüzden "kullanılmış araba" yerine "kullanılmış araba" diyorsunuz - çünkü "kullanılmış" kelimesi "uhh" sesinden çok "yoose" sesine sahiptir.

Yani, bir programcı olarak uyulması gereken kurallar bunlardır. Bir kelimenin hangi harfle değil, hangi sesle başladığını belirlemenin bir yolunu bulmanız yeterlidir. Bunun örneklerini PHP'de Jaimie Sirovich'in yazdığı gibi gördüm :

function aOrAn($next_word) 
{ 
    $_an = array('hour', 'honest', 'heir', 'heirloom'); 
    $_a = array('use', 'useless', 'user'); 
    $_vowels = array('a','e','i','o','u'); 

    $_endings = array('ly', 'ness', 'less', 'lessly', 'ing', 'ally', 'ially'); 
    $_endings_regex = implode('|', $_endings); 

    $tmp = preg_match('#(.*?)(-| |$)#', $next_word, $captures); 
    $the_word = trim($captures[1]); 
    //$the_word = Format::trimString(Utils::pregGet('#(.*?)(-| |$)#', $next_word, 1)); 

    $_an_regex = implode('|', $_an); 
    if (preg_match("#($_an_regex)($_endings_regex)#i", $the_word)) { 
        return 'an'; 
    } 

    $_a_regex = implode('|', $_a); 
    if (preg_match("#($_a_regex)($_endings_regex)#i", $the_word)) { 
        return 'a'; 
    } 

    if (in_array(strtolower($the_word{0}), $_vowels)) { 
        return 'an';     
    } 

    return 'a'; 
}

Muhtemelen en kolayı kuralı oluşturmak ve ardından bir istisnalar listesi oluşturmak ve bunu kullanmak. O kadar çok olacağını sanmıyorum.

Question 8

Dostum, bunun muhtemelen yerleşik bir argüman olduğunun farkındayım, ancak Wikipedia'dan en iyi ihtimalle yerel dilbilgisini türetecek olan ad hoc gramer kurallarını kullanmaktan daha kolay çözülebileceğini düşünüyorum.

Görünüşe göre en iyi çözüm, a veya bir tetikleyicinin kullanılması, aşağıdaki kelimenin fonem temelli eşleşmesi, belirli fonemlerin her zaman "an" ile ilişkili ve geri kalanı "a" ya ait olmasıdır.

Carnegie Mellon Üniversitesi, bu tür kontroller için harika bir çevrimiçi araca sahiptir - http://www.speech.cs.cmu.edu/cgi-bin/cmudict - ve eşleşen 39 fonem ile 125.000 kelimede. Bir kelimeyi eklemek, sadece ilkinin önemli olduğu tüm fonemik seti sağlar.

Sözcük sözlükte "NSA" gibi görünmüyorsa ve tümü büyük harfle yazılmışsa, sistem sözcüğün bir Kısaltma olduğunu varsayabilir ve aynı orijinal kural kümesine göre hangi belirsiz makalenin kullanılacağını belirlemek için ilk harfi kullanabilir.

Question 9

@Nathan Long: Wikipedia indirmek aslında kötü bir fikir değil. Tüm resimler, videolar ve diğer medyaya ihtiyaç yoktur.

Tüm İsveç wikipedia'sını (ya da en azından matematikle ilgili makaleden ulaşılabilen tüm makaleleri, örümceğimin başlangıcı olan) okumak için php ve javascript'te (!) Bir (berbat) program yazdım.

Tüm kelimeleri ve iç bağlantıları bir veritabanında topladım ve ayrıca her kelimenin sıklığını takip ettim. Şimdi bunu çeşitli görevler için bir kelime veritabanı olarak kullanıyorum: * Belirli bir harf kümesinden oluşturulabilen tüm kelimeleri bulmak (joker karakter dahil) * İsveççe için basit bir sözdizimi dosyası oluşturuldu (veritabanında bulunmayan tüm kelimeler yanlış kabul edilir).

Oh, ve tüm wikinin indirilmesi yaklaşık bir hafta sürdü, dizüstü bilgisayarım çoğu zaman 10 Mbit bağlantı ile çalışıyordu.

Oradayken, İngilizce ile tutarsız olan tüm olayları günlüğe kaydedin ve bazılarının hata olup olmadığını görün. Onları düzelt ve topluluğa bir şeyler ver.

Question 10

Grammar Girl, A Versus An bölümünde belirttiği gibi, Amerikan ve İngiliz lehçeleri arasında farklılıklar olduğunu unutmayın .

Bir karışıklık, İngiliz ve Amerikan İngilizcesinde kelimelerin farklı telaffuz edilmesidir. Örneğin, belirli bir bitki türü için kullanılan sözcük Amerikan İngilizcesinde "erb" ve İngiliz İngilizcesinde "ot" olarak telaffuz edilir. Bunun bir sorun olduğu ender durumlarda, ülkenizde veya okuyucularınızın çoğunluğu tarafından beklenecek formu kullanın.

Question 11

Perl's Lingua :: EN :: Inflect'e bir göz atın . sub _indef_articleKaynak koduna bakın .

Question 12

Ben bir işlev taşıdınız Python doğru C # sesli harf sesleri belirler ve soruya bir cevap olarak yayınlanmıştır (başlangıçta CPAN paketi Lingua-EN-inflect itibaren) Programlı bir ya da bir nesneyi tanımlamak için olmadığını belirlemek? . Kod parçacığını burada görebilirsiniz .

Question 13

Normal alfabemizde yazılan sözcükleri ve Uluslararası Fenetik Alfabesini saklayan bir İngilizce sözlük alabilir misin ?

Daha sonra kelimenin başlangıç sesini anlamak için fenetikleri kullanın ve dolayısıyla "a" veya "an" ın uygun olup olmadığını?

Bunun istatistiksel Wikipedia yaklaşımından daha kolay mı (veya daha eğlenceli) olacağından emin değilim.

Question 14

Elimden geldiğince fazlasını kapsayacak şekilde kural tabanlı bir algoritma kullanırdım, ardından bir istisna listesi kullanırdım. Süslü olmak istiyorsanız, istisna listenizden bazı yeni "kurallar" belirlemeyi deneyebilirsiniz.

Question 15

Ben sadece bir sezgisel taramaya benziyorum. Biraz daha karmaşık olması ve hiç iyi bir cevabını alamadığım bazı şeylere cevap vermesi gerekiyor, örneğin kısaltmaları nasıl ele alıyorsunuz ("bir RPM" veya "bir RPM"? Her zaman ikincisinin daha mantıklı olduğunu düşündüm).

Hızlı bir arama, İngilizce tekil önekin nasıl kullanılacağından bahseden dilbilimsel kitaplıklarda sonuç verdi, ancak yeterince derin kazarsan muhtemelen bir şeyler bulabilirsin. Ve değilse - her zaman kendi çekim kitaplığınızı yazabilir ve dünya şöhreti kazanabilirsiniz :-).

Question 16

"A / an" gibi bazı kazan tabağı malzemelerini tek adımda kapsayacak şekilde doldurabileceğinizi sanmıyorum. Aksi takdirde, 'h' olan tüm kelimeler gibi varsayım hatalarıyla sonuçlanırsınız, 'a' gibi 'ev' yerine 'o' ile devam edin 'an' - (ev?) Temel olarak, İngiliz dilinin mantığını dahil edeceksiniz veya ara sıra sizi aptal gösterecek nadir durumlar bulacaksınız.

Question 17

Bir kelimenin sesli mi yoksa ünsüz mü başladığını kontrol edin. Bir "u" genellikle bir ünsüz ve bir sesli harftir ("yu"), dolayısıyla amaçlarınız doğrultusunda ünsüz grubuna aittir.

"H" harfi, Fransızca'da ve İngilizce'de kullanılan Fransızca sözcüklerde bir durma (ünsüz) anlamına gelir. Bunların bir listesini yapabilir (aslında "şeref", "şeref" ve "saat" de dahil olmak üzere yeterli olabilir) ve bunları ünlülerle başlayan olarak sayabilirsiniz (çünkü İngilizce glottal duruşu tanımaz).

Ayrıca "eu" harfini ünsüz olarak sayın vs.

Çok zor değil.

Question 18

a veya a seçimi, kelimenin telaffuz edilme şekline bağlıdır. Kelimeye bakarak doğru telaffuzunu (örneğin bir Jargon veya kısaltma vb.) Söyleyemezsiniz. Yollardan biri, fonemleri destekleyen bir sözlüğe sahip olmak ve bir "a" olup olmadığını belirlemek için kelimeyle ilişkili fonem bilgilerini kullanmak olabilir. "veya" bir "kullanılmalıdır.

Question 19

İçinde "a" ve "bir" yi ayırt etmek için uygun bilgilere sahip olduğundan emin olamıyorum, ancak Princeton'ın WordNet veritabanı tam olarak benzer türdeki görevler için var, bu yüzden verilerin büyük olasılıkla orada olduğunu düşünüyorum . On binlerce kelime ve söz konusu kelimeler arasında yüz binlerce ilişki vardır (IIRC; sitede güncel istatistikleri bulamıyorum). Bir göz atın. Ücretsiz olarak indirilebilir.

Question 20

Nasıl? Peki ne zaman? Ekli makale ile ismi alın. Belirli bir biçimde isteyin.

Makaleyle birlikte ismi isteyin. Çoğu MUD kod tabanı, öğeleri aşağıdakilerden oluşan bilgiler olarak depolar:

bir veya daha fazla anahtar kelime
kısa bir form
uzun bir form

Anahtar kelime formu "paslı kısa kılıç" olabilir. Kısa biçim "kılıç" olacaktır. Uzun biçim "paslı bir kısa kılıç" olacaktır.

Bir "a ve bir" Web hizmeti mi yazıyorsunuz? Bir adım geri atın ve bu sızıntıya daha ileri akışta saldırıp saldıramayacağınıza bakın. Bir baraj inşa edebilirsiniz, ancak akmasını durdurmazsanız, eninde sonunda taşacaktır.

Bunun ne kadar kritik olduğunu belirleyin ve diğerlerinin önerdiği gibi, "hızlı ama kaba" veya "pahalı ama sağlam" seçeneklerine gidin.

Question 21

Kural çok basit. Bir sonraki kelime sesli bir sesle başlıyorsa, 'an' kullanın, bir ünsüzle başlıyorsa 'a' kullanın. Zor olan, okuldaki ünlüler ve ünsüzler sınıflandırmamızın işe yaramamasıdır. "Onur" daki "h" bir ünlüdür, ancak "hastane" deki "h" bir ünsüzdür.

Daha da kötüsü, 'dürüst' gibi bazı kelimeler, kimin söylediğine bağlı olarak bir sesli veya sessiz harfle başlar. Daha da kötüsü, bazı konuşmacılar için bazı kelimeler çevrelerindeki kelimelere göre değişir.

Sorun, yalnızca ona ne kadar zaman ve çaba harcamak istediğinizle sınırlıdır. Birkaç dakika içinde 'aeiou' harfini sesli harf olarak kullanarak bir çift halinde bir şeyler yazabilir veya hedef kitlenizin dilbilimsel analizini yapmak için aylar harcayabilirsiniz. Bunların arasında, bazı konuşmacılar için doğru ve diğerleri için yanlış olacak çok sayıda buluşsal yöntem vardır - ancak farklı konuşmacıların aynı kelime için farklı belirlemeleri olduğundan, nasıl yaparsanız yapın, her zaman haklı olmak mümkün değildir. o.

Question 22

İdeal yaklaşım, size cevapları verebilecek, bunları dinamik olarak sorgulayabilecek ve cevapları önbelleğe alabilecek çevrimiçi bir yer bulmak olacaktır. Yeni başlayanlar için sistemi birkaç yüz kelime ile hazırlayabilirsiniz.

(Böyle bir çevrimiçi kaynak bilmiyorum, ama varsa şaşırmam.)

Question 23

Yani, internetin tamamını indirmeden makul bir çözüm mümkündür. İşte yaptığım şey:

Google'ın, Google Books N-Gram frekansları için ham verilerini burada yayınladığını hatırladım . Bu yüzden "a_" ve "an" için 2 gramlık dosyaları indirdim. Doğru hatırlıyorsam yaklaşık 26 konser. Bundan büyük bir çoğunlukla beklediğiniz karşıt makaleden önce gelen dizelerin bir listesini çıkardım (eğer sesli harflerin bir "an" almasını beklersek). 7 kilobayttan daha az depolayabildiğim son kelime listesi.

Question 24

Sonraki kelime sesli harf olmadığında "a" mı kullanıyorsun? Ve sesli harf olduğu zaman "an" mı kullanıyorsun?

Bununla birlikte, "a \ s [a, e, i, o, u]. *" Gibi bir normal ifade yapamaz mısın? Ve sonra onu "an" ile değiştir