Atıf metninin akademik referanslarda otomatik ayrıştırılması

18

Bir metin parçasını otomatik olarak tarayabilecek (araca yapıştırılmış veya .doc / .pdf dosyasından okuyabilir) ve standart formatları kullanarak alıntı verilerini tanımlayabilen herhangi bir yazılım (veya sözde kod) var mı? Veriler daha sonra kurucu alanlarına ayrılarak XML, CSV veya başka bir yapılandırılmış veri formatında gönderilebilir. Cb2Bib'e baktım ancak yılı Harvard tarzı referanslardan çıkarmak mümkündü, ancak bu yetersizdi.

parsing citations

— Alistair vuruş
kaynak

Metnin kendisini mi yoksa sadece referanslar bölümünü mi taramak istiyorsunuz?

— saat

Sadece referanslar - muhtemelen kişisel yayınları içeren bir belge olabilir.

— Alistair

İhtiyacınız olan şey olabilir emin değilim ama bu refhive.com

— Mostafa Elmoghazi

4

Giriş metninden XML oluşturabilen bu Citation Parsers listesine bir göz atın:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (1 Ağustos 2012 tarihinden itibaren bakım modunda)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Freecite ile curlalıntıları aşağıdaki gibi göndermek için bir komut kullanabilirsiniz (PHP'de):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

— KEG
kaynak

Başka bir seçenek de github.com/inspirehep/refextract . ML'ye dayalı değil, testlerime çok iyi çalıştı.

— Josir

3

Şu anda (2017) bunu yapan en aktif Açık Kaynak projesi Anystyle Parser (son sürüm 07-2016) olarak görünüyor. Bir web arayüzü, API ile kullanılabilir veya RubyGem olarak indirilebilir.

Web sitesinde, uygulamanın ParsCit'ten (son sürüm 2013?) Ve FreeCite'den (son taahhüt 2009) ilham aldığını açıkça belirtmişlerdir.

Ayrıca kendi web sitesini de oluşturun:

AnyStyle Parser, yerleşik editörümüzü kullanarak herkes tarafından eğitilebilecek Koşullu Rastgele Alanlara dayanan güçlü makine öğrenme sezgilerini kullanır.

Bu gerçekten ilginç bir özelliktir, bu da onu en ilginç uygulama haline getirir (imho). API belgelerinde açıklandığı gibi, eğitim oldukça basit görünüyor . Yalnızca el ile düzeltilmiş bazı sonuçlar verirsiniz ve Anystyle.parser.trainkomutu çalıştırın . ParsCit ve FreeCite'in de bunu destekleyip desteklemediğinden emin değilim, ancak desteklemiyorlarsa, bu benim için çok büyük bir fark gibi görünüyor.

— Wouter
kaynak

Anystyle Ayrıştırıcısı dışında, şu anda en yüksek oyu alan cevapta hepsi anılıyor. Onları gerçekten öne çıkaran nedir? Orijinal soruya verilen avantajlar ve dezavantajlar neler olabilir?

— Seth

Ah, gerçekten. Cevabımı düzenler ve geliştiririm. Bunu işaret ettiğin için teşekkürler.

— Wouter

Şimdi ölmüş gibi görünüyor.

— uzman

1

@Brandon: Burada bir NASIL belgesi

— Wouter

1

Harika görünüyor, teşekkürler! Yakutlara hiç dokunmamış biri olarak, bu gerçekten çok yardımcı olacaktır.

— Brandon,

2

Regex Buddy veya Expresso gibi bir araç deneyin .

Programcı değilseniz, Normal İfadeler biraz korkutucu olabilir, ancak gerçekten de o kadar da zor değiller, özellikle de yukarıdakilerden biri gibi iyi bir araçla.

Alıntıları çıkarmak için Normal İfadeler kullanan bir örnek:

Alıntı ayrıştırma düzenli ifade

— Kül
kaynak

1

Mendeley bunu yapabilmeli. PDF'leri içe aktarabilir ve ardından meta verileri BibTeX, RIS ve EndNote XML'e dışa aktarabilir. İndirmek için ücretsiz ve platformlar arası.

Düzenleme: Bunu birkaç belgede test ettim. PDF içe aktarma, doğru biçimlendirilmiş referanslar için iyi çalışıyor gibi görünüyor. LaTeX kullanarak oluşturduğum bir döküman için, tüm yazarlara "Smith, J" biçiminde yapılan referanslar. veya "J. Smith", vb., iyi bir şekilde ithal edildi. Yazar bir şirketse (tek bir kelime) veya referans eksikse, o da işe yaramaz. Çıkarılan referanslar kolayca düzenlenebilir ve BibTeX'e aktarılabilir.

— sblair
kaynak

2

"Bu özellik Mendeley 0.9.7'de kaldırıldı çünkü yeterince değer sağlamadan adil miktarda kaynak kullanıyordu (müşteri ve sunucu tarafı). Gelecekte daha gelişmiş bir biçimde yeniden tanıtmayı planlıyoruz." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…

— iceman

1

Bir Westlaw programının yasal alıntılar için bunu yaptığını gördüm, ancak muhtemelen aradığınız şey bu değildir. Reference Manager akademik formatlar için böyle bir şey yapabilir, fakat ben hiç kullanmadım.

— Kaypro II
kaynak

1

Http://www.crossref.org/guestquery/#stqsearch adresini deneyin

Bu, referans metninizi otomatik olarak ayrıştırma yeteneğine sahiptir ve çevrimiçi bir makaleye bağlantı sunar.

— anton
kaynak

0

Zotero, web içeriği için bunu yapan firefox için bir eklentidir. Belgeler / pdfs için benzer bir araç olup olmadığından emin değilim

— Abhinav
kaynak

1

Bunun tam olarak Zotero'nun tasarlanmadığını biliyorum, ancak Firefox'u ilgili verilerle bir metin dosyasına veya html dosyasına işaret ettiyseniz, Zotero referansları tanıyabilir ve ardından Zotero kütüphanesine ekleyebilir ve dışa aktarabilirsiniz. kitaplığın tamamını istediğiniz formatta (Zotero'nun birçok formatı desteklediğini biliyorum). Bu çok sayıda dosya için acı verici olurdu.

— 09:11

Zotero'nun OP'nin istediğini nasıl yaptığını anlamadım. Yükledim, ancak referans ayrıştırma seçeneği yok gibi görünüyor.

— Rikki

Zotero, alıntıları normal metinlerden değil, özel olarak kodlanmış web sitelerinden ayırır.

— Ochado

0

Bu, muhtemelen @Abhinav'a bir yorum olarak ait olmakla birlikte, zotero, burada tanımlandığı gibi kesinlikle yalnızca yapılandırılmış verileri kullanır:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

İlginç bir hack, her alıntıyı en sevdiğiniz veritabanında arama sorgusu olarak kullanan bir program yazmayı denemek, ardından ref bilgilerini oluşturmak için zotero gibi bir şey kullanmak olabilir. Yapısal bilgileri, citeUlike gibi servislerden de indirebilirsiniz. Sonunda böyle bir şey yaparsan bana haber ver! (eğer yaparsanız github'a koyun;).

— Dav Clark
kaynak