Bilgi alma ve bilgi çıkarma arasındaki ilişki ve fark?


11

Gönderen Wikipedia

Bilgi alma , bilgi kaynakları koleksiyonundan bir bilgi ihtiyacı ile ilgili bilgi kaynakları elde etme faaliyetidir. Aramalar meta verilere veya tam metin dizine dayalı olabilir.

Gönderen Wikipedia

Bilgi çıkartma (IE) , yapılandırılmamış ve / veya yarı yapılandırılmış makine tarafından okunabilen dokümanlardan yapılandırılmış bilgileri otomatik olarak çıkartma görevidir. Çoğu durumda bu etkinlik, doğal dil işleme (NLP) yoluyla insan dili metinlerinin işlenmesiyle ilgilidir. Otomatik ek açıklama ve resim / ses / videodan içerik çıkarma gibi multimedya belge işlemedeki son etkinlikler bilgi çıkarma olarak görülebilir.

Bilgi alma ve bilgi çıkarma arasındaki ilişkiler ve farklılıklar nelerdir?

Teşekkürler!

Yanıtlar:


9

Bilgi alma olduğu bir sorguya dayalı - Eğer ihtiyaç ve insan anlaşılabilir biçimde döndürülen hangi bilgilerin belirtin.

Bilgi çıkarma , yapılandırılmamış bilgilerin yapılandırılmasıyla ilgilidir - bazı kaynaklar göz önüne alındığında , tüm (ilgili) bilgiler işlenmesi kolay olacak şekilde yapılandırılmıştır. Bu, insanın anlayabileceği biçimde gerekli değildir - sadece bilgisayar programlarının kullanımı için olabilir.

Bazı kaynaklar:


7

http://gate.ac.uk/ie/ çok hoş ve öz bir ayrım yapar:

Bilgi Çıkarma Bilgi Alma değildir: Bilgi Çıkarma, geleneksel tekniklerden farklıdır, çünkü bir anahtar sözcük aramasına (belki de bir eşanlamlılar sözlüğü ile zenginleştirilmiştir) dayalı olarak, bir sorgu ile ilgili olan bir belge alt kümesini kurtarmaz. Bunun yerine, amaç, önceden belirlenmiş olay türleri, varlıklar veya ilişkiler hakkında (gerçekte çeşitli dillerde olabilir) belgelerden çıkarılmasıdır. Bu gerçekler daha sonra genellikle otomatik olarak bir veritabanına girilir ve bu veriler daha sonra eğilimler için verileri analiz etmek, doğal bir dil özeti vermek veya sadece çevrimiçi erişim için kullanılabilir.

Resimli olarak koymak için:

Bilgi Edinme, ilgili belge kümelerini alır:

resim açıklamasını buraya girin

Bilgi Çıkarma, gerçekleri belgelerden çıkarır:

resim açıklamasını buraya girin


2

Modelleme açısından, bilgi elde etme, istatistik, matematik, dilbilim, yapay zeka ve şimdi veri bilimi gibi çeşitli disiplinlere dayanan derin bir alandır. Uygulamada, bu modeller verilerdeki kalıpları keşfetmek için corpora içindeki metne uygulanır. IR modelleri sadece kullanımlarında çakışmakla kalmaz, aynı zamanda k-araçları veya k-en yakın komşu modelleri gibi diğer modellerle "ortaklık kurabilir", aynı zamanda LDA / LDI gibi hesaplama dilbilimlerinin avantaj noktasından diğer modeller de uygulanabilir. konu modelleme Sonra, son oyun bu keşfin bir tür bilgi görselleştirmesidir - sıralama, kümeleme ve toplama çalışmalarından sonra. Bilgi Edinme şifreli bir disiplin gibi görünebilir, ancak çok takdir edilen ciddi çaba, her modelin ve modeller arasındaki etkileşimin daha iyi anlaşılması için alanı açıyor. "Bilgi Kavramları, Erişim ve Hizmetler Konusunda Sentez Dersleri" Serisini IR için bir vakıf kurmak için en iyi yer olarak belirtiyorum.

Belki de IE'nin bir alt kümesi olan kavram düzeyi çıkarımı olan IR ve Bilgi Çıkarma'yı tamamen ayırmasam da, ilgili ontolojileri ayıklamak için AI tabanlı çıkarım kuralları ile birlikte IR kalıpları uygular. Bu ilişkilerin grafiksel doğası, OWL ve RDF'deki ontoloji modellemesi ve daha az katı veya titiz bir ilişki modelleme seti sağlayan ve kendiliğinden kontrol etmek yerine yüzeye daha fazla ilişki sağlayan grafik veritabanları ile geliştirilmektedir. Bilgi çıkarma becerisini dinamik olarak geliştirme yeteneği, “disiplini” araştırmacılar için son derece ilginç tutmaktadır.

Hem IR hem de IE kendi önemli "anı varlığımızda" oynar - bazıları "dinamik ontolojiler" olarak adlandırılır - bazıları Palantir - iş yapmak için bu önemli varlıkların modellerine, modellerine, simülasyonlarına ve görselleştirmelerine ihtiyacımız var yeni bilgi kaynaklarını dönüştürme ve mevcut bilgileri değiştirme yüzü. Kavramsal, ilişkisel, tanımlayıcı, model ve ontolojik modelleme esnek olmalı ve görselleştirmeleri aynı olmalıdır. Watson gibi AI motorlarının bilgi çıkarma ve çıkarım alanlarında ağır kaldırılması, IE ve açıkçası IR alanlarına dikkat çekti. Ayrıca, doğal dil işleme ve makine öğreniminin yaygınlığı, IR ve IE modellerine ve motorlarına dikkat çekiyor. IR modellerinin arama ve SEO ve semantik web modellemesi üzerindeki etkisi bunlardan biridir "


1

Bilginin alınması , belirli bir sorgu veya ilgi alanı ile ilgili bilgilerin döndürülmesiyle ilgilidir. Bu bilgilerin genel belgeler biçiminde de olabileceğini unutmayın, yeterince arama motoru bu tür bir görevin dikkate değer bir örneğidir. Bilgi almak için tanınan en önemli varlıkların ilk belge / bilgi kümesi ve "ne aranacağını" belirten sorgu olduğunu söyleyebilirim.

Öte yandan bilgi çıkarımı , genel bilgi (ya da ilişkiler) bir dizi belge ya da bilgiden çıkarılması (ya da çıkarılması) ile ilgilidir. Burada belgelerin tüm içeriğinin, bilgiyi alan bir veri bütünü olarak kabul edilebileceğini unutmayın. Tabii ki bu durumda da bir şekilde neyi çıkarmak istediğinizi belirtebilirsiniz, ancak özellikler / ilişkiler hakkında belirli konulardan / konulardan daha fazladır. Özellikler daha alana özgüdür, genellikle ilişkiler daha genel senaryoları kapsar.

Yine, arama motorları ile o konu hakkında bilgi içermesi muhtemel siteleri almak istiyoruz. Bu bilgi alımına bir örnektir .

İçin bilgi çıkarma yerine, örneğin, tüm belgelerin bir toplulukta görünür şehirlerde veya e-posta adreslerinin adlarını ayıklamak için sorabilirsiniz. Hatta çok daha genel bir yaklaşımla bile bilgi elde etmenizi isteyebilirsiniz. Gördüğünüz gibi, bu gerçekten geneldir, ancak örneğin, metnin her geçerli cümlesi için konu-eylem-nesne biçiminin üçlülerini elde ederek gerçekleştirilebilir (bu, doğal dil metinleri için en uygunudur).

Bu (ve diğer) konularla ilgileniyorsanız, Artificial Intelligence: Modern Bir Yaklaşım kitabının Doğal Dil İşleme bölümünde ayrıntılı olarak açıklanmaktadır .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.