Veri Bilimi ve Yöneylem Araştırması

11

Başlığın da belirttiği gibi genel soru:

DS ve OR / optimizasyon arasındaki fark nedir?

Kavramsal düzeyde ben DS çalıştıklarını anlıyoruz özü mevcut veriler ve kullanımları çoğunlukla İstatistiksel Machine Learning tekniklerine kadar bilgi. Öte yandan VEYA , verileri verilere dayalı kararlar vermek için kullanır ; örneğin, veriler (girdi) üzerindeki bazı objektif işlevleri (ölçüt) optimize ederek.

Acaba, bu iki paradigmanın karşılaştırması.

Biri diğerinin altkümesi mi?
Bunlar birbirini tamamlayan alanları mı değerlendiriyor?
Bir alanın diğerini tamamladığına dair örnekler var mı ya da bunlar birlikte kullanılıyor mu?

Özellikle aşağıdakilerle ilgileniyorum:

Veri Bilimi soru / problemini çözmek için OR tekniklerinin kullanıldığı herhangi bir örnek var mı?

optimization data-mining

— PsySp
kaynak

3

Bunun gerçekten bilgisayar bilimi ile ilgili bir soru olduğundan emin değilim ama sanırım yeterince yakın. Bir tarafta insanların diğeri hakkında ne düşündükleri konusunu düzenledim, çünkü bu tamamen bir fikir meselesi gibi görünüyor.

— David Richerby

@DavidRicherby teşekkürler. Bunun bir fikir meselesi olabileceğini kabul ediyorum. Geleneksel olarak, her iki disiplin de CS topluluğundan öğretilir ve ortaya çıkar, bu yüzden sanırım, burası sormak için doğru yer.

— PsySp

en.wikipedia.org/wiki/Operations_research , en.wikipedia.org/wiki/Data_science

— DW

@DW teşekkür ederim. Makaleleri okudum ve dürüst olmak gerekirse, söz konusu iki alan arasındaki çakışma ve / veya farklılıklar hakkında herhangi bir tartışma göremiyorum. Özellikle birinin diğerini nasıl tamamladığı.

— PsySp

1

Veri Bilimi temel olarak veri yoluyla bilgi bulmak için çalışma yapmakla ilgilidir. Yöneylem Araştırması esas olarak karar almayı geliştirmek için çalışma yapmakla ilgilidir. VEYA genellikle karar vermede en uygun politikayı bulmak için yöntemler kullanıyor olarak görebilirsiniz. OR'de kullanılan bazı yöntemler, CS topluluğunda Takviye Öğrenme yöntemleri olarak sınıflandırılabilir, ancak tüm OR sorunları bu türde değildir.

— spektr

9

Hem Yöneylem Araştırması hem de Veri Bilimi çok sayıda konuyu ve alanı kapsıyor olsa da, her birinin en temsili ve ana akım kısımları olarak gördüklerime bakış açımı vermeye çalışacağım.

Diğerlerinin de belirttiği gibi, Yöneylem Araştırmasının büyük kısmı öncelikle karar vermekle ilgilidir . Kararların nasıl alınacağını belirlemenin birçok farklı yolu olsa da, OR'in en genel kısımları (bence) karar problemlerini matematiksel bir programlama çerçevesinde modellemeye odaklanmıştır. Bu tür çerçevelerde, genellikle bir dizi karar değişkeni, bu değişkenler üzerindeki kısıtlamalar ve simge durumuna küçültmeye veya en üst düzeye çıkarmaya çalıştığınız karar değişkenlerinize bağlı bir objektif fonksiyonunuz vardır. Karar değişkenleri de değerler alabiliyorsa , kısıtlamalar karar değişkenleriniz üzerinde doğrusal eşitsizliklerdir ve amaç işlevi karar değişkenlerinin doğrusal bir fonksiyonudur, o zaman doğrusal bir programınız vardır $\mathbb{R}$ - OR'nin son altmış yıldır ana işgücü. Başka türde nesnel işlevleriniz veya kısıtlamalarınız varsa, kendinizi tamsayı programlama , karesel programlama , yarı belirli programlama vb.

Veri Bilimi ise, çoğunlukla çıkarımlarda bulunmakla ilgileniyor. Burada, genellikle büyük bir veri yığınıyla başlıyorsunuz ve henüz büyük yığınızda görmediğiniz veriler hakkında bir şeyler çıkarmak istiyorsunuz. Burada gördüğünüz tipik şeyler şunlardır: 1) büyük veri yığını iki farklı seçeneğin geçmiş sonuçlarını temsil eder ve hangi seçeneğin en iyi sonuçları vereceğini bilmek istersiniz, 2) büyük veri yığını bir zamanı temsil eder ve bu zaman serilerinin geleceğe nasıl yayılacağını bilmek istersiniz, 3) büyük veri yığını etiketli bir gözlem grubunu temsil eder ve yeni, etiketsiz gözlemler için etiket çıkarmak istersiniz. İlk iki örnek, klasik istatistiksel alanlara (sırasıyla hipotez testi ve zaman serisi tahmini) doğru bir şekilde düşerken, üçüncü örnek, modern makine öğrenimi konuları (sınıflandırma) ile daha yakından ilişkili olduğunu düşünüyorum.

Bu yüzden, bence, Yöneylem Araştırması ve Veri Bilimi çoğunlukla dik disiplinlerdir, ancak bazı çakışmalar vardır. Özellikle, zaman serisi tahmininin OR'de önemsiz olmayan bir miktarda gerçekleştiğini düşünüyorum; OR'nin daha önemli, matematik olmayan programlama tabanlı bölümlerinden biridir. Yöneylem Araştırması, girdiler ve çıktılar arasında bilinen bir ilişkiniz varsa döneceğiniz yerdir; Veri Bilimi, bu ilişkiyi (giriş ve çıkışın bazı tanımları için) belirlemeye çalışıyorsanız döneceğiniz yerdir.

— mhum
kaynak

Açık cevap için teşekkür ederim. Örneğin, DS problemlerini çözmek için herhangi bir OR tekniği kullanıp kullanamayacağını merak ediyordum. Böyle bir örnekle ilgilenirim, ancak cevabınızdan, herhangi bir şey olduğundan şüpheliyim.

— PsySp

@Psysp Eh, belki? Kafamın üstünde herhangi bir şey düşünemiyorum ama bu kesin olmaktan uzak.

— mhum

1

OR ve DS arasındaki bölünmenin inandığınız gibi katı olduğunu düşünmüyorum, ancak bunun nedeni, konuları DS'nin İstatistik eşanlamlısı olarak kabul etmek yerine DS'nin bir parçası olarak makine öğrenimi ve veri madenciliği olarak görmesi olabilir. (Ne yazık ki, DS bir terim olduğu için, bildiğim kadarıyla geniş çapta kabul edilmiş bir tanımı yoktur) Ancak, karar verme ve çıkarımın görevlerinin birbirini dışlaması gerekmez. Makine öğrenimi tam olarak her ikisinin birleştirildiği alandır: bazen iyi çıkarımlar yapmak için akıllı kararlar alınmalıdır, bazen de iyi kararlar için akıllı çıkarımlar kullanılır.

— Ayrık kertenkele

@Discretelizard Elbette, bir dereceye kadar katılıyorum. Her alanın tipik olarak ayarlandığı sorun türlerindeki farklılıkları vurgulamak için oldukça keskin bir bölüm (belki de neredeyse bir karikatür?) Sunuyorum ve her alanın çekirdek kısımlarına odaklanıyorum. Her iki alanın kenarları oldukça bulanık olabilir (özellikle çok daha yeni olan DS'de) ve muhtemelen orada daha fazla çakışma vardır. Ayrıca, DS'nin ana akımının çoğunun ML şeyleri içerdiğini kabul ediyorum, ancak DS'nin ML'den ne kadar bölünmüş olduğundan tam olarak emin değildim.

— mhum

4

Bu tam bir cevap değildir, çünkü mhum'lar OR vs DS'nin farklı amaçlarına zıt olarak oldukça iyidir .

Bunun yerine, bu yorumunuzu ele almak istiyorum:

Örneğin, DS problemlerini çözmek için herhangi bir OR tekniği kullanıp kullanamayacağını merak ediyordum.

Cevap Evet. Akla gelen en açık örnek, Destek Vektör Makineleri'dir (SVM'ler) .

Bir SVM modelini bazı verilere "sığdırmak" için (tahminleri çıkarmak için kullanmadan önce yapılması gerekir), aşağıdaki optimizasyon sorununun çözülmesi gerekir:

Dual'i maksimuma çıkarın,

$g (a) = \sum_{i = 1}^{m} α_{i} - \frac{1}{2} \sum_{i = 1}^{m} \sum_{j = 1}^{m} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j},$ $g(a) = \sum_{i=1}^{m} \alpha_i - \frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_i \alpha_j y_i y_j x_i^T x_j,$

kısıtlamalara tabi

$0 \leq α_{i} \leq C, \sum_{i = 1}^{n} y_{i} α_{i} = 0$ $0 \leq \alpha_i \leq C, \qquad \sum_{i=1}^n y_i \alpha_i = 0$

Bu, OR alanındaki birçok kişi gibi kısıtlı bir optimizasyon problemidir ve kuadratik programlama yöntemleri veya iç nokta yöntemleri kullanılarak çözülür. Bunlar genellikle DS yerine OR alanı ile ilişkilidir, ancak bu daha geniş uygulanabilirliklerine bir örnektir.

Daha genel olarak, optimizasyon DS alanında kullanılan birçok istatistiksel ve makine öğrenimi modelinin anahtarıdır, çünkü bu modellerin eğitim süreci genellikle mütevazi yüzyıllardan itibaren bir kayıp / pişmanlık işlevini içeren bir minimizasyon problemi olarak formüle edilebilir. en son derin öğrenme sinir ağına doğrusal regresyon modeli.

SVM'lere iyi bir referans Bishop'dur .

— AG
kaynak

2

Bir stratejist olarak, disiplinin her iki tarafı ile çalışma fırsatım oldu. OR ve DS'nin kalitatif bir MBA yöneticisine ne olduğunu açıklamaya çalışırken, her biri için (aşırı) basit bir satır tanıtımım

VEYA:
DS kodunu bilen ekonomistler: kodlamayı bilen istatistikçiler.

Pratik olarak, iki grubun tipik olarak nasıl bir araya geldiği: OR tarafı karar modelini geliştirir ve DS tarafı modeli beslemek için uygun veri uygulamasını bulur.

Her biri kendi başlarına, disiplinlerinin teorik geleneklerine güvenecek - birlikte, optimal kararlar için gereken gerçek anlayışlara ulaşmak için verileri yapılandırmak ve modeli hassaslaştırmak için deneyler yapıyorlar. Her biri diğerini tanıdıkça, düşünceleri ve dilleri tipik olarak birleşecektir.

— user88056
kaynak

1

DS'nin pratik tanımını 'kodlayan istatistikçiler' olarak anlıyorum, ancak OR açıklaması benim için biraz garip görünüyor. VEYA lojistik ve ilgili yönlendirme sorunlarını içerir. Bu benim için bir ekonomist için doğal bir yer gibi görünmüyor. Belki de VEYA neden ekonomistler tarafından pratikte yapıldığını ayrıntılandırabilirsiniz?

— Ayrık kertenkele

1

@Discretelizard İktisatçıların VEYA yaptığından şüphe duymuyorum, ama dediğin gibi, ekonomi ile ilgisi olmayan ve bilgisayar bilimcileri, matematikçiler ve diğerleri tarafından yapılan bir sürü OR var.

— David Richerby

0

Veri bilimi , genel olarak verilerle ilgilenen geniş bir alandır. Bu belirsiz görünüyorsa, bu normaldir çünkü gerçekten öyle. Uzun yıllardan beri vızıltı bir kelime. Esasen, verileri kullanmanın bir yolunu bulmaya çalışır: verilerimle ne yapabilirim (ondan ne içgörü elde edebilirim?).

Yöneylem Araştırması , matematiksel optimizasyon bilimidir: bir problemi “denklemler” olarak modellersiniz, bu matematiksel modeli çözersiniz ve çözümleri ilk problem ayarınıza geri çevirirsiniz. Karar vermenize yardımcı olacak bir araçtır: bunu veya bunu elde etmek için ne yapabilirim / yapabilirim.

Birçok iş problemi bir optimizasyon problemi olarak görülebilir. Kaynak kısıtlamaları, işimi tam olarak nasıl yürütürdüm, karar değişkenlerim için hangi değerleri ayarlamam gerektiği göz önüne alındığında, gelirimi en üst düzeye çıkarmaya çalıştığım göz önüne alındığında. Programlama, tesis planlama, tedarik zinciri yönetimi ... vb. Gibi problemlerin hepsi kaldıraç optimizasyon tekniklerinden yararlanır.

Portföy optimizasyonu, optimizasyonun kullanıldığı klasik bir örnektir. Her biri belirleyici olmayan getirilere sahip olan portföyümde birkaç farklı varlığa yatırım yapabileceğimi varsayalım, parasal getiriyi korurken genel portföyüm riskini en aza indirgemek için portföyümü nasıl dengelemeliyim. Bu ortamda, nesnel işlev genellikle portföyün riski / varyansı haline gelir ve kısıtlamalar, gerekli yatırım getirisi oranı ve sahip olduğunuz para miktarıdır.

— Rameez
kaynak

3

Her iki alanın yalnızca kısa özetlerini listeliyorsunuz. Bu cevap, sorunun özellikle sorulduğu DS ve OR arasındaki farkları ve / veya benzerlikleri ele almaz. Cevabınızı bu bölüme odaklanarak geliştirebilirsiniz

— Ayrık kertenkele

-1

ML tarafından yönlendirilen ML ve AI'yı Veri Biliminin bir parçası olarak sayıyorsanız (bazılarının deneyimlerime göre yapmazlar ve bazıları benim deneyimime göre sayılmazsa, örneğin AI'daki Microsoft profesyonel programı, Veri Bilimi + Makine öğreniminin temel yönlerini içerir (hem DL hem de RL ile) ) İktisat Yüksek Okulu, Microsoft cuuriculum'un Gelişmiş Makine Öğrenimi ile hemen hemen aynı gelişmiş bölümlerini sunarken), matematikte her iki alanda da kullanılan birçok benzerlik vardır. Örneğin: Doğrusal Olmayan Programlama (Lagrange çarpanları, KKT koşulları ...) -> Destek Vektör Makinelerinin türetilmesi için kullanılır ... Çoğunlukla Regresyonlara Dayalı Ekonometri ---> Regresyonlar genel olarak Veri Scinece'sinin ve daha spesifik olarak Denetimli Öğrenme ... İstatistikler (normalde OR Müfredatında bulunur) ---> Veri Bilimi ve Makine Öğrenimi için de anahtar ... Stokastik Süreçler ---> Takviye Öğreniminde çok önemli ... Dinamik Programlama ---> yine Takviye Öğreniminde bulundu ... Yani, genel olarak Veri Bilimi ile bazı benzerlikler ve ML ile hemen hemen benzerlikler olduğunu söyleyebilirim. Tabii ki, bu disiplinlerin amaçları farklıdır, ancak matematikte bu disiplinlerde kullanılan birçok benzerlik vardır.

— Goran Mabic
kaynak

Bu soruya nasıl cevap veriyor?

— Kötülük