Mühendislik açısından çok doğru bir modelin olumsuz yönleri nelerdir?


24

Merak ediyorum, mühendislik bakış açısıyla, modellemede çok fazla doğruluğun zararlı olmasının sebepleri nelerdir?

Bilimsel bir bakış açısına göre, daha az hesaplama süresi almanız gerektiğinden ayrı olarak, neredeyse her zaman bir fayda gibi görünüyor.

Öyleyse, mühendislik bakış açısından, zamanın (ya da hesaplama gücünün yanı sıra) neden bundan kaçınmalısınız?


2
Pease, burada "doğruluğu" ve "çok fazla" değeri tanımlamaktadır. Belirsizlik aralığını aşırı yüksek doğrulukla tahmin eden bir modele veya söz konusu belirsizliğin kendisini çok küçük bir değere düşüren bir modele sahip olabilirsiniz. Ve bunun gibi.
Carl Witthoft

1
“Her şey mümkün olduğunca basit yapılmalı, ancak daha basit olmamalı.” Einstein.
Eric Duminil

1
"Zamanın yanı sıra (veya bilgi işlem gücüyle)" Görünüşe göre tüm cevaplar bu noktayı kaçırdı ..
agentp

1
@ agentp Aksine, soru bunu dışlamaya çalışarak kendisini yanıtlar. İlk başta soruda olmak saçma bir şey.
jpmc26

2
Bu cidden ciddi şimdiye kadar gördüğüm en kötü "yüksek oy aldı" sorusu. Kafa karıştırıcı düz.
agentp

Yanıtlar:


38

Fazla giydirmeye dikkat et . Bir sistemden toplanan verilerin daha doğru bir modeli, sistemin gelecekteki davranışının daha iyi bir göstergesi olmayabilir.

Üzerine Takma Örneği

Yukarıdaki resimde, bazı verilerin iki modeli gösterilmektedir.

Doğrusal çizgi, antrenman verileri üzerinde bir miktar doğrudur (grafikteki noktalar) ve (beklenir), test verilerinde (noktaların x <5 ve x> -5 olması muhtemel olduğu yerlerde) biraz doğru olacaktır. ).

Buna karşılık, polinom eğitim verileri için% 100 doğrudur, ancak (9. derece polinomun bazı fiziksel nedenlerden dolayı makul olduğuna inanmak için herhangi bir nedeniniz yoksa), bunun x> 5 ve x <-5.

Doğrusal model, topladığımız verilerle herhangi bir hata karşılaştırmasına dayanarak, 'daha az doğrudur'. Ancak daha genelleştirilebilir.

Ek olarak, Mühendisler modelleriyle ilgili daha az endişe etmek ve insanların modelle ne yapacakları hakkında daha fazla endişelenmek zorundadır.

Size sıcak bir günde yürüyüşe çıkacağımızı ve 426 dakika sürmesi gerektiğini söylersem. Size yürüyüşün 7 saat süreceğini söylesem daha az, hatta yürüyüşün 4-8 saat süreceğini söylediğimden daha az su getirme ihtimaliniz yüksek. Bunun nedeni, öngörülen zamanımın orta noktası yerine, öngördüğümdeki ima edilen güven düzeyime cevap vermenizdir.

İnsanlara doğru bir model verirseniz, insanlar hata paylarını azaltır. Bu daha büyük risklere yol açar.

Sıcak bir günde yürüyüşe çıkacağım bir örnekte, yürüyüşün vakaların% 95'inde 4-8 saat süreceğini, navigasyon ve yürüme hızında bazı belirsizliklerin yaşandığını biliyorum. Mükemmel yürüme hızımızın 4-8 rakamının belirsizliğini azaltacağını bilmemiz, ancak bu, 'suyun sorun yaratması için o kadar uzun sürmemiz olasılığını' önemli ölçüde etkilemeyecektir, çünkü bu neredeyse tamamen belirsiz navigasyon tarafından yönlendirilir, belirsiz yürüme hızı.


1
Doğru, derece bir polinomun alışılmadık derecede kötü davranışa sahip bir örnek olduğunu; kesinlikle böyle bir model kullanmamalısınız. Hassas modeller, takılıyken bile , ölçümlerin kapsadığı aralığı gerçekten terk etmediğiniz sürece böyle patlamamalıdır . Aslında, 8 derecelik bir polinom bile bu veriler göz önüne alındığında çok daha düzgün bir uyum sağlar. N
leftaroundabout

Bağlantılı Vikipedi makalesinden temel alıntı: 'bir model, bir eğilimden genelleme yapmayı öğrenmek yerine, eğitim verilerini "ezberlemeye" başladığında oluşur.
Emilio M Bumachar

4
Gerçekten modelin "modelde çok fazla doğruluk" olduğunu düşünüyor muyuz? Bu, "çok doğru bir model" sahibi olmanın olumsuz bir yanı değil. Bu, çok fazla doğru noktaya sahip olmanın ve kötü bir modelleme yapmanın olumsuz bir yanıdır . Kötü bir modelin doğru verilerden çıkarılması kesin bir model değildir .
JMac

@JMac: Aşırı donma, sadece eğitim setinde çok fazla veri atarak kasıtlı olarak kötü bir model oluşturmak için yola çıkmadan, makine öğrenme bağlamlarında doğal olarak oluşabilir. Bu tür bir sonucu tanımlamanın doğru yolu "çok doğru" olduğundan emin değilim, ancak "basit modelleme hatası" değildir.
Kevin

26

En belirgin dezavantajı maliyettir, tüm mühendislik projelerinin sınırlı bir bütçesi vardır ve ihtiyaç duyduğunuzdan daha fazla para harcamak zaman kaybetmekten söz etmemenizin açıkça kötü bir şey olduğu anlamına gelir.

Daha ince konular da olabilir. FE analizi gibi şeyler her zaman yaklaşık değerlerdir ve bazen gereksiz ayrıntıların eklenmesi eserler ortaya çıkarabilir ve bir modelde sorun gidermeyi zorlaştırabilir. Örneğin, stres yükselticileriyle sonuçlanan kesintiler olabilir

Büyük miktarda veri tedarikçisini ve müşterilerini rahatlıkla idare edebilecek bilgi işlem gücüne sahip olsanız bile, bazı durumlarda büyük dosyaların aktarılmasının bir tıkanıklık olabileceği de göz önünde bulundurulmaktadır.

Benzer şekilde, ihtiyaç duyduğunuzdan daha fazla parametreniz varsa, dosyaları yönetme ve hata ayıklama sırasında potansiyel olarak fazladan bir çalışma yaratıyorsunuzdur.

Yine, şimdi bol miktarda zamanınız ve kaynaklarınız olsa bile, özellikle de müşteriye satmakta olduğunuz bir ürünün parçası olmakla sonuçlanırsa, bu modeli aynı lüks olmadan kullanmaya devam etmesi gerekebilir.


7
Sorgu: 2 paragraf o "... gerekli detay ekleyerek ..." veya 'ekleyerek okumalısınız un gerekli detay'
Fred

evet gereksiz olmalı
Chris Johns

FE örneğinin burada iyi çalışıp çalışmadığından emin değilim. Bu durumda, FE olan modeli. Daha doğru veri kullanmak problem yaratabilir; ancak eğer FE modeliniz doğruysa, tabii ki eserler hakkında endişelenmenize gerek yok; çünkü modelinizde onlara sahip değil. Bunu zaten doğru olarak tanımladık . Belki bir FE analizine girmek için farklı bir model kullanılması durumunda; ama o zaman bu model kullanıldığında çoğunlukla sadece "çizgiden aşağıya doğru birileri" nin noktası var.
JMac

13

Bir kaç neden var.

Tamamen pragmatik bir bakış açısına göre, zaman kısıtlamaları nedeniyle. Bir modeli çözmek için gereken zaman , hassasiyet seviyesinden çok daha hızlı bir şekilde artar ve hangisi benimsediyse, hangisi kabul edilirse, özneldir.

±515%

Bu nedenle, çok kesin olmanın bir anlamı yoktur. Fakat aslında, çok kesin olmaya çalışmamak bile faydalı olabilir. Bununla birlikte, bunun nedenleri çoğunlukla psikolojiktir. Temel olarak, modelinizin çok hassas olmasını istemezsiniz ve sonuçlarınızı yedi ondalık basamakla elde etmek istemezsiniz, çünkü yanlış bir güven duygusu uyandırmak istemezsiniz.

İnsan beyni, 1.2393532697'nin 1.2'den daha doğru bir değer olduğunu düşünmek için bağlanmıştır. Ama aslında durum böyle değil. Tüm gerçek dünyadaki belirsizlikler nedeniyle, modeliniz dikkate alınamaz (özellikle mevcut donanım kısıtlamaları göz önüne alındığında), 1.2 neredeyse kesinlikle 1.2393532697 kadar geçerli bir sonuçtur. Öyleyse kendinizi ya da modelinizi kim görmediysem. Sadece çıktı 1.2, ki bu saydamlık ikinci basamaktan sonra neler olup bittiğini gerçekten bilmediğinizi gösteriyor.


6

Son derece hassas bir model, engelleyici miktarda girdi verisi gerektirebilir. Örneğin atmosferdeki her gaz molekülünün konumunu ve hızını girerek mükemmel bir hava sistemi modeli oluşturmak mümkün olabilir. Uygulamada, böyle bir model kullanışlı olmaz çünkü doğru girdiyi üretmenin gerçekçi bir yolu yoktur. Bu durumda, yalnızca sınırlı girdi verisi gerektiren daha az kesin bir model tercih edilebilir.


1
Farklı bir soruya cevap verdiniz: "Ne kadar girdi verisi çok fazla"
Carl Witthoft

Muhtemelen buraya, "daha az hesaplama zamanına ihtiyaç duyduğunuzda yanı sıra" sorusunun nasıl bahsettiği hakkında bir not da eklerdim; Modeliniz çok kesinse, gerçek dünyadaki olayları hesaplamak evrenin sıcak ölümünden daha uzun sürebilir.
Delioth

5

"Çok doğru" monotonik değildir. Aslında simülasyona daha fazla para pompalamaya değeceğini düşündüren bir sadakat yanılsaması yaratabilir. Bazı parçaların çok ayrıntılı ve diğer parçaların çok kaba olduğu karma-sadakat modellerinden veri sunarken bu çok önemlidir.

Gerçek bir yaşam örneği, arazi üzerinde örnekleme irtifaları içermişti. Ekip, sadakati en üst düzeye çıkarmak için 1024 parçadaki araziyi örneklemeye karar vermişti. Müşterimiz ReallyGood (tm) cevabı istedi.

Şimdi bu belirli algoritmanın neden olduğu çalışma zamanı çarptı ve gerçekten ne kadar sadakatini ödediğimi anlamak istedim. Arazi verileri görmemiştim, bu yüzden onlara nasıl yüklediklerini sordum. Cevabı "ah, bizim arazi yok. Sadece düz." Oldu.

Bu yüzden 1024 puan örnekleyen harika bir sadakat modelim vardı. Gerçekte sahip olduğum şey, 1 puan 1024 kez örneklemekten daha iyisini yapmayan, bir ton daha yavaş çalışan ve daha yüksek kaliteli bir model olarak maskelenen düşük kaliteli bir modeldi!

Gerçek mühendislik dünyasında, liderler her zaman bir modelin tüm mimarisini öğrenme fırsatına sahip değildir. Aslında, asla vakti olmadıklarını söyleyebilirim . Liderimiz, müthiş bir 1024 puanlık modelimiz olduğu varsayımından kararlar almaktı. Kimse hatalı değildi, sadece modelin bir kısmına aslına uygunluğu ayarladığınızda ve diğerinde düşük sadakatiniz olduğunda olur. Karışık sadakat ile canavarın doğası.


Önemli rakamlara indirgemenin nasıl olacağına dair bir örnek, her zaman sadece sondaki sıfırları kesmekten ibaret değildir.
Eikre

1

Gerçekte elimizdeki veri yoktur ve biz veri yoktur yok yok. Neredeyse her zaman, sahip olmadığımız veri miktarı, pratik veya ekonomik nedenlerle toplamayı umduğumuzdan çok daha fazla.

Verileri gizlice iyice uydurmaya çalışarak birkaç örneğe ulaşmaya çalışarak, modelimizin gerçekten kötü tahminlerde bulunma riskini doğurabiliriz (veri eksikliği nedeniyle). O zaman modelimiz bize yanlış bir güvenlik hissi verecek.


1

Öyleyse, mühendislik bakış açısından, zamanın (veya bilgisayar gücünün yanı sıra) neden bundan kaçınmalısınız?

Makine mühendisliği açısından bakıldığında en büyük neden, yalnızca önemli ölçüde farklı sonuçlar üretmesi durumunda ek çaba göstermenizdir.

Modelinizdeki doğruluk seviyesi, tasarımınızın uygulanmasında sunacağınız doğruluk seviyesinden daha yüksek büyüklükteki emirler ise, çabalarınızı boşa harcarsınız. Modelinizde açıklanan doğruluk seviyesi, müşteri için etkili olandan daha yüksekse. Para harcıyorsun. Örneğin, tasarımın gerçekten gerektirdiğinden daha yüksek hassasiyet belirtiyorsanız (örneğin bir havalandırma borusu uzunluğunda +/- .00001 mm) müşterilerinize para harcıyorsunuz çünkü atmosfere 350 mm'lik bir havalandırma 350.0005 mm'lik bir havalandırma ile aynı işi yapıyor atmosfere ama ikincisi üretmek için çok daha pahalıdır.

Üniversitede hepimiz Newton sonrası fiziğin, Newton sonrası fiziğin daha doğru bir fiziksel davranış modeli sunduğunu kanıtlamış olmasına rağmen modellemeyi öğrendik. Buna rağmen, Newtonian modellerini varsayılan olarak çok yanlış yapan bir makine mühendisliği programı bilmiyorum. Daha doğru bir model kullanırsak ve çoğu durumda nihai tasarımımızı etkilemeyecek olan teorik gerçeğe% 0.1 daha yakın bir cevap bulursak. Verim stresimiz% 0,1 farklı ise, bu bize gerekli kesitte önemsiz bir fark verir ve bu da her iki yönteme göre aynı boyuttaki I-ışınını seçmemize neden olur. Bu durumda, ek çaba harcamalarının ek bir faydası yoktur.

Şimdi uygulanabilir bir tasarım üretmek için hassasiyetin gerekli olduğu durumlar vardır, örneğin göreceli fiziğin gerektirdiği bazı uyduların modellenmesi. Bu şartlar altında gerekli hassasiyet seviyesini sağlayan bir model bulmalı ve modele göre tasarlamalıyız. Boyutları +/-% 0,0001 olarak hesaplamamız gerekirse, parça boyutlarımız +/-% 0,1 ise tamamen boşa harcanır. Gerçek dünya uygulamalarında, ikinci doğruluk derecesinin parça boyutları öncekinden daha yaygındır.


0

Maliyet: zamanın maliyeti veya hesaplama gücünün maliyeti ve doğruluk maliyeti - diğer değişkenler% 5'lik bir toleransa sahipse, örneğin neden sonuçların% 1'e ...


0

Önceki cevaplarda girdi ve maliyet belirtilmiştir. Doğruluk istiyorsanız örneğin. Üretim parametrelerinin optimizasyonunda muhtemelen daha fazla ölçüme ihtiyaç duyarsınız ve ilk önce maliyeti ne kadar azaltabileceğinizi analiz etmeniz gerekir; bu nedenle artan çalışma süresi, ölçüm sıklığını artırmak veya manuel veri toplamanın yerini alacak otomatikleştirilmiş sistemin maliyetini arttırmak içindir. İkincisi, elde etmek için zamana ve diğer kaynaklara yatırım yaptığınız çok kesin sonuçlar elde ederseniz, kalite kontrol, endüstriyel ölçümler vb. Hatta teknoloji için yeterli donanıma sahip misiniz? Eğer sonuçlarınız boşa harcanan zamandan daha boşsa, onları kaçırırsınız.


0

Ormanları renkli olarak tanımlamak için santimetre çözünürlükte bir uydu görüntüsüne ihtiyacınız var mı? Tabii ki değil. Herhangi bir yeşil olmayan 10 santimetrekare yama için karar vermek zorunda kalacağınız için zararlı olurum. Modelleme için de aynı: detay çözünürlüğü, hedef özelliklerin çözünürlüğüne uymalıdır. Değilse, küçülme zamanını kaybedersiniz.


0

Gerçek cevapların çoğu, hesaplama gücünün ve hesaplama zamanlarının dikkate alınmaması gerektiği yapay kısıtlamalarınız tarafından hariç tutulur. Değerlendirilmesi saatler veya günler alan bir model, hızlı tasarım yinelemelerine izin vermez ve insan ölçeğinde işleri yavaşlatır, maliyeti arttırır ve muhtemelen düşük sonuçlara yol açar. Çok fazla doğruluk kaybetmeden akıllıca basitleştirilmiş modeller çok kullanışlı bir yaklaşım olabilir, daha sonra kaba kuvvet modeli son yinelemeyi doğrulamak için kullanılabilir.

Aşırı karmaşık modellerin modeldeki temel hataları maskeleyebilmesi veya modeli pratikte maksimumda kullanmak için bilgi toplamak için gerekli çalışmanın olası herhangi bir faydadan daha ağır basması olasıdır. Örneğin, bir malzemenin özelliklerini, tedarikçinin kontrol edebileceğinden daha yüksek bir doğruluk derecesinde bilmeniz gerekiyorsa, hata bantlarını kabul edebilir veya modeli düzeltmek için her bir malzeme serisini gidip test edebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.