(Analitik) kimyacı olarak , her iki yaklaşımla da karşılaşıyorum: liyakat figürlerinin analitik olarak hesaplanması (çoğunlukla tek değişkenli regresyon için) ve ayrıca liyakat tahmin rakamlarının doğrudan ölçümü.
Bana verilen tren / test, tahmin kalitesini ölçmek için bir doğrulama deneyinin "küçük kardeşi" dir.
Uzun cevap:
Örneğin lisans fizikokimyasında yaptığımız tipik deneyler tek değişkenli regresyon kullanır. İlgilenilen özellik genellikle model parametreleridir, örneğin reaksiyon kinetiklerini ölçerken zaman sabiti, ancak bazen de tahminlerdir (örneğin, ilgilenilen bazı değerleri tahmin etmek / ölçmek için tek değişkenli doğrusal kalibrasyon).
Bu durumlar aşırı uymama açısından çok iyi huyludur: tüm parametreler tahmin edildikten sonra genellikle rahat bir serbestlik derecesi kalır ve klasik güven veya tahmin aralığı hesaplaması ve klasik hata ile öğrencileri eğitmek için kullanılırlar. yayılma - bu durumlar için geliştirildi. Ve durum tamamen ders kitabı benzeri olmasa bile (örneğin verilerimde bir yapıya sahibim, örneğin kinetiklerde, verilerin reaksiyonun çalışmaları arasındaki fark + bir çalışmadaki ölçümler arasındaki fark ile daha iyi tanımlanmasını beklerdim. basit tek varyanslı yaklaşım), genellikle yararlı sonuçlar elde etmek için denemede yeterli sayıda çalışmam olabilir.
(Dağılımı özellikleri 1000'ler tipik 100'ler Ancak, benim meslek hayatımda, spektroskopik veri setleri ile anlaşma bağımsız olguda (örnekleri) oldukça sınırlı setleri ile üstelik) ve . Genellikle , bu yüzden kaç serbestlik derecesini kullandığımızı söylemek her zaman kolay olmayan bir düzenlileştirme kullanıyoruz ve buna ek olarak, küçük neredeyse tekrarlanan ölçümlerin (büyük) sayılarını kullanarak en azından biraz telafi etmeye çalışıyoruz. - hangi bilinmeyen etkili olan yapraklar bize . veya bilmedenn n < p n n n d fpnn<pnnndf, klasik yaklaşımlar işe yaramıyor. Ama çoğunlukla tahminlerde bulunduğumdan, her zaman modelimin tahmin yeteneğini ölçmek için çok doğrudan bir imkanım var: Tahminler yapıyorum ve bunları referans değerlerle karşılaştırıyorum.
Bu yaklaşım, eğitim / kalibrasyon verilerinde yer almayan koşullar için de öngörücü kaliteyi araştırmamı sağladığı için aslında çok güçlüdür (artan deneysel çaba nedeniyle maliyetli olsa da). Örneğin, tahmin niteliğindeki kalitenin ekstrapolasyonla nasıl kötüleştiğini ölçebilirim (ekstrapolasyon, örneğin eğitim verilerinin alınmasından bir ay sonra yapılan ölçümleri de içerir), önemli olmasını beklediğim karıştırıcı faktörlere karşı sağlamlığı araştırabilirim. , diğer herhangi bir sistemin davranışını incelerken modelimizin davranışını inceleyebiliriz: belirli noktaları araştırırız veya bozarız ve sistemin cevabındaki değişime bakarız.
Öngörücü kalitenin ne kadar önemli olduğunu (ve aşırı uyum riski ne kadar yüksekse) analitik olarak türetilmiş sayılardan ziyade doğrudan kestirim kalitesi ölçümlerini tercih etme eğilimimiz olduğunu söyleyebilirim. (Elbette tüm bu karışıklıkları eğitim deneyinin tasarımına da dahil edebilirdik). Tıbbi teşhis gibi bazı alanlar, model gerçek hastalarda "gevşemeden" önce uygun validasyon çalışmalarının yapılmasını talep eder.
Tren / test bölünmesi (tutma * veya çapraz doğrulama veya önyükleme dışı veya ...) bu tek adımı kolaylaştırır. Ekstra deneyi saklıyoruz ve tahmin etmiyoruz (sadece eğitim verilerinin aynı dağılımının bilinmeyen bağımsız vakalarını öngörmeyi genelleştiriyoruz). Bunu validasyondan ziyade doğrulama olarak tarif ederdim (validasyon buradaki terminolojide derinlemesine olmasına rağmen). Bu, liyakat figürlerinin kesinliği konusunda çok yüksek talepler yoksa, genellikle bir kavram kanıtı senaryosunda çok kesin olarak bilinmeleri gerekmeyecekse, pragmatik bir yöntemdir.
* Tek bir rastgele bölünmeyi trene karıştırmayın ve tahmin kalitesini ölçmek için uygun şekilde tasarlanmış bir çalışma ile test etmeyin.