Google’ın, öngörülü algoritmalarını oluşturmak için mevcut tüm özellikleri kullandığı yıllardır söylentiler olmuştur. Ancak, bugüne kadar, bu söylentiyi netleştiren ve / veya itiraz eden hiçbir feragatname, açıklama veya beyaz yazı bulunmamıştır. Yayınlanan patentleri bile anlamada yardımcı olmaz. Sonuç olarak, Google’ın dışından hiç kimse ne yaptığımı bilmiyor, bildiğim kadarıyla.
/ * Eylül 2019’daki güncelleme, bir Google Tensorflow habercisi Google mühendislerinin PageRank’ın şu anki sürümü için 5 milyardan fazla parametreyi düzenli olarak değerlendirdiğini belirtti . * /
OP'nin belirttiği gibi, prediktif modellemede en büyük sorunlardan biri, klasik hipotez testi ile saf veri madenciliği ile dikkatli model spesifikasyonu arasındaki ilişkidir. Klasik olarak eğitilmiş, model tasarımında ve geliştirilmesinde "titizlik" gereksinimi konusunda oldukça dogmatik olabilir. Gerçek şu ki, çok sayıda aday belirleyicisi ve çoklu olası hedefler veya bağımlı değişkenlerle karşı karşıya kaldıklarında, klasik çerçevenin ne işe yaradığı, ne işe yaradığı, ne de faydalı rehberlik sağladığıdır. Son zamanlarda sayısız bildiri, bu ikilemi Chattopadhyay ve Lipson'un mükemmel makalesinden ayırıyor Veriler Smashing: Verilerde Gizlenen Siparişi Bulma http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
Kilit darboğaz, günümüzde çoğu veri karşılaştırma algoritmasının, verilerin 'özelliklerinin' karşılaştırmayla alakalı olduğunu belirtmek için bir insan uzmanına dayanmasıdır. Burada, ne alan bilgisi ne de öğrenme kullanarak, rastgele veri akışlarının kaynakları arasındaki benzerliği tahmin etmek için yeni bir ilke öneriyoruz.
Geçtiğimiz yıl AER kağıda Tahmin Politikası Sorunları ve arkadaşları Kleinberg tarafından. Nedensel çıkarımın merkezi olmadığı ya da gerekli olmadığı durumlarda gerekçesiyle veri madenciliği ve tahminin ekonomik politika yapımında yararlı araçlar olarak kullanılması durumunda yapılan https://www.aeaweb.org/articles?id=10.1257/aer.p20151023 . "
Gerçek şu ki, daha büyük, 64.000 $ 'lık soru, düşünmedeki geniş bir değişim ve klasik hipotez testi çerçevesine meydan okuyor, örneğin, "eskimiş" bilimsel düşünceye ilişkin bu Edge.org sempozyumu https://www.edge.org/ Davranışsal ekonomi, karmaşıklık teorisi, öngörücü model gibi geniş çapta farklı disiplinleri birleştirmek için bazı radikal önerileri sunan “yeni ekonomi” üzerine Eric Beinhocker'ın bu yeni makalesinin yanı sıra emeklilik için hazır olan yanıtlar / ne-bilimsel-fikir-hazırdır politika uygulama ve benimseme için bir platform olarak kalkınma, ağ ve portföy teorisi https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Söylemeye gerek yok, bu konular sadece ekonomik kaygıların çok ötesine geçiyor ve bilimsel paradigmalarda köklü bir değişim geçirdiğimizi gösteriyor. Değişen görüşler, indirgenci, Occam'ın Razor gibi model oluşturma gibi Epicurus'un geniş Prensitude Prensipleri gibi geniş çaplı bir açıklama ya da kabaca bir şeyler açıklarsa hepsini koruduğunu söyleyen çoklu açıklamalar arasındaki farklar kadar temeldir. Https: // tr. wikipedia.org/wiki/Principle_of_plenitude
Tabii ki, Beinhocker gibi adamlar, bu gelişen paradigmaya uygulanan uygulamalı istatistiksel çözümlerle ilgili endişelerdeki siperlerdeki pratikten tamamen korunmazlar. Ultra yüksek boyutlu değişken seçiminin nitritli soruları ile OP, model oluşturma konusundaki uygulanabilir yaklaşımlar, örneğin, Lasso, LAR, kademeli algoritmalar veya mevcut tüm bilgileri kullanan "fil modelleri" için geçerli olan spesifik değildir. Gerçek şu ki, AWS veya bir süper bilgisayarla bile, mevcut bilgilerin tümünü aynı anda kullanamazsınız - hepsini yüklemek için yeterli RAM yok. Bu ne anlama geliyor? örneğin, NSF'nin Karmaşık veya Çok Büyük Veri Kümelerinde Keşfi: Ortak İstatistiksel Temalarbüyük veri madenciliği için algoritmaları "bölmek ve ele geçirmek", örneğin Wang, vd., Büyük Veri için İstatistiksel Yöntemler ve Hesaplama Araştırması http://arxiv.org/pdf/1502.07989.pdf ve Leskovec, vd. kitap Masif Veri kümeleri Maden http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Şu anda kelimenin tam anlamıyla yüzlerce, bu zorlukların çeşitli yönleriyle ilgilenen binlerce makale olmasa da, tümü “böl ve ele geçir” algoritmalarından özü olarak geniş ölçüde farklı analitik motorlar önermiştir; denetimsiz, “derin öğrenme” modelleri; masif kovaryans yapısına uygulanan rasgele matris teorisi; Bayesian tensör modelleri klasik, denetimli lojistik regresyon ve daha fazlası. On beş yıl kadar önce, tartışma, büyük ölçüde, sıkça sınırlı sonlu karışım modellerine karşı hiyerarşik Bayesian çözümlerinin göreceli yararları ile ilgili sorulara odaklandı. Bu sorunları ele alan bir makalede, Ainslie ve ark. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfUygulamada farklı teorik yaklaşımların, HB modellerinin avantajlı olduğu seyrek ve / veya yüksek boyutlu verileri içeren problemler haricinde, büyük ölçüde eşdeğer sonuçlar ürettiği sonucuna varıldı. Bugün D&C geçici çözümlerinin ortaya çıkmasıyla birlikte, tarihsel olarak yararlanabilecek herhangi bir arbitraj HB modeli ortadan kaldırılmaktadır.
Bu D & C geçici çözümlerinin temel mantığı Breiman'ın ünlü rastgele orman tekniğinin, gözlemlerin ve özelliklerin yeniden çizilmesinin yeniden örneklendirilmesine dayanan uzantılarıdır. Breiman, çalışmalarını 90'lı yılların sonlarında tek bir CPU üzerinde yaptı; bu devasa veriler birkaç düzine konser ve birkaç bin özellik anlamına geliyordu. Günümüzün devasa paralel, çok çekirdekli platformlarında, birkaç saat içinde milyonlarca "RF" mini modelini oluşturan on milyonlarca özellik içeren verilerin terabaytını analiz eden algoritmalar çalıştırmak mümkündür.
Tüm bunlardan çıkan çok sayıda önemli soru var. Kişi, bu geçici çözümlerin yaklaşan doğası nedeniyle, hassasiyet kaybıyla ilgili bir endişe ile ilgili. Bu sorun kendi kağıt, içinde Chen ve Xie tarafından ele alınmıştır Olağanüstü Büyük Veri Analizi İçin Bölünmüş-Çöz Yaklaşımı http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf onlar sonuçlandırmak Bu yaklaşımların "tam bilgi" modellerinden ayırt edilemez bir şekilde farklı olduğu.
Bildiğim kadarıyla, literatür tarafından yeterince ele alınmamış olan ikinci bir endişe, geçici çözümlerden sonra potansiyel olarak milyonlarca kestirici mini modelden elde edilen sonuçlarla (yani, "parametreler") yapılması gerektiğidir. toplanmış ve özetlenmiştir. Başka bir deyişle, bu sonuçlarla yeni verileri "puanlamak" kadar basit bir şey nasıl yürütülür? Mini model katsayıları kaydedilip depolanacak mı, yoksa basit bir şekilde d & c algoritmasını yeni verilerde tekrar çalıştırıyor musunuz?
Kaiser Fung , Sayılarınızı Dünyanız adlı kitabında, Netflix'in karşılaştığı ikilemi, yarışmasının kazananları tarafından verilen 104 modelden oluşan bir grupla anlatıyor. Kazananlar, aslında, diğer tüm rakiplere kıyasla, MSE'yi en aza indirdi, ancak bu, film danışmanları sistemi tarafından kullanılan 5 puanlık Likert tipi derecelendirme ölçeğinde doğrulukta yalnızca birkaç ondalık basamak iyileştirmesine çevrildi. Ek olarak, bu modeller topluluğu için gereken BT bakımı, model doğruluğundaki "iyileştirme" den görülen tasarruflardan çok daha pahalı.
O zaman "optimizasyon" un bu büyüklükteki bilgilerle bile mümkün olup olmadığı sorusu var. Örneğin, fizikçi ve finans mühendisi Emmanuel Derman, Bir Kuantık Olarak Hayatım kitabında , optimizasyonun en azından finans mühendisliğinde sürdürülemez bir efsane olduğunu öne sürüyor.
Son olarak, göreceli özellik önemine ilişkin çok sayıda özelliğe sahip önemli sorular henüz ele alınmamıştır.
Değişken seçim ihtiyacına ilişkin sorularla ilgili kolay cevaplar yoktur ve şu an ortaya çıkan yeni zorluklar, Epicurean geçici çözümlerinin çözülmeyi sürdürdüğü görülmektedir. Sonuç olarak, şu anda hepimizin veri bilimcisi olduğumuz.
**** EDIT ***
Referanslar
Chattopadhyay I, Lipson H. 2014 Verileri çökertme: verilerde gizlenme düzenini açığa çıkarma. JR Soc. Arabirim 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan ve Ziad Obermeyer. 2015. "Tahmin Politikası Sorunları." Amerikan Ekonomik İnceleme, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Yıllık Soru: NE BİLİMSEL FİKİR RETIREMENT İÇİN HAZIR?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Ekonomideki Büyük Değişiklikler Nasıl Sağa ve Solak Tartışmalar Yapar, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Epicurus çoklu açıklama prensibi: tüm modelleri sakla. Wikipedia https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle- of- Multiple- Explanations- Keep- all- models- that- are-
consistent/
NSF, Karmaşık veya Büyük Veri Kümelerinde Keşif: Ortak İstatistik Temaları, Ulusal Bilim Vakfı tarafından finanse edilen bir çalıştay, 16-17 Ekim 2007,
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Büyük Veri için İstatistiksel Yöntemler ve Hesaplama, Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu ve Jun Yan tarafından Çalışma Raporu, 29 Ekim 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Büyük Veri Kümeleri Madenciliği, Cambridge University Press; 2 baskı (29 Aralık 2014) ISBN: 978-1107077232
Büyük Örnek Kovaryans Matrisleri ve Yüksek Boyutlu Veri Analizi (İstatistiksel ve Olasılıklı Matematikte Cambridge Serisi), Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 baskı (30 Mart 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE ve IMRAN S. CURRIM, Logit Choice Modellerinin Heterojenitenin Kesikli ve Sürekli Temsili Temsili ile Ampirik Bir Karşılaştırması, Pazarlama Araştırması Dergisi, 479 Cilt. XXXIX (Kasım 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Olağanüstü Büyük Verilerin Analizi için Ayrık ve Fetih Yaklaşımı, Xueying Chen ve Minge Xie, DIMACS Teknik Raporu 2012-01, Ocak 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, Sayılar Dünyanızı Yönetiyor: Yaptığınız Her Şeyde Olasılıkların ve İstatistiklerin Gizli Etkisi, McGraw-Hill Education; 1 baskı (15 Şubat 2010) ISBN: 978-0071626538
Emmanuel Derman, Bir Kuantum Olarak Hayatım: Fizik ve Finans Üzerine Düşünceler, Wiley; 1 baskı (11 Ocak 2016) ISBN: 978-0470192733
* Kasım 2017’deki güncelleme *
Nathan Kutz '2013 Kitabı, Veri Odaklı Modelleme ve Bilimsel Hesaplama: Karmaşık Sistemler ve Büyük Veri Metodları , boyut azaltma yöntemleri ve araçlarının yanı sıra değişken seçimine matematiksel ve PDE odaklı bir gezidir. Onun düşünce için mükemmel, 1 saatlik bir giriş bu Haziran 2017'de bulabilirsiniz Youtube video Dinamik Sistemler ve PDE'lerin Veri Driven Keşfi . İçinde, bu alandaki son gelişmelere atıfta bulunuyor. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop