İstatistiksel algoritma geliştirici adayları için iyi görüşme soruları nelerdir?


15

İstatistik / makine öğrenimi / veri madenciliği bağlamında algoritma geliştirici / araştırmacı pozisyonu için insanlarla röportaj yapıyorum.

Özellikle bir adayın temel teoriye aşinalığını, anlayışını ve akışkanlığını, örneğin beklenti ve varyansın temel özellikleri, bazı yaygın dağılımları, vb. Belirlemek için sorulacak sorular arıyorum.

Şu anki sorularım: " Tahmin etmek istediğimiz bilinmeyen bir miktar var. Bu amaçla , verildiğinde hepsi tarafsız ve bağımsız olan tahmincileri var ve her biri bilinen bir varyans , her biri için farklı. ve minimum varyansa sahip en uygun tahmincisini bulun . "XY1,Y2,...,YnXσben2Y=f(Y1,...,Yn)

Herhangi bir ciddi adayın bunu kolayca ele almasını beklerdim (hesaplamaları yapmak için biraz zaman verilir) ve yine de ilgili alanlardan kaç adayın en küçük ilerlemeyi bile başaramadığına şaşırdım. Bu yüzden bunu iyi ve ayrımcı bir soru olarak görüyorum. Bu sorudaki tek sorun, bunun sadece bir sorudur.

Bunun için başka hangi sorular kullanılabilir? Alternatif olarak, bu tür soruların bir koleksiyonunu nerede bulabilirim?


7
Makine öğrenen birçok insan için (iyi olanlar da dahil), bu soru rahatlık alanlarının çok dışındadır. Bu bariz bir istatistikçi sorudur.
Marc Claesen

4
Bu soru yasal olarak sınırda açma / kapama konusudur. Bununla birlikte, birçok görüşe sahiptir, birkaç upvotes, birkaç upvotes ile cevap ve dahası, CW'dir. Açık kalabilir, IMO.
gung - Monica'yı eski

2
Bu soru kafa karıştırıcı bir şekilde ifade edilebilir. Örneğin, büyük harfle kullanılması X'in rastgele görünmesini sağlar. Ancak minimum varyanstan bahsettiğiniz için, X'in rastgele olmamasını istiyormuşsunuz gibi görünüyor (bu durumda, tahmincilerin varyansının X'e yazılı bir bağımlılığı yok mu?)XXXX
Batman

4
Dikkatli bir nokta olarak, Google kendi iç İK süreçleri üzerinde büyük bir çalışma yaptı ve görüşmeci puanlarının sonraki iş performansıyla hiçbir şekilde ilişkili olmadığını buldu !! Buradaki literatürle ilgili izlenimlerim, (1) bulmaca tipi soruların mutlak en kötüsü olduğu, sadece görüşmeciyi akıllı hissettirmeye (yani 0 tahmin gücü) ve (2) devam etmesine, deneyime dayalı soruların öngörücü değere sahip olabileceğidir. Geçmiş performans gelecekteki performansı tahmin eder ve geçmiş performanslarının ne olduğunu belirlemek için sorulara odaklanmak isteyebilirsiniz, ancak röportaj görüşmecilerin düşündüğünden çok daha az bilgilendiricidir.
Matthew Gunn

3
Ağırlıkların birliğe toplamı ile serbestlik garanti edilir. Bununla birlikte, çözümünüzü tahmin edicilerin doğrusal kombinasyonları ile sınırlasanız bile, neredeyse her zaman aynı verilere dayanan birden çok tahmin edicinin yüksek derecede ilişkilendirilmiş olacağı gibi olacaktır . (Eğer gerçekten bağımsızlarsa, o zaman verilerin ayrık, bağımsız alt kümelerine uygulanırlar.) Doğrusal tahmin edicilerin kombinasyonunun optimal olacağı hiç de belli değil.
whuber

Yanıtlar:


12

İstatistiksel geliştiricinizin ne yapmasını istiyorsunuz?

ABD Ordusu "eğitim alacağınız için tren, çünkü eğitilmiş gibi dövüşeceksiniz" diyor. Gün boyunca ne yapmalarını istediğinizi test edin. Gerçekten, onların şirket için "değer yaratmasını" veya "para kazanmasını" istiyorsunuz.

Patron 101

"Bana parayı göster" düşün.

  • Çalışan adı verilen ağaçlarda para büyür. Sen bir "kuruş" (ücretlerini) koymak ve onlar size bir "çeyrek" (değer) ödemek.
  • İşlerini şirket için nasıl para kazandıklarıyla ilişkilendiremezseniz, o zaman ne siz ne de işlerini doğru bir şekilde yapıyorsunuz.

Not: Sembolik manipülasyon sorunuz "para" ya net bir şekilde bağlanmıyorsa, yanlış soruyu soruyor olabilirsiniz.

Her çalışanın çalışan olmak için yapması gereken 3 şey vardır:

  • İşi gerçekten yapabilmek
  • Ekiple iyi çalışın
  • İşi gerçekten yapmaya istekli / motive olun

Bunları sağlamlaştırmazsanız, başka hiçbir cevap size iyi gelmeyecektir.

Bunları iyi bir yazılım parçası veya iyi eğitimli bir gençle değiştirebilirseniz, sonunda bunu yapmanız gerekecek ve size mal olacak.

Veri 101

Ne yapmaları gerekir:

  • iç yazılım tatlarınızı kullanın (ağ, işletim sistemi, ofis, sunum ve analiz)
  • bazı endüstri standardı yazılım tatlarını kullanın (Excel, R, JMP, MatLab, pick_three )
  • verileri kendileri alırlar. Temel görevler için temel veri kümelerini bilmelidirler. Depoları bilmeliler. Hangi ünlü verilerin hangi görev için kullanıldığını bilmeliler. Fisher Iris. Pearson Yengeç. ... belki de buraya gitmesi gereken 20 unsur var. UCI, NIST, NOAA.
  • Verileri işleme kurallarını bilmelidirler. ikili veri (T / F), kategorik (A, B, C, D) veya devamlıdan çok farklı bilgi içeriğine sahiptir. Verilerin veri türüne göre uygun şekilde ele alınması önemlidir.
  • Birkaç temel istatistiksel görev şunları içerir: bu ikisi aynı mı yoksa farklı mı (diğer adıyla küme / sınıflandırma), bunun bununla nasıl ilişkili olduğu
    (doğrusal modeller, glm, radyal temel,
    fark denklemleri dahil regresyon / uydurma ), "x "(hipotez testi), kaç numune ı (kabul örneklemesi) gerekmez yapmak, ben en iyi şekilde nasıl
    kaç / ucuz / verimli deneylerden elde edilen verilerdir (istatistiksel Tasarım
    deney) - yasal uyarı, ben mühendis istatistikçi değilim onlara isteyebilir "Farklı temel görevler nelerdir ve istatistikçinin bunları verimli ve doğru bir şekilde yapabileceğini nasıl test edersiniz?
  • verilere erişim / kullanım. Bu formatlar ve araçlar hakkında.
    Csv, xlsx (excel), SQL ve
    resimlerden okuyabilmelidirler . (HDF5, Rdata) Özel bir biçiminiz varsa,
    bunları okuyabilmeli ve araçlarla hızlı ve
    verimli bir şekilde çalışabilmelidir . Formatın gücünü / zayıflığını bilmelidirler. CSV hızlı kullanım, sonsuza dek, hızlı prototip, ancak şişkin, verimsiz ve yavaş çalışma.
  • en iyi uygulamaları kullanarak ve günah işlemeden verileri düzgün bir şekilde işleyin. Verileri asla atmayın. Binom verilerini sürekli bir çizgiye sığdırmayın. Fiziğe meydan okuma.
  • tekrarlanabilir ve tekrarlanabilir sonuçlar elde etmek. Bazı
    insanlar "yalanlar, lanet yalanlar ve istatistikler var" diyor ama
    şirketimde değil . Aynı iyi girdi aynı iyi çıktıyı verir. Çıktı bir sayı değil, her zaman
    teknik bir eylemi bildiren ve bir iş sonucuyla sonuçlanan bir iş kararıdır . Farklı testler kadranı 5.5 veya 6.5'e ayarlayabilir, ancak yetenek her zaman 1.33'ün üzerindedir.
  • karar
    vericilerin ve / veya minyon geliştiricilerin ve / veya bir yıl içinde kendilerinin bir dilde ve düzeyde bulguları
    en az hatayla anlayabilecekleri düzeyde sunar. Güzel bir şey bunu açıklayabiliyor, böylece büyükanneniz anlıyor. Bu ( link ) cevabım ama hoşuma gitti.

Analitik zingerler:

Bence imkansız sorular harika. Bir sebepten dolayı imkansızlar. Kapıdan bir şeyin imkansız olup olmadığını bilmek iyi bir şeydir. Nedenini bilmek, onunla ilgilenmenin bazı yollarına sahip olmak veya farklı bir soru sorabilmek daha iyi olabilir.

Diğer CV soruları. ( bağlantı ) Reddit'te. ( bağlantı ) diğerleri ( bağlantı )

BTW: Bu iyi bir soruydu. Bu cevabı zaman içinde güncellemem gerekebilir.


3
Sorduğum sorudan farklı bir soru için bu iyi bir yanıt gibi görünüyor. İyi çalışanları nasıl seçeceğimi sormadım (muhtemelen işyerinde böyle bir şey sorardım. Eğer ihtiyacım olsaydı), belirli bir yeterliliği test etmeyi sordum.
Meni Rosenfeld

Sadece o zaman istatistiklere indireceğim.
EngrStudent - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.