Veri Bilimi data-mining

3

Python için kullanıma hazır iyi dil modelleri var mı?

Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Makine öğrenim modelimi eğitmek için ne kadar veri yeterli?

Bir süredir makine öğrenimi ve biyoinformatik üzerinde çalışıyorum ve bugün veri madenciliğinin ana genel sorunları hakkında bir meslektaşımla sohbet ettim. Meslektaşım (makine öğrenimi uzmanı), onun görüşüne göre, makine öğreniminin tartışmasız en önemli pratik yönünün, makine öğrenme modelinizi eğitmek için yeterli veri toplayıp toplamadığınızı nasıl anlayacağınız olduğunu söyledi . Bu ifade …

11 machine-learning data-mining dataset data-cleaning data

4

Rasgele ormanda aşırı sığmayı nasıl önleyebilirim?

Rastgele ormanda aşırı sığmayı önlemek istiyorum. Bu bağlamda, mtry, nodesize ve maxnodes vb. Kullanmayı düşünüyorum. Lütfen bu parametreler için değerler seçmeme yardım eder misiniz? R kullanıyorum. Ayrıca, mümkünse, lütfen rastgele orman için k-kat çapraz doğrulamayı nasıl kullanabileceğimi söyle (R'de).

11 machine-learning data-mining r predictive-modeling random-forest

7

LinkedIn web kazıma

Yakın zamanda LinkedIn API'sine bağlanmak için yeni bir R paketi keşfettim . Ne yazık ki LinkedIn API'sı başlangıç olarak oldukça sınırlı görünüyor; örneğin, yalnızca şirketlerle ilgili temel verileri alabilirsiniz ve bu, bireylerle ilgili verilerden ayrılır. Sitede manuel olarak yapabileceğiniz ancak API aracılığıyla mümkün olmayan belirli bir şirketin tüm çalışanları hakkında …

11 data-mining social-network-analysis crawling scraping

3

KS, AUROC ve Gini arasındaki ilişki

Kolmogorov-Smirnov testi (KS), AUROC ve Gini katsayısı gibi yaygın model doğrulama istatistiklerinin tümü işlevsel olarak ilişkilidir. Ancak, sorum bunların hepsinin nasıl ilişkili olduğunu kanıtlamakla ilgilidir. Birinin bu ilişkileri kanıtlamama yardım edip edemeyeceğini merak ediyorum. Çevrimiçi olarak hiçbir şey bulamadım, ancak kanıtların nasıl çalıştığıyla gerçekten ilgileniyorum. Örneğin, Gini = 2AUROC-1'i biliyorum, …

11 data-mining statistics predictive-modeling accuracy

4

HPC kümeleriyle çalışma

Üniversitemde bir HPC bilgi işlem kümemiz var. Kümeyi sınıflandırıcıları eğitmek için kullanıyorum vb. Yani, genellikle, (örneğin python scikit-learn komut dosyası) kümeye bir iş göndermek için, (diğerleri arasında) gibi bir komut içeren bir Bash komut dosyası yazmak gerekir qsub script.py. Ancak, bu süreci çok sinir bozucu buluyorum. Genellikle ne olur benim …

11 bigdata data-mining

3

Bilimsel hesaplama için en iyi diller [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Sıklıkla birlikte satın alınan öğeleri görselleştirme

Bir CSV dosyasına eklenen aşağıdaki yapıda bir veri kümesi var: Banana Water Rice Rice Water Bread Banana Juice Her satır, birlikte satın alınan öğelerin bir koleksiyonunu gösterir. Örneğin, ilk satır öğeleri bu belirtmektedir Banana, Waterve Ricebirlikte satın alındı. Aşağıdaki gibi bir görselleştirme oluşturmak istiyorum: Bu temelde bir ızgara grafik ama …

10 python r data-mining visualization association-rules

3

Hangisi daha hızlı: Büyük JSON veri kümelerinde PostgreSQL vs MongoDB?

Ben ~ 300 bayt her 9m JSON nesneleri ile büyük bir veri kümesi var. Bunlar bir bağlantı toplayıcısının gönderileridir: temel olarak bağlantılar (bir URL, başlık ve yazar kimliği) ve yorumlar (metin ve yazar kimliği) + meta veriler. Alt kayıtlara işaret eden kimlikleri olan bir dizi alanına sahip olmaları dışında, bir …

10 data-mining bigdata databases sql mongodb

4

İmdb web sayfası nasıl kazınır?

Veri analizini öğrenme çabasının bir parçası olarak kendi başıma Python kullanarak web kazıma öğrenmeye çalışıyorum. URL'si aşağıdaki imdb web sayfasını kazımaya çalışıyorum: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup modülünü kullanıyorum. Aşağıdaki kod kullanıyorum: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres …

10 data-mining python scraping

2

Ölçeklenebilir Aykırı Değer / Anomali Tespiti

Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri …

10 data-mining bigdata algorithms outlier

4

Büyük veri kümelerini anlamak için hangi başlangıç adımlarını kullanmalıyım ve hangi araçları kullanmalıyım?

Dikkat: Makine öğrenimi söz konusu olduğunda tam bir acemiyim ama öğrenmeye hevesliyim. Büyük bir veri setim var ve içinde desen bulmaya çalışıyorum. Veriler arasında, bilinen değişkenlerle veya verilerde yer alan ancak henüz fark etmediğim değişkenlerle gerçekte değişkenler / ilgili olan korelasyon olabilir / olmayabilir. Bunun veri analizi dünyasında tanıdık bir …

10 machine-learning data-mining tools beginner

4

Neden birkaç model neredeyse aynı sonuçları verebilir?

Ben ~ 400k kayıtları ve 9 değişkenli bir veri seti analiz ediyorum Bağımlı değişken ikili. Bir lojistik regresyon, bir regresyon ağacı, rastgele bir orman ve gradyan artırılmış bir ağaç taktım. Hepsi, başka bir veri kümesinde doğruladığımda sanal olarak aynı uyum iyiliği değerini verir. Neden böyle? Değişken oranlara ilişkin gözlemlerimin çok …

10 data-mining classification binary

1

Kullanıcı-ürün pozitif (tıklama verileri) mevcut. Negatif (tıklama gerektirmeyen veriler) nasıl oluşturulur?

Örneğin, "tıklama" olarak etiketli kullanıcı ürün verilerine sahip olmamız tavsiye edicidir. Modeli öğrenmek için tıklama ve tıklama yok verilerine ihtiyacım var. Oluşturmanın en basit yaklaşımı, tıklama verilerinde bulunmayan kullanıcı-ürün çiftlerini almaktır. Ancak, bu yanıltıcı olabilir. Misal: user1, product1 (click) user2, product2 (click) user2, product3 (click) user3, product2 (click) User1'i product1 …

10 machine-learning data-mining

1

Önceki Evrişimsel Katmanın delta terimleri ve ağırlıkları göz önüne alındığında, bir Evrişimsel Katmanın delta terimini nasıl hesaplayabilirim?

İki kıvrımlı katman (c1, c2) ve iki gizli katman (c1, c2) ile yapay bir sinir ağı eğitmeye çalışıyorum. Standart backpropagation yaklaşımını kullanıyorum. Geriye doğru geçişte, bir katmanın (delta) hata terimini bir önceki katmanın hatasına, bir önceki katmanın ağırlıklarına ve aktif katmanın geçerli katmanın aktivasyon fonksiyonuna göre gradyanına göre hesaplarım. Daha …

10 machine-learning data-mining neural-network deep-learning

«data-mining» etiketlenmiş sorular