Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap




3
Benzer belgeleri bulmak için vektör uzay modeli kosinüs tf-idf
Milyondan fazla belgeye sahip olmak Belirli bir belge için vektör uzay modelinde olduğu gibi kosinüs kullanarak benzer belgeler bulmak istiyorum d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tüm tf, bu tf-idf'deki gibi daha uzun belgelere yönelik önyargıları önlemek için artırılmış frekans kullanılarak normalleştirilmiştir : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} Tümünü önceden …

1
Denetimli öğrenme algoritmasında çoklu etiketler
Karşılık gelen konuları içeren bir metin topluluğum var. Örneğin "A rapper Tupac was shot in LA"ve olarak etiketlendi ["celebrity", "murder"]. Temel olarak her özellik vektöründe birçok etiket olabilir (aynı miktarda değil. İlk özellik vektöründe 3 etiket, ikinci 1, üçüncü 5 olabilir). Her metne karşılık gelen tek bir etiketim olsaydı, bir …

1
Kıvılcım, tek bir RDD'yi ikiye en iyi şekilde böler
Belirli parametrelere göre gruplara ayırmak için gereken büyük bir veri kümesi var. İşin mümkün olduğunca verimli bir şekilde işlenmesini istiyorum. Bunu yapmanın iki yolunu hayal edebilirim Seçenek 1 - Orijinal RDD'den harita oluşturma ve filtreleme def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 …

4
İmdb web sayfası nasıl kazınır?
Veri analizini öğrenme çabasının bir parçası olarak kendi başıma Python kullanarak web kazıma öğrenmeye çalışıyorum. URL'si aşağıdaki imdb web sayfasını kazımaya çalışıyorum: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup modülünü kullanıyorum. Aşağıdaki kod kullanıyorum: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres …

2
Çevrimiçi Makine Öğrenimi için Kütüphaneler
Stok verilerini tahmin etmek için çevrimiçi öğrenme gerçekleştirmek için paketler (python, R veya bağımsız bir pakette) arıyorum. Vowpal Wabbit'i buldum ve okudum ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), oldukça umut verici görünüyor ama orada başka paketler olup olmadığını merak ediyorum. Şimdiden teşekkürler.

1
R'deki grafikler için kütüphaneler (etiket yayılma algoritmaları / sık sık alt madencilik)
Sorunun genel tanımı Bazı köşeleri 3 veya 4 olası değerleri olan bir tür etiketli bir grafik var. Diğer köşeler için tür bilinmiyor. Amacım, etiketlenmemiş köşelerin türünü tahmin etmek için grafiği kullanmaktır. Olası çerçeve Bunun, literatürü okumama dayanarak etiket yayılım problemlerinin genel çerçevesine uyduğundan şüpheleniyorum (örneğin, bu makaleye ve bu makaleye …

3
Günlük dosyası analizi: değer kısmını bilgi bölümünden ayıklama
Ürünlerimizden birinin birkaç günlük dosyası üzerinde veri kümesi oluşturmaya çalışıyorum. Farklı günlük dosyalarının kendi düzeni ve içeriği vardır; Onları başarıyla grupladım, sadece bir adım kaldı ... Gerçekten, günlük "mesajlar" en iyi bilgidir. Tüm bu mesajların kapsamlı bir listesine sahip değilim ve bu liste her gün değişebilir çünkü bu dayalı sabit …

2
Ölçeklenebilir Aykırı Değer / Anomali Tespiti
Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri …

2
Gürültülü dizeler listesinden standart dizeyi ayıkla
Binlerce dizgi listem var ve her listenin yaklaşık 10 dizesi var. Belirli bir listedeki dizelerin çoğu çok benzerdir, ancak bazı dizeler diğerleriyle tamamen ilgisizdir ve bazı dizeler alakasız kelimeler içerir. Kanonik bir ipin gürültülü varyasyonları olarak düşünülebilir. Her liste bu standart dizeye dönüştürecek bir algoritma veya kütüphane arıyorum. İşte böyle …

2
satrançta zamansal farkın uygulanması
Alfa-beta budama algoritmasını kullanan bir satranç programı ve malzeme, kral güvenlik, hareketlilik, piyon yapısı ve sıkışmış parçalar vb. Özellikleri kullanarak konumları değerlendiren bir değerlendirme fonksiyonu geliştiriyorum. dan türetilmiş f( p ) = w1⋅ malzeme + w2⋅ güvenlik + w3⋅ hareketlilik + w4⋅ piyon yapısı + w5⋅ sıkışmış parçalarf(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = …

4
Büyük veri kümelerini anlamak için hangi başlangıç ​​adımlarını kullanmalıyım ve hangi araçları kullanmalıyım?
Dikkat: Makine öğrenimi söz konusu olduğunda tam bir acemiyim ama öğrenmeye hevesliyim. Büyük bir veri setim var ve içinde desen bulmaya çalışıyorum. Veriler arasında, bilinen değişkenlerle veya verilerde yer alan ancak henüz fark etmediğim değişkenlerle gerçekte değişkenler / ilgili olan korelasyon olabilir / olmayabilir. Bunun veri analizi dünyasında tanıdık bir …

3
Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?
Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi. Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.