Veri Bilimi

2

Pandalar veri çerçevesinde satırlar üzerinde yineleme yaparak yeni sütunlar oluşturma

Böyle bir pandalar veri çerçevesi (X11) var: Aslında dx99 kadar 99 sütun var dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 25041,40391,5856 vb. Hücre …

10 python data-cleaning pandas anaconda

7

Veri bilimi projeleri adım adım açıklandı mı?

İlgili özellikleri, model seçim prosedürünü vb. Nasıl seçtiklerini açıklayan birkaç pratik örneğin adım adım verildiği bir web sitesi veya kitap arıyorum.

10 machine-learning feature-selection

3

Hangisi daha hızlı: Büyük JSON veri kümelerinde PostgreSQL vs MongoDB?

Ben ~ 300 bayt her 9m JSON nesneleri ile büyük bir veri kümesi var. Bunlar bir bağlantı toplayıcısının gönderileridir: temel olarak bağlantılar (bir URL, başlık ve yazar kimliği) ve yorumlar (metin ve yazar kimliği) + meta veriler. Alt kayıtlara işaret eden kimlikleri olan bir dizi alanına sahip olmaları dışında, bir …

10 data-mining bigdata databases sql mongodb

3

Benzer belgeleri bulmak için vektör uzay modeli kosinüs tf-idf

Milyondan fazla belgeye sahip olmak Belirli bir belge için vektör uzay modelinde olduğu gibi kosinüs kullanarak benzer belgeler bulmak istiyorum d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tüm tf, bu tf-idf'deki gibi daha uzun belgelere yönelik önyargıları önlemek için artırılmış frekans kullanılarak normalleştirilmiştir : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} Tümünü önceden …

10 text-mining similarity

1

Denetimli öğrenme algoritmasında çoklu etiketler

Karşılık gelen konuları içeren bir metin topluluğum var. Örneğin "A rapper Tupac was shot in LA"ve olarak etiketlendi ["celebrity", "murder"]. Temel olarak her özellik vektöründe birçok etiket olabilir (aynı miktarda değil. İlk özellik vektöründe 3 etiket, ikinci 1, üçüncü 5 olabilir). Her metne karşılık gelen tek bir etiketim olsaydı, bir …

10 machine-learning text-mining

1

Kıvılcım, tek bir RDD'yi ikiye en iyi şekilde böler

Belirli parametrelere göre gruplara ayırmak için gereken büyük bir veri kümesi var. İşin mümkün olduğunca verimli bir şekilde işlenmesini istiyorum. Bunu yapmanın iki yolunu hayal edebilirim Seçenek 1 - Orijinal RDD'den harita oluşturma ve filtreleme def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 …

10 apache-spark pyspark

4

İmdb web sayfası nasıl kazınır?

Veri analizini öğrenme çabasının bir parçası olarak kendi başıma Python kullanarak web kazıma öğrenmeye çalışıyorum. URL'si aşağıdaki imdb web sayfasını kazımaya çalışıyorum: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoup modülünü kullanıyorum. Aşağıdaki kod kullanıyorum: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres …

10 data-mining python scraping

2

Çevrimiçi Makine Öğrenimi için Kütüphaneler

Stok verilerini tahmin etmek için çevrimiçi öğrenme gerçekleştirmek için paketler (python, R veya bağımsız bir pakette) arıyorum. Vowpal Wabbit'i buldum ve okudum ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), oldukça umut verici görünüyor ama orada başka paketler olup olmadığını merak ediyorum. Şimdiden teşekkürler.

10 machine-learning online-learning

1

R'deki grafikler için kütüphaneler (etiket yayılma algoritmaları / sık sık alt madencilik)

Sorunun genel tanımı Bazı köşeleri 3 veya 4 olası değerleri olan bir tür etiketli bir grafik var. Diğer köşeler için tür bilinmiyor. Amacım, etiketlenmemiş köşelerin türünü tahmin etmek için grafiği kullanmaktır. Olası çerçeve Bunun, literatürü okumama dayanarak etiket yayılım problemlerinin genel çerçevesine uyduğundan şüpheleniyorum (örneğin, bu makaleye ve bu makaleye …

10 classification r graphs

3

Günlük dosyası analizi: değer kısmını bilgi bölümünden ayıklama

Ürünlerimizden birinin birkaç günlük dosyası üzerinde veri kümesi oluşturmaya çalışıyorum. Farklı günlük dosyalarının kendi düzeni ve içeriği vardır; Onları başarıyla grupladım, sadece bir adım kaldı ... Gerçekten, günlük "mesajlar" en iyi bilgidir. Tüm bu mesajların kapsamlı bir listesine sahip değilim ve bu liste her gün değişebilir çünkü bu dayalı sabit …

10 text-mining clustering

2

Ölçeklenebilir Aykırı Değer / Anomali Tespiti

Hadoop, Kovan, Elastik Arama (diğerleri arasında) kullanarak büyük bir veri altyapısı kurmaya çalışıyorum ve bazı veri kümeleri üzerinde bazı algoritmalar çalıştırmak istiyorum. Algoritmaların kendilerinin ölçeklenebilir olmasını istiyorum, bu yüzden Weka, R ve hatta RHadoop gibi araçları kullanmak hariç tutulur. Apache Mahout Kütüphanesi iyi bir seçenek gibi görünüyor ve bu özellikleri …

10 data-mining bigdata algorithms outlier

2

Gürültülü dizeler listesinden standart dizeyi ayıkla

Binlerce dizgi listem var ve her listenin yaklaşık 10 dizesi var. Belirli bir listedeki dizelerin çoğu çok benzerdir, ancak bazı dizeler diğerleriyle tamamen ilgisizdir ve bazı dizeler alakasız kelimeler içerir. Kanonik bir ipin gürültülü varyasyonları olarak düşünülebilir. Her liste bu standart dizeye dönüştürecek bir algoritma veya kütüphane arıyorum. İşte böyle …

10 nlp similarity information-retrieval

2

satrançta zamansal farkın uygulanması

Alfa-beta budama algoritmasını kullanan bir satranç programı ve malzeme, kral güvenlik, hareketlilik, piyon yapısı ve sıkışmış parçalar vb. Özellikleri kullanarak konumları değerlendiren bir değerlendirme fonksiyonu geliştiriyorum. dan türetilmiş f( p ) = w1⋅ malzeme + w2⋅ güvenlik + w3⋅ hareketlilik + w4⋅ piyon yapısı + w5⋅ sıkışmış parçalarf(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = …

10 machine-learning algorithms reinforcement-learning

4

Büyük veri kümelerini anlamak için hangi başlangıç adımlarını kullanmalıyım ve hangi araçları kullanmalıyım?

Dikkat: Makine öğrenimi söz konusu olduğunda tam bir acemiyim ama öğrenmeye hevesliyim. Büyük bir veri setim var ve içinde desen bulmaya çalışıyorum. Veriler arasında, bilinen değişkenlerle veya verilerde yer alan ancak henüz fark etmediğim değişkenlerle gerçekte değişkenler / ilgili olan korelasyon olabilir / olmayabilir. Bunun veri analizi dünyasında tanıdık bir …

10 machine-learning data-mining tools beginner

3

Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?

Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi. Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, …

10 bigdata statistics efficiency scalability