Programlama data.table

8

Data.table'daki sütun sınıflarını dönüştürün

Data.table'ı kullanırken sorun yaşıyorum: Sütun sınıflarını nasıl dönüştürürüm? İşte basit bir örnek: data.frame ile onu data.table ile dönüştürmede sorun yaşamıyorum, nasıl yapacağımı bilmiyorum: df <- data.frame(ID=c(rep("A", 5), rep("B",5)), Quarter=c(1:5, 1:5), value=rnorm(10)) #One way: http://stackoverflow.com/questions/2851015/r-convert-data-frame-columns-from-factors-to-characters df <- data.frame(lapply(df, as.character), stringsAsFactors=FALSE) #Another way df[, "value"] <- as.numeric(df[, "value"]) library(data.table) dt <- data.table(ID=c(rep("A", …

118 r data.table

2

Data.table'da bir anahtar ayarlamanın amacı nedir?

Data.table kullanıyorum ve bir anahtar ayarlamamı gerektiren birçok işlev var (örneğin X[Y]). Bu nedenle, veri tablolarımdaki anahtarları doğru şekilde ayarlamak için bir anahtarın ne yaptığını anlamak isterim. Okuduğum kaynaklardan biri ?setkey. setkey()a'yı sıralar data.tableve sıralı olarak işaretler. Sıralanan sütunlar anahtardır. Anahtar, herhangi bir sıradaki herhangi bir sütun olabilir. Sütunlar her …

113 r data.table

8

Bir R veri çerçevesinden "Inf" değerlerini temizleme

R'de, Infbir veri çerçevesini dönüştürdüğümde bazı değerler oluşturan bir işlemim var. Bu Infdeğerleri değerlere dönüştürmek isterim NA. Sahip olduğum kod büyük veriler için yavaş, bunu yapmanın daha hızlı bir yolu var mı? Aşağıdaki veri çerçevesine sahip olduğumu varsayalım: dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) Aşağıdaki tek bir durumda çalışır: …

103 r dataframe data.table

5

Data.frame'leri R'de birleştirmenin / birleştirmenin en hızlı yolu nedir?

Örneğin (çoğu temsili örneğin olup olmadığından emin değil): N <- 1e6 d1 <- data.frame(x=sample(N,N), y1=rnorm(N)) d2 <- data.frame(x=sample(N,N), y2=rnorm(N)) Şimdiye kadar sahip olduğum şey bu: d <- merge(d1,d2) # 7.6 sec library(plyr) d <- join(d1,d2) # 2.9 sec library(data.table) dt1 <- data.table(d1, key="x") dt2 <- data.table(d2, key="x") d <- data.frame( …

97 performance r join merge data.table

6

Gruba göre en yüksek değerleri elde etmek

İşte örnek bir veri çerçevesi: d <- data.frame( x = runif(90), grp = gl(3, 30) ) Her bir değeri için dilk 5 değerine sahip satırları içeren alt kümeyi istiyorum .xgrp Base-R'yi kullanarak yaklaşımım şöyle bir şey olurdu: ordered <- d[order(d$x, decreasing = TRUE), ] splits <- split(ordered, ordered$grp) heads <- …

93 r data.table dplyr

5

Değişken adları bir karakter vektöründe depolandığında data.table'ı seçin / atayın

data.tableDeğişken adları bir karakter vektöründe saklanıyorsa, a'daki değişkenlere nasıl başvurursunuz ? Örneğin, bu bir data.frame: df <- data.frame(col1 = 1:3) colname <- "col1" df[colname] <- 4:6 df # col1 # 1 4 # 2 5 # 3 6 Aynı işlemi bir data.table için :=notasyonlu veya notasız olarak nasıl gerçekleştirebilirim ? …

92 r data.table

4

dplyr on data.table, gerçekten data.table kullanıyorum?

Ben kullanırsanız dplyr bir üstündeki sözdizimi datatable hala dplyr sözdizimini kullanırken, ben Datatable tüm hızı faydaları alabilirim? Başka bir deyişle, datatable'ı dplyr sözdizimi ile sorgularsam yanlış kullanır mıyım? Yoksa tüm gücünden yararlanmak için saf verilebilir sözdizimi kullanmam gerekiyor mu? Herhangi bir tavsiye için şimdiden teşekkürler. Kod Örneği: library(data.table) library(dplyr) diamondsDT …

91 r data.table dplyr

1

Data.table'da: = operatörünü ne zaman kullanmalıyım?

data.tablenesnelerin artık bir: = operatörü var. Bu operatörü diğer tüm atama operatörlerinden farklı kılan nedir? Ayrıca, kullanım alanları nelerdir, ne kadar hızlıdır ve ne zaman kaçınılmalıdır?

88 r data.table colon-equals

5

Data.table sütunlarında metin dizesini bölme

Bir CSV dosyasındaki verileri a'ya okuyan data.tableve ardından bir sütundaki metni birkaç yeni sütuna bölen bir komut dosyam var. Bunu yapmak için şu anda lapplyve strsplitişlevlerini kullanıyorum . İşte bir örnek: library("data.table") df = data.table(PREFIX = c("A_B","A_C","A_D","B_A","B_C","B_D"), VALUE = 1:6) dt = as.data.table(df) # split PREFIX into new columns dt$PX …

87 r data.table

7

Bir data.table'da belirtilen her sütuna aynı işlev nasıl uygulanır

Aynı işlemi belirli sütunlarda gerçekleştirmek istediğim bir data.table var. Bu sütunların isimleri bir karakter vektöründe verilmiştir. Bu özel örnekte, tüm bu sütunları -1 ile çarpmak istiyorum. Bazı oyuncak verileri ve ilgili sütunları belirten bir vektör: library(data.table) dt <- data.table(a = 1:3, b = 1:3, d = 1:3) cols <- c("a", …

86 r data.table

12

dplyr, satırların bir alt kümesindeki birkaç sütunu değiştirir / değiştirir

Dplyr tabanlı bir iş akışını deneme sürecindeyim (alışkın olduğum çoğunlukla data.table kullanmak yerine) ve eşdeğer bir dplyr çözümü bulamadığım bir sorunla karşılaştım . Genellikle, tek bir koşula bağlı olarak birkaç sütunu koşullu olarak güncellemem / değiştirmem gereken senaryo ile karşılaşıyorum. İşte data.table çözümümle birlikte bazı örnek kod: library(data.table) # Create …

86 r data.table dplyr

10

Seçili sütunlar için bir tablodaki NA değerleri nasıl değiştirilir

NA değerlerini değiştirmeyle ilgili birçok gönderi var. Aşağıdaki tablo / çerçevedeki NA'ların aşağıdakilerle değiştirilebileceğinin farkındayım: x[is.na(x)]<-0 Ancak, bunu yalnızca belirli sütunlarla sınırlamak istersem ne olur? Size bir örnek göstereyim. İlk olarak, bir veri kümesiyle başlayalım. set.seed(1234) x <- data.frame(a=sample(c(1,2,NA), 10, replace=T), b=sample(c(1,2,NA), 10, replace=T), c=sample(c(1:5,NA), 10, replace=T)) Hangi verir: a …

82 r replace dataframe data.table na

5

data.table grupsız doğrusal enterpolasyon NA değerleri

Gruplar olmadan bir data.table içindeki bazı NA değerlerini doldurmak istedim. Lütfen zaman ve mesafeleri temsil eden bu veri özetini göz önünde bulundurun: library(data.table) df <- data.frame(time = seq(7173, 7195, 1), dist = c(31091.33, NA, 31100.00, 31103.27, NA, NA, NA, NA, 31124.98, NA,31132.81, NA, NA, NA, NA, 31154.19, NA, 31161.47, NA, …

18 r data.table

4

Veri tablosu veya igraph kullanarak gruplara göre hemen komşuları bulun

Bir data.table var : groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"), code_1 = c(2,2,2,7,8,NA,5), code_2 = c(NA,3,NA,3,NA,NA,2), code_3 = c(4,1,1,4,4,1,8)) group code_1 code_2 code_3 A 2 NA 4 B 2 3 1 C 2 NA 1 D 7 3 4 E 8 NA 4 F NA …

14 r data.table igraph

1

Bir veri tablosunu filtrelerken ANDing üzerinden zincirlemenin performans avantajları

Benzer görevleri tek bir hatta toparlama alışkanlığım var. Örneğin, filtrelemem gerekirse a,b , ve cbir veri tablosunda, ben birinde onları biraraya koyacağım []Eleştiri ile. Dün, özel durumumda bunun inanılmaz derecede yavaş olduğunu ve bunun yerine zincirleme filtrelerini test ettiğini fark ettim. Aşağıda bir örnek ekledim. İlk olarak, rastgele sayı üretecini …

12 r data.table

«data.table» etiketlenmiş sorular