Bir veri setini okuduktan sonra:
dataset <- read.csv("forR.csv")
- R'nin bana içerdiği dava sayısını vermesini nasıl sağlayabilirim?
- Ayrıca, iade edilen değer, ihmal edilen davaları içermez
na.omit(dataset)mi?
Bir veri setini okuduktan sonra:
dataset <- read.csv("forR.csv")
na.omit(dataset)mi?Yanıtlar:
datasetveri çerçevesi olacak. Sahip olmadığım için forR.csv, gösterim amacıyla küçük bir veri çerçevesi oluşturacağım:
set.seed(1)
dataset <- data.frame(A = sample(c(NA, 1:100), 1000, rep = TRUE),
B = rnorm(1000))
> head(dataset)
A B
1 26 0.07730312
2 37 -0.29686864
3 57 -1.18324224
4 91 0.01129269
5 20 0.99160104
6 90 1.59396745
Vaka sayısı elde etmek için, kullanan satır sayısını saymak nrow()veya NROW():
> nrow(dataset)
[1] 1000
> NROW(dataset)
[1] 1000
İhmal sonra verileri saymak için NA, aynı araçları kullanmak, ancak sarın datasetiçinde na.omit():
> NROW(na.omit(dataset))
[1] 993
Arasındaki fark NROW()ve NCOL()ve bunların küçük varyantlar ( ncol()ve nrow()) küçük versiyonları sadece boyutları (diziler, matrisler, veri çerçeveleri) olan nesneler için çalışacak olmasıdır. Büyük harf sürümleri, 1 sütun matriksi gibi işlenen vektörlerle çalışır ve verilerinizi R boş bir boyut bırakacak şekilde alt kümelere yerleştirirseniz sağlamdır.
Alternatif olarak, kullanın complete.cases()ve sum( gözlemlerin herhangi bir satır için olup olmadığını gösteren complete.cases()mantıksal bir vektör [ TRUEveya FALSE] döndürür NA.
> sum(complete.cases(dataset))
[1] 993
Kısaca:
Run dim(dataset)hem almak için n ve k , aynı zamanda kullanabilir nrow(df)ve ncol(df)(ve hatta NROW(df)ve NCOL(df)- varyantlar da diğer türleri için gereklidir).
Örn: örneğin üzerinden dönüştürürseniz dataset <- na.omit(dataset), durumlar gider ve sayılmaz. Ancak, örneğin summary(dataset) , örneğin NA davaları muhasebeleştirilir.
str(), nesnenizle ilgili diğer yararlı ayrıntıları sağladığı için bir göz atmanızı da tavsiye ederim . Bir sütunun neden olması gerektiği gibi davranmadığını sık sık açıklayabilir (sayısal, vb. Faktör).