Bir veri setini okuduktan sonra:
dataset <- read.csv("forR.csv")
- R'nin bana içerdiği dava sayısını vermesini nasıl sağlayabilirim?
- Ayrıca, iade edilen değer, ihmal edilen davaları içermez
na.omit(dataset)
mi?
Bir veri setini okuduktan sonra:
dataset <- read.csv("forR.csv")
na.omit(dataset)
mi?Yanıtlar:
dataset
veri çerçevesi olacak. Sahip olmadığım için forR.csv
, gösterim amacıyla küçük bir veri çerçevesi oluşturacağım:
set.seed(1)
dataset <- data.frame(A = sample(c(NA, 1:100), 1000, rep = TRUE),
B = rnorm(1000))
> head(dataset)
A B
1 26 0.07730312
2 37 -0.29686864
3 57 -1.18324224
4 91 0.01129269
5 20 0.99160104
6 90 1.59396745
Vaka sayısı elde etmek için, kullanan satır sayısını saymak nrow()
veya NROW()
:
> nrow(dataset)
[1] 1000
> NROW(dataset)
[1] 1000
İhmal sonra verileri saymak için NA
, aynı araçları kullanmak, ancak sarın dataset
içinde na.omit()
:
> NROW(na.omit(dataset))
[1] 993
Arasındaki fark NROW()
ve NCOL()
ve bunların küçük varyantlar ( ncol()
ve nrow()
) küçük versiyonları sadece boyutları (diziler, matrisler, veri çerçeveleri) olan nesneler için çalışacak olmasıdır. Büyük harf sürümleri, 1 sütun matriksi gibi işlenen vektörlerle çalışır ve verilerinizi R boş bir boyut bırakacak şekilde alt kümelere yerleştirirseniz sağlamdır.
Alternatif olarak, kullanın complete.cases()
ve sum
( gözlemlerin herhangi bir satır için olup olmadığını gösteren complete.cases()
mantıksal bir vektör [ TRUE
veya FALSE
] döndürür NA
.
> sum(complete.cases(dataset))
[1] 993
Kısaca:
Run dim(dataset)
hem almak için n ve k , aynı zamanda kullanabilir nrow(df)
ve ncol(df)
(ve hatta NROW(df)
ve NCOL(df)
- varyantlar da diğer türleri için gereklidir).
Örn: örneğin üzerinden dönüştürürseniz dataset <- na.omit(dataset)
, durumlar gider ve sayılmaz. Ancak, örneğin summary(dataset)
, örneğin NA davaları muhasebeleştirilir.
str()
, nesnenizle ilgili diğer yararlı ayrıntıları sağladığı için bir göz atmanızı da tavsiye ederim . Bir sütunun neden olması gerektiği gibi davranmadığını sık sık açıklayabilir (sayısal, vb. Faktör).