logo

[r-basic] dplyr 소개

dplyr은 데이터를 아주 편리하게 다룰 수 있는 방법들을 제공하는 r 패키지이다.

 

설치

아래와 같이 입력한다

install.packages('dplyr')
 

불러오기

library(dplyr)

Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


매출 데이터를 불러온다

매출 = read.csv("data_mac.csv")
 

filter()

아래와 같이 입력한다.

1월달 자료만 뽑아 낸다

filter(매출, 매출월 ==1)
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451
2   1      화   b    여   24922
3   1      수   c    남    8835
4   1      목   d    여   13720

...
 

dplyr을 추가적으로 설치해서 사용하는 이유

  • 빠른 속도
  • dplyr의 chain 기능 (연속적인 필터링이 편리하게 사용 가능하다)
 

체인 기능

%>%을 이용하여 사용한다.

아래와 같이 입력한다

'매출 데이터를 filter에 넣어 매출월이 1월인것만 추출해라'의 뜻이다.

매출 %>% filter(매출월 ==1)
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451
2   1      화   b    여   24922
3   1      수   c    남    8835
4   1      목   d    여   13720

...

%>%성별에 대한 추가 체인을 설정한다.

매출 %>%
    filter(매출월 ==1) %>%
    filter(성별 == '남')
    매출월 요일 점포 성별 구매건수
1   1      월   a    남   21451
2   1      수   c    남    8835
3   1      금   e    남   10826
4   1      일   g    남    2471

...

%>%요일에 대한 추가 체인을 설정한다.

매출 %>%
    filter(매출월 ==1) %>%
    filter(성별 == '남') %>%
    filter(요일 == '월')
   매출월 요일 점포 성별 구매건수
1  1      월   a    남   21451
2  1      월   o    남   49704
3  1      월   n    남     615
4  1      월   m    남   34339

...
Previous
반복문 - for