logo

[r-crawling] 이미지, 첨부파일 다운 받기

httr과 rvest 라이브러리를 사용합니다

library(httr)
library(rvest)

httr 라이브러리의 매뉴얼 PDF 파일을 가져옵니다

res = GET('http://cran.r-project.org/web/packages/httr/httr.pdf')

가져온 파일을 httr.pdf 라는 이름으로 저장합니다

writeBin(content(res, 'raw'), 'httr.pdf')

개9 사이트의 게시물을 엽니다

h = html('http://gae9.com/trend/1DRlnSN7k1nb#!hot')

이미지만 가져옵니다

imgs = html_nodes(h, 'div.trend-post-content img')

이미지의 주소를 나타내는 src 어트리뷰트를 뽑아냅니다

img.src = html_attr(imgs, 'src')

주소에 ssproxy라는 표현이 들어간 이미지만 뽑아냅니다

img.src = img.src[grep('ssproxy', img.src)]

각 주소의 이미지를 다운받아 001.jpg, 002.jpg와 같은 형식으로 저장합니다

for(i in 1:length(img.src)){
  res = GET(img.src[i])
  writeBin(content(res, 'raw'), sprintf('%03d.jpg', i))
}
Previous
뉴스, 게시판 등 글 목록에서 글의 URL만 뽑아내기