본문 바로가기
6.크롤링

[R크롤링] 자바스크립트 홈페이지 크롤링(R셀레니움)

by makhimh 2021. 4. 7.

1. C드라이브에 폴더생성

C드라이브에 R_Seleniom 이라는 폴더 생성

 

2. 파일 다운로드

아래 세 파일을 다운로드함. 

 

1) 셀레니움 다운로드

www.seleniumhq.org/download/

 

2) geckodriver 다운로드

github.com/mozilla/geckodriver/releases/tag/v0.17.0

 

3) 크롬 드라이버 다움로드 

sites.google.com/a/chromium.org/chromedriver/downloads

 

크롬드라이버는 본인 드라이버 버전과 일치하도록 다운로드함. [도움말]-[크롬정보]에서 버전확인. 앞에 두자리가 버전임. 

 

3. 커맨드 창에 코드실행

커맨드 창을 열고 아래 코드를 실행함. 3.141.59는 다운받은 셀레늄 서버 파일명에서 가져올 것. 

 

cd C:\Rselenium
java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.141.59.jar -port 4445

 

4. 패키지 설치

아래 네 패키지 설치. 처음 두개는 셀레니움 패키지, 나머지 둘은 크롤링할때 쓸 패키지. 

install.packages('RSelenium')
install.packages('seleniumPipes')
install.packages('rvest')
install.packages('httr')

 

5. 크롬 포트 연결, 크롬 열기, 원하는 페이지 열기

#크롬 포트 연결
remDr = remoteDriver(
  remoteServerAddr="localhost",
  port=4445L,
  browserName="chrome")

#크롬 열기
remDr$open()



#원하는 페이지 열기
remDr$navigate('원하는 url')

 

댓글