install.packages("rvest")
install.packages("stringr")
library(rvest)
library(stringr)
## 알라딘 네이버 평점 페이지 주소 ##
main_url = "https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=163788&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page="
reply_list = character()
star_list = numeric()
date_list = character()
for(page_url in 1:10){
url = paste(main_url, page_url, sep="")
content = read_html(url)
node_1 = html_nodes(content, ".score_reple p") # 댓글 내용
node_2 = html_nodes(content, ".score_result .star_score em") # 평점, 상단에 글 적는 평점(별) 제외하기 위해
node_3 = html_nodes(content, ".score_reple em:nth-child(2)") # 댓글 작성 시간
reply = html_text(node_1)
star = html_text(node_2)
date = html_text(node_3)
date = as.Date(gsub("\\.","-", date)) # . 을 -로 대체해줘
reply_list = append(reply_list, reply) # 연결
star_list = append(star_list, star)
date_list = append(date_list, date)
}
df = data.frame(reply_list, star_list, date_list) # 프레임으로 만들기
colnames(df) = c("reply","rank","date")
write.csv(df, "aladin_reply.csv", row.names = FALSE) # 파일 생성
## 실습: 다음영화에서 생일 영화를 크롤링하자.
aladin <- read.csv("aladin_reply.csv")
head(aladin)
library(rvest)
library(stringr)
main_url = "https://movie.daum.net/moviedb/grade?movieId=116523&type=netizen&page="
reply_list = character()
star_list = numeric()
date_list = character()
for(page_url in 1:5){
url = paste(main_url,page_url, sep="")
content = read_html(url)
node_1 = html_nodes(content, ".desc_review") # 댓글 내용
node_2 = html_nodes(content, ".emph_grade") # 평점, 상단에 글 적는 평점(별) 제외하기 위해
node_3 = html_nodes(content, ".info_append") # 댓글 작성 시간
reply = html_text(node_1)
reply = as.character(gsub("[\n\r]","", reply))
reply = as.character(str_trim(reply))
reply = as.character(gsub("? ( )","", reply))
star = html_text(node_2)
date = html_text(node_3)
date = as.character(gsub("\n","", date))
date = as.character(gsub("\t","", date))
date = as.Date(gsub("\\.","-", date)) # . 을 -로 대체해줘
reply_list = append(reply_list, reply) # 연결
star_list = append(star_list, star)
date_list = append(date_list, date)
}
df = data.frame(reply_list, star_list, date_list) # 프레임으로 만들기
colnames(df) = c("reply","rank","date")
write.csv(df, "lionking_reply.csv", row.names = FALSE) # 파일 생성
aladin <- read.csv("lionking_reply.csv")
head(aladin)
install.packages("rvest")
install.packages("stringr")
library(rvest)
library(stringr)
url = "https://news.v.daum.net/v/20190414215757617"
news <- read_html(url)
node <- html_nodes(news, "#harmonyContainer img")
node
for(i in 1:2){
imgurl = html_attr(node[i],"src")
download.file(imgurl,destfile = paste("test",i,".jpg"),mode = "wb")
}