[R]다음 영화 평점 크롤링

2019. 8. 12. 16:11

install.packages("rvest")
install.packages("stringr")

library(rvest)
library(stringr)

## 알라딘 네이버 평점 페이지 주소 ##
main_url = "https://movie.naver.com/movie/bi/mi/pointWriteFormList.nhn?code=163788&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page="

reply_list = character()
star_list = numeric()
date_list = character()

for(page_url in 1:10){
    
    url = paste(main_url, page_url, sep="")
    content = read_html(url)
    
    node_1 = html_nodes(content, ".score_reple p")  # 댓글 내용
    node_2 = html_nodes(content, ".score_result .star_score em")  # 평점, 상단에 글 적는 평점(별) 제외하기 위해 
    node_3 = html_nodes(content, ".score_reple em:nth-child(2)")  # 댓글 작성 시간 
    
    reply = html_text(node_1)
    star = html_text(node_2)
    date = html_text(node_3)
    date = as.Date(gsub("\\.","-", date))  # . 을 -로 대체해줘 
    
    reply_list = append(reply_list, reply)  # 연결
    star_list = append(star_list, star)
    date_list = append(date_list, date)
    
}

df = data.frame(reply_list, star_list, date_list)  # 프레임으로 만들기
colnames(df) = c("reply","rank","date")

write.csv(df, "aladin_reply.csv", row.names = FALSE) # 파일 생성

## 실습: 다음영화에서 생일 영화를 크롤링하자. 


aladin <- read.csv("aladin_reply.csv")
head(aladin)


library(rvest)
library(stringr)

main_url =  "https://movie.daum.net/moviedb/grade?movieId=116523&type=netizen&page="


reply_list = character()
star_list = numeric()
date_list = character()


for(page_url in 1:5){
    
    url = paste(main_url,page_url, sep="")
    content = read_html(url)
    
    node_1 = html_nodes(content, ".desc_review")  # 댓글 내용
    node_2 = html_nodes(content, ".emph_grade")  # 평점, 상단에 글 적는 평점(별) 제외하기 위해 
    node_3 = html_nodes(content, ".info_append")  # 댓글 작성 시간 
    
    
    reply = html_text(node_1)
    reply = as.character(gsub("[\n\r]","", reply))
    reply = as.character(str_trim(reply))
    reply = as.character(gsub("? ( )","", reply))
    star = html_text(node_2)
    date = html_text(node_3)
    date = as.character(gsub("\n","", date))
    date = as.character(gsub("\t","", date))
    date = as.Date(gsub("\\.","-", date))  # . 을 -로 대체해줘 
    
    reply_list = append(reply_list, reply)  # 연결
    star_list = append(star_list, star)
    date_list = append(date_list, date)
    
}


df = data.frame(reply_list, star_list, date_list)  # 프레임으로 만들기
colnames(df) = c("reply","rank","date")

write.csv(df, "lionking_reply.csv", row.names = FALSE) # 파일 생성

aladin <- read.csv("lionking_reply.csv")
head(aladin)



install.packages("rvest")
install.packages("stringr")

library(rvest)
library(stringr)

url = "https://news.v.daum.net/v/20190414215757617"
news <- read_html(url)
node <- html_nodes(news, "#harmonyContainer img")
node
for(i in 1:2){
    imgurl = html_attr(node[i],"src")
    download.file(imgurl,destfile = paste("test",i,".jpg"),mode = "wb")
}

저작자표시 비영리 (새창열림)

'IT > 머신러닝 in Python' 카테고리의 다른 글

텍스트 분석이란? (0)	2019.08.13
[R] 네이버 크롤링 (0)	2019.08.12
판다스(Pandas) 시각화 (0)	2019.08.08
판다스(Pandas) 결손 데이터 처리 및 apply (0)	2019.08.08
판다스(Pandas) 정렬, Aggregation, groupby (0)	2019.08.08

초롱스쿨

[R]다음 영화 평점 크롤링

'IT > 머신러닝 in Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바