본문 바로가기

웹크롤링2

[Project] 영화 리뷰 데이터 감정분석&시각화 - 4. 빈도 분석 및 wordcloud 활용 영화 리뷰 데이터 분석의 마지막 단계로 리뷰에서 단어들만을 추출한 뒤, 빈도 분석과 wordcloud를 활용한 시각화를 진행해봅니다. 4.1 긍정, 부정 리뷰 키워드 분석 처음 전처리 과정을 거친 데이터 셋을 불러옵니다. (생략해도 무방) df_reviews 이전 레이블링한 긍정 리뷰와 부정 리뷰를 활용하기 위해 변수 선언으로 불러옵니다. pos_reviews = df_reviews[df_reviews['label'] == 1] neg_reviews = df_reviews[df_reviews['label'] == 0] 그다음 한글 형태소 분석을 위해 해당 리뷰들에서 한글 이외의 문자를 제거합니다. import re #-- 긍정 리뷰 pos_reviews['comment'] = pos_reviews['co.. 2022. 2. 9.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 2. 웹페이지 크롤링 이전 포스팅에서 필요한 환경 구성은 모두 마쳤으며, 필요한 데이터를 웹사이트에서 크롤링하는 것까지 완료하였습니다. 이제 분석과 시각화에 앞서 필요한 데이터를 웹페이지에서 크롤링하도록 합니다. 2.1 영화 리뷰 사이트 크롤링 pip install beautifulsoup4 BeautifulSoup이 설치되어 있지 않다면, 해당 커맨드를 통해 설치를 완료합니다. from bs4 import BeautifulSoup import urllib.request f = open('./movie_reviews.txt', 'w', encoding='UTF-8') #-- 500페이지까지 크롤링 for no in range(1, 501): url = 'https://movie.naver.com/movie/point/af/l.. 2022. 2. 9.
반응형