본문 바로가기

Project/Movie Review Data Visualization4

[Project] 영화 리뷰 데이터 감정분석&시각화 - 4. 빈도 분석 및 wordcloud 활용 영화 리뷰 데이터 분석의 마지막 단계로 리뷰에서 단어들만을 추출한 뒤, 빈도 분석과 wordcloud를 활용한 시각화를 진행해봅니다. 4.1 긍정, 부정 리뷰 키워드 분석 처음 전처리 과정을 거친 데이터 셋을 불러옵니다. (생략해도 무방) df_reviews 이전 레이블링한 긍정 리뷰와 부정 리뷰를 활용하기 위해 변수 선언으로 불러옵니다. pos_reviews = df_reviews[df_reviews['label'] == 1] neg_reviews = df_reviews[df_reviews['label'] == 0] 그다음 한글 형태소 분석을 위해 해당 리뷰들에서 한글 이외의 문자를 제거합니다. import re #-- 긍정 리뷰 pos_reviews['comment'] = pos_reviews['co.. 2022. 2. 9.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 3. 리뷰 통계 분석 이전 포스팅에서 웹크롤링을 통해 데이터를 얻을 수 있었습니다. 해당 데이터를 바탕으로 전처리 과정과 통계를 분석해보도록 합니다. 3.1 리뷰 데이터 탐색 df_data.info() 해당 코드를 통해 전체 리뷰 수를 확인합니다. 칼럼을 확인해보면 영화 제목(title), 평점(score), 리뷰(comment), 레이블(label)로 분류됨을 볼 수 있습니다. 리뷰를 보면 코멘트 없이 평점만 작성된 것도 있고 중복되는 부분도 있기 때문에 이러한 부분을 전처리 합니다. # 코멘트가 없는 리뷰 데이터(NaN) 제거 df_reviews = df_data.dropna() # 중복 리뷰 제거 df_reviews = df_reviews.drop_duplicates(['comment']) df_reviews.info(.. 2022. 2. 9.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 2. 웹페이지 크롤링 이전 포스팅에서 필요한 환경 구성은 모두 마쳤으며, 필요한 데이터를 웹사이트에서 크롤링하는 것까지 완료하였습니다. 이제 분석과 시각화에 앞서 필요한 데이터를 웹페이지에서 크롤링하도록 합니다. 2.1 영화 리뷰 사이트 크롤링 pip install beautifulsoup4 BeautifulSoup이 설치되어 있지 않다면, 해당 커맨드를 통해 설치를 완료합니다. from bs4 import BeautifulSoup import urllib.request f = open('./movie_reviews.txt', 'w', encoding='UTF-8') #-- 500페이지까지 크롤링 for no in range(1, 501): url = 'https://movie.naver.com/movie/point/af/l.. 2022. 2. 9.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 1. 라이브러리(KoNLPy, wordcloud) 설치 이번 프로젝트는 웹사이트의 영화 리뷰 데이터를 크롤링 해서 분석 및 시각화해보도록 합니다. 개발 언어는 python-3.8을 활용하였고 jupyter notebook 환경에서 실시하였습니다. 프로젝트에 앞서 필요한 라이브러리 설치를 먼저 실시해보도록 하겠습니다. 1.1 라이브러리 및 툴 설치 코드를 작성하는데 앞서 필요한 라이브러리와 툴을 설치하도록 한다. (1) KoNLPy 한국어 정보처리를 위해 필요한 python 패키지로 자연어처리에서 형태소를 분리하기위해 필요한 한국어 데이터 전처리 패키지 입니다. KoNLPy는 자바VM 환경에서 동작하므로 JDK와 JPype 또한 설치가 필요합니다. (일반적인 pip 커맨드로 설치시 오류 발생) a. java JDK 설치 https://www.oracle.com.. 2022. 2. 9.
반응형