본문 바로가기

pandas3

[Project] 비트코인 가격 예측 모델 - 1 이번 프로젝트는 비트 코인 차트 데이터를 활용하여 값을 예측해보도록 하겠습니다. 개발 언어는 python 3.8을 사용하였으며 자세한 라이브러리는 설명을 따라 참고하시면 되겠습니다. 1.1 데이터 셋 준비 먼저 핵심인 비트 코인 차트 데이터를 얻어야 합니다. 이번 프로젝트에서 활용하기 편하도록 csv 확장자 형태로 다운받아야 하는데 하단의 링크에서 내려받을 수 있습니다. https://finance.yahoo.com/quote/BTC-USD/history/ Bitcoin USD (BTC-USD) Price History & Historical Data - Yahoo Finance Discover historical prices of Bitcoin USD (BTC-USD) on Yahoo Finance. .. 2022. 8. 22.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 4. 빈도 분석 및 wordcloud 활용 영화 리뷰 데이터 분석의 마지막 단계로 리뷰에서 단어들만을 추출한 뒤, 빈도 분석과 wordcloud를 활용한 시각화를 진행해봅니다. 4.1 긍정, 부정 리뷰 키워드 분석 처음 전처리 과정을 거친 데이터 셋을 불러옵니다. (생략해도 무방) df_reviews 이전 레이블링한 긍정 리뷰와 부정 리뷰를 활용하기 위해 변수 선언으로 불러옵니다. pos_reviews = df_reviews[df_reviews['label'] == 1] neg_reviews = df_reviews[df_reviews['label'] == 0] 그다음 한글 형태소 분석을 위해 해당 리뷰들에서 한글 이외의 문자를 제거합니다. import re #-- 긍정 리뷰 pos_reviews['comment'] = pos_reviews['co.. 2022. 2. 9.
[Project] 영화 리뷰 데이터 감정분석&시각화 - 3. 리뷰 통계 분석 이전 포스팅에서 웹크롤링을 통해 데이터를 얻을 수 있었습니다. 해당 데이터를 바탕으로 전처리 과정과 통계를 분석해보도록 합니다. 3.1 리뷰 데이터 탐색 df_data.info() 해당 코드를 통해 전체 리뷰 수를 확인합니다. 칼럼을 확인해보면 영화 제목(title), 평점(score), 리뷰(comment), 레이블(label)로 분류됨을 볼 수 있습니다. 리뷰를 보면 코멘트 없이 평점만 작성된 것도 있고 중복되는 부분도 있기 때문에 이러한 부분을 전처리 합니다. # 코멘트가 없는 리뷰 데이터(NaN) 제거 df_reviews = df_data.dropna() # 중복 리뷰 제거 df_reviews = df_reviews.drop_duplicates(['comment']) df_reviews.info(.. 2022. 2. 9.
반응형