
본 커널은 Porto Seguro의 금메달 EDA 커널을 쉽게 이해하도록 작성한 Korean Starter들을 위한 커널입니다. 대부분의 내용은 이미 공개되어 있는 커널이며 이해하기 쉽게 한글로 번역, 설명을 추가한 커널입니다 참고 부탁드립니다. 본 커널은 비식별 Feature를 사용하는 대회의 EDA를 위한 커널로, 모델링 및 submission은 진행하지 않습니다. 초보자의 입장에서 초보자분들을 위해 커널을 작성하는 만큼, 쉽게 설명하고자 하였습니다. 데이터를 이해함에 있어서 큰 도움을 주신 참고 코드 작성자 분께 감사합니다 :) 금메달 커널 원본: https://www.kaggle.com/bertcarremans/data-preparation-exploration Data Preparation & ..

BERT를 이용하여 정치기사의 정치 성향을 분류하는 프로젝트를 진행하였습니다. 각각 3곳의 진보와 보수 언론사들의 정치 기사 데이터를 수집하고 BERT Fine-tuning을 통해 해당 기사가 어떤 정치적 성향을 가지고 있는지 제대로 분류할 수 있는가를 프로젝트의 목적으로 잡고 진행하였습니다. 발표의 목차입니다. 데이터수집과 전처리, BERT 모델을 이용한 Fine-Tuning, 마지막으로 추가적으로 진행한 데이터 전처리와 결론에 대해 설명 드리겠습니다. 처음으로 데이터 수집과 전처리입니다. 저희는 웹 크롤링을 통해 진보와 보수의 주요 언론사 각각 3곳, 총 6곳에서 정치관련 기사 데이터를 2만개씩 수집하여 총 12만개의 데이터를 확보하였습니다. 데이터를 통해 사용할 feature는 기사제목, 작성일, ..

matplotlib은 파이썬 데이터 분석에서 빼놓을 수 없는 필수 시각화 라이브러리다. seaborn, bokeh 등과 같이 조금은 투박하다고 할 수 있는 matplotlib을 개선(?)한 인터페이스의 시각화 라이브러리가 있지만 기본적으로 matplotlib을 이해하는게 중요하다. 앞서 말했다시피 matplotlib은 개발된지 오래되었고(2002년에 프로젝트가 시작되었다고 하니 못해도 15년은 되지 않았을까..) 그렇기에 인터페이스 자체가 투박한 면이 존재한다. 하지만 matplotlib 자체를 본인이 원하는대로 기본설정을 바꾸어 사용할 수 있다. 폰트, 시트, 기본 색상 등등을 커스터마이징할 수 있는데, 이번 포스트에서는 기본 matplotlib의 스타일을 조금이나마 신선하게 사용하고자 styleshe..