
2020 데이터 청년 캠퍼스가 끝났습니다! 연세대에서 2달 가량 좋은 교육을 받았고 (비대면 진행), 프로젝트 또한 좋은 팀원분들을 만나서 질 좋은 프로젝트를 진행할 수 있었습니다. 저희 팀은 '한국 지방소멸에 관한 탐색과 극복 방안에 관한 연구' 라는 주제로 지방 소멸화에 대한 예측과 해결방안에 대한 정성적인 분석을 진행하여 연세대학교에서 1등을 차지했습니다 ㅎㅎ 이후 대학 대항전에 나가서 최종으로 최우수상인 '한국데이터산업진흥원장상' 을 끝으로 좋은 성적을 받게 되었습니다 :) 아쉽지만...사실 저는 현재 진행하고 있는 인턴과 겹치게 되어 수료를 못하게 되었습니다 ㅠㅠ (원장상 안녕..) 물론 제 결정에 따른 결과이지만 많이 아쉽긴 합니다..ㅎ 그래도 좋은 경험이었고, 특히 팀장님께서 행정학이라는 도..

보아즈의 마무리 ADV 프로젝트가 시작되었다. (사실 8월부터 시작되었다..) 많은 팀들 중 자연어처리 태스크를 다루는 팀은 우리팀이 유일하다. 재미와 실용성 사이에서 여러 시행착오를 거친 후 간단하면서 재밌고, 실용성도 높은 편인 스포일러 댓글을 분류하는 모델을 만들어보기로 하였다. 사실 여러 이유(핑계)들로 인해 시작이 많이 늦어졌지만 그만큼 더 열심히 진행하고 있다 .. :) 스포일러 분류라는게 언뜻보면 간단한 이진분류 태스크로 보이지만 생각보다 쉽지 않았다. 기존 많은 모델들과 레퍼런스가 있는 '악성 댓글 분류'와는 내용이 많이 달랐다. 전체적인 그림을 그리기에 앞서 '스포일러' 자체의 특징을 파악하는게 우선이라고 생각했다. 악성 댓글이라는 것은 그 기준이 명확히 정해져있지만 (방통위 등), 스포..

BERT를 이용하여 정치기사의 정치 성향을 분류하는 프로젝트를 진행하였습니다. 각각 3곳의 진보와 보수 언론사들의 정치 기사 데이터를 수집하고 BERT Fine-tuning을 통해 해당 기사가 어떤 정치적 성향을 가지고 있는지 제대로 분류할 수 있는가를 프로젝트의 목적으로 잡고 진행하였습니다. 발표의 목차입니다. 데이터수집과 전처리, BERT 모델을 이용한 Fine-Tuning, 마지막으로 추가적으로 진행한 데이터 전처리와 결론에 대해 설명 드리겠습니다. 처음으로 데이터 수집과 전처리입니다. 저희는 웹 크롤링을 통해 진보와 보수의 주요 언론사 각각 3곳, 총 6곳에서 정치관련 기사 데이터를 2만개씩 수집하여 총 12만개의 데이터를 확보하였습니다. 데이터를 통해 사용할 feature는 기사제목, 작성일, ..