또르르's 개발 Story

[Stage 2 - 이론] 문장 토큰 관계 분류 task 본문

[P Stage 2] KLUE/이론

[Stage 2 - 이론] 문장 토큰 관계 분류 task

또르르21 2021. 4. 20. 10:24

주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task입니다.

 

https://www.edwith.org/bcaitech1

 

 

1️⃣ Named Entity Recognition (NER)

 

개체명 인식은 문맥을 파악해서 인명, 기관명, 지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고 있는 단어 또.는 어구(개체) 등을 인식하는 과정을 의미합니다.

 

카카오브레인에서 나온 pororo를 사용하면 쉽게 구현 가능합니다.

 

https://www.edwith.org/bcaitech1

 

 

2️⃣ Part-of-speech tagging (POS TAGGING)

 

  • 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것입니다.

  • 품사 태깅은 주어진 문장의 각 성분에 대하여 가장 알맞는 품사를 태깅하는 것을 의미합니다.

https://www.edwith.org/bcaitech1

 

 

3️⃣ 문장 token 분류를 위한 데이터

1) kor_ner

  • 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋

  • 일반적으로, NER 데이터셋은 pos tagging 도 함께 존재

  • Entity tag에서 B의 의미는 개체명의 시작(Begin)을 의미하고, I의 의미는 내부(Inside)를 의미하며, O는 다루지 않는 개체명(Outside)를 의미합니다.

  • 즉, B-PER은 인물명 개체명의 시작을 의미하며, I-PER는 인물명 개체명의 내부 부분을 뜻합니다.

  • kor_ner 데이터셋에서 다루는 개체명은 다음과 같습니다.

Comments