Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Array operations
- scatter
- 정규분포 MLE
- 카테고리분포 MLE
- VSCode
- unstack
- 표집분포
- Comparisons
- groupby
- linalg
- Numpy data I/O
- Python 유래
- Operation function
- Python
- dtype
- 최대가능도 추정법
- pivot table
- Numpy
- ndarray
- subplot
- seaborn
- 가능도
- python 문법
- boolean & fancy index
- Python 특징
- 부스트캠프 AI테크
- 딥러닝
- BOXPLOT
- type hints
- namedtuple
Archives
- Today
- Total
또르르's 개발 Story
[Stage 2 - 이론] 문장 토큰 관계 분류 task 본문
주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task입니다.

1️⃣ Named Entity Recognition (NER)
개체명 인식은 문맥을 파악해서 인명, 기관명, 지명 등과 같은 문장 또는 문서에서 특정한 의미를 가지고 있는 단어 또.는 어구(개체) 등을 인식하는 과정을 의미합니다.
카카오브레인에서 나온 pororo를 사용하면 쉽게 구현 가능합니다.

2️⃣ Part-of-speech tagging (POS TAGGING)
- 품사란 단어를 문법적 성질의 공통성에 따라 언어학자들이 몇 갈래로 묶어 놓은 것입니다.
- 품사 태깅은 주어진 문장의 각 성분에 대하여 가장 알맞는 품사를 태깅하는 것을 의미합니다.

3️⃣ 문장 token 분류를 위한 데이터
1) kor_ner
- 한국해양대학교 자연어 처리 연구실에서 공개한 한국어 NER 데이터셋
- 일반적으로, NER 데이터셋은 pos tagging 도 함께 존재
- Entity tag에서 B의 의미는 개체명의 시작(Begin)을 의미하고, I의 의미는 내부(Inside)를 의미하며, O는 다루지 않는 개체명(Outside)를 의미합니다.
- 즉, B-PER은 인물명 개체명의 시작을 의미하며, I-PER는 인물명 개체명의 내부 부분을 뜻합니다.
- kor_ner 데이터셋에서 다루는 개체명은 다음과 같습니다.

'[P Stage 2] KLUE > 이론' 카테고리의 다른 글
[Stage 2 - 이론] 기계독해 모델 학습 (0) | 2021.04.21 |
---|---|
[Stage 2 - 이론] 문장 토큰 단위 분류 모델 학습 (0) | 2021.04.20 |
[Stage 2 - 이론] IRQA 챗봇 실습 (0) | 2021.04.19 |
[Stage 2 - 이론] BERT를 활용한 단일 문장 분류 (0) | 2021.04.19 |
[Stage 2 - 이론] 한국어 BERT 모델 학습하기 (0) | 2021.04.18 |