[Stage 2 - 이론] 한국어 토큰화

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

또르르's 개발 Story

[Stage 2 - 이론] 한국어 토큰화 본문

[P Stage 2] KLUE/이론

[Stage 2 - 이론] 한국어 토큰화

또르르21 2021. 4. 13. 11:28

1️⃣ 자연어 처리 단계

Task 설계
필요 데이터 수집
통계학적 분석

- Token 개수 -> 아웃라이어 제거

- 빈도 확인 -> 사전(dictionary) 정읟
전처리

- 개행 문자 / 특수 문자 제거

- 공백 제거

- 중복 표현 제어 (ㅋㅋㅋㅋ, ㅠㅠㅠㅠ, ....)

- 이메일, 링크 제거

- 제목 제거

- 불용어 (의미가 없는 용어) 제거

- 조사 제거

- 띄어쓰기, 문장분리 보정
Tagging
Tokenizing

자연어를 어떤 단위로 살펴볼 것인가

- 어절 tokenizing

- 형태소 tokenizing

- WordPiece tokenizing
모델 설계
모델 구현
성능 평가
완료

2️⃣ 한국어 토큰화

영어는 NewYork과 같은 합성어 처리와 it’s와 같은 줄임말 예외처리만 하면,띄어쓰기를 기준으로 도 잘 동작하는 편
한국어는 조사나 어미를 붙여서 말을 만드는 교착어로,띄어쓰기만으로는 부족

예시)he/him->그,그가,그는,그를,그에게
한국어에서는 어절이 의미를 가지는 최소 단위인 형태소로 분리

예시)안녕하세요 ->안녕/NNG,하/XSA,세/EP,요/EC

'[P Stage 2] KLUE > 이론' 카테고리의 다른 글

[Stage 2 - 이론] BERT를 활용한 단일 문장 분류 (0)	2021.04.19
[Stage 2 - 이론] 한국어 BERT 모델 학습하기 (0)	2021.04.18
[Stage 2 - 이론] 의존 구문 분석 (0)	2021.04.16
[Stage 2 - 이론] BERT (0)	2021.04.14
[Stage 2 - 이론] 자연어 단어 임베딩 (0)	2021.04.12

'[P Stage 2] KLUE/이론' Related Articles

more

Comments

티스토리툴바