Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- VSCode
- boolean & fancy index
- python 문법
- Array operations
- subplot
- ndarray
- type hints
- dtype
- seaborn
- 딥러닝
- 부스트캠프 AI테크
- pivot table
- scatter
- groupby
- 정규분포 MLE
- namedtuple
- linalg
- 표집분포
- Python 유래
- Comparisons
- Operation function
- Numpy data I/O
- unstack
- Python 특징
- 최대가능도 추정법
- Numpy
- Python
- BOXPLOT
- 가능도
- 카테고리분포 MLE
Archives
- Today
- Total
또르르's 개발 Story
[Stage 2 - 이론] 한국어 토큰화 본문
1️⃣ 자연어 처리 단계
- Task 설계
- 필요 데이터 수집
- 통계학적 분석
- Token 개수 -> 아웃라이어 제거
- 빈도 확인 -> 사전(dictionary) 정읟 - 전처리
- 개행 문자 / 특수 문자 제거
- 공백 제거
- 중복 표현 제어 (ㅋㅋㅋㅋ, ㅠㅠㅠㅠ, ....)
- 이메일, 링크 제거
- 제목 제거
- 불용어 (의미가 없는 용어) 제거
- 조사 제거
- 띄어쓰기, 문장분리 보정 - Tagging
- Tokenizing
자연어를 어떤 단위로 살펴볼 것인가
- 어절 tokenizing
- 형태소 tokenizing
- WordPiece tokenizing - 모델 설계
- 모델 구현
- 성능 평가
- 완료
2️⃣ 한국어 토큰화
- 영어는 NewYork과 같은 합성어 처리와 it’s와 같은 줄임말 예외처리만 하면,띄어쓰기를 기준으로 도 잘 동작하는 편
- 한국어는 조사나 어미를 붙여서 말을 만드는 교착어로,띄어쓰기만으로는 부족
예시)he/him->그,그가,그는,그를,그에게 - 한국어에서는 어절이 의미를 가지는 최소 단위인 형태소로 분리
예시)안녕하세요 ->안녕/NNG,하/XSA,세/EP,요/EC
'[P Stage 2] KLUE > 이론' 카테고리의 다른 글
[Stage 2 - 이론] BERT를 활용한 단일 문장 분류 (0) | 2021.04.19 |
---|---|
[Stage 2 - 이론] 한국어 BERT 모델 학습하기 (0) | 2021.04.18 |
[Stage 2 - 이론] 의존 구문 분석 (0) | 2021.04.16 |
[Stage 2 - 이론] BERT (0) | 2021.04.14 |
[Stage 2 - 이론] 자연어 단어 임베딩 (0) | 2021.04.12 |