또르르's 개발 Story

[Stage 2 - 이론] 한국어 토큰화 본문

[P Stage 2] KLUE/이론

[Stage 2 - 이론] 한국어 토큰화

또르르21 2021. 4. 13. 11:28

1️⃣ 자연어 처리 단계

 

  • Task 설계

  • 필요 데이터 수집

  • 통계학적 분석

    - Token 개수 -> 아웃라이어 제거

    - 빈도 확인 -> 사전(dictionary) 정읟

  • 전처리

    - 개행 문자 / 특수 문자 제거

    - 공백 제거

    - 중복 표현 제어 (ㅋㅋㅋㅋ, ㅠㅠㅠㅠ, ....)

    - 이메일, 링크 제거

    - 제목 제거

    - 불용어 (의미가 없는 용어) 제거

    - 조사 제거

    - 띄어쓰기, 문장분리 보정
  • Tagging

  • Tokenizing

    자연어를 어떤 단위로 살펴볼 것인가

    - 어절 tokenizing

    - 형태소 tokenizing

    - WordPiece tokenizing

  • 모델 설계
  • 모델 구현

  • 성능 평가

  • 완료

 

2️⃣ 한국어 토큰화

 

  • 영어는 NewYork과 같은 합성어 처리와 it’s와 같은 줄임말 예외처리만 하면,띄어쓰기를 기준으로 도 잘 동작하는 편

  • 한국어는 조사나 어미를 붙여서 말을 만드는 교착어로,띄어쓰기만으로는 부족

    예시)he/him->그,그가,그는,그를,그에게

  • 한국어에서는 어절이 의미를 가지는 최소 단위인 형태소로 분리

    예시)안녕하세요 ->안녕/NNG,하/XSA,세/EP,요/EC
Comments