일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Python 유래
- Python
- pivot table
- Numpy
- 정규분포 MLE
- seaborn
- namedtuple
- 표집분포
- ndarray
- python 문법
- 딥러닝
- Comparisons
- groupby
- boolean & fancy index
- Operation function
- Numpy data I/O
- unstack
- 최대가능도 추정법
- scatter
- Python 특징
- VSCode
- Array operations
- subplot
- 카테고리분포 MLE
- linalg
- 부스트캠프 AI테크
- BOXPLOT
- 가능도
- dtype
- type hints
- Today
- Total
목록[P Stage 2] KLUE/이론 (14)
또르르's 개발 Story

1️⃣ 의존 구문 분석 의존 구문 분석은 단어들 사이의 관계를 분석하는 task입니다. 1) 특징 지배소 : 의미의 중심이 되는 요소 의존소 : 지배소가 갖는 의미를 보완해주는 요소 (수식) 어순과 생략이 자유로운 한국어와 같은 언어에서 주로 연구됩니다. 2) 분류 규칙 지배소는 후위언어입니다.즉, 지배소는 항상 의존소보다 뒤에 위치합니다. 각 의존소의 지배소는 하나입니다. 교차 의존 구조는 없습니다. 3) 분류 방법 Sequence labeling 방식으로 처리 단계를 나눕니다. 앞 어절에 의존소가 없고 다음 어절이 지배소인 어절을 삭제하며 의존 관계를 만듭니다. 4) 장점 복잡한 자연어 형태를 그래프로 구조화해서 표현 가능 각 대상에 대한 정보 추출이 가능

1️⃣ BERT BERT 모델은 Original Input을 넣어서 "Input과 똑같은 Output"을 나오게 하는 방식을 사용했습니다. 이때, Original Input을 masking 기법을 통해 가려줌으로써 "Input과 똑같은 Output"이 최대한 나오게 설계했습니다. 2️⃣ BERT 구조도 BERT는 Transformer 12개로 구성되어있습니다. [CLS]는 Sentence 1과 Sentence 2가 next Sentence관계인지를 분류하게 됩니다. 1) 데이터 tokenizing WordPiece tokenizing He likes playing -> He likes play ##ing 입력 문장을 tokenizing하고,그 token들로 ‘tokensequence’를 만들어 학습에 사..
1️⃣ 자연어 처리 단계 Task 설계 필요 데이터 수집 통계학적 분석 - Token 개수 -> 아웃라이어 제거 - 빈도 확인 -> 사전(dictionary) 정읟 전처리 - 개행 문자 / 특수 문자 제거 - 공백 제거 - 중복 표현 제어 (ㅋㅋㅋㅋ, ㅠㅠㅠㅠ, ....) - 이메일, 링크 제거 - 제목 제거 - 불용어 (의미가 없는 용어) 제거 - 조사 제거 - 띄어쓰기, 문장분리 보정 Tagging Tokenizing 자연어를 어떤 단위로 살펴볼 것인가 - 어절 tokenizing - 형태소 tokenizing - WordPiece tokenizing 모델 설계 모델 구현 성능 평가 완료 2️⃣ 한국어 토큰화 영어는 NewYork과 같은 합성어 처리와 it’s와 같은 줄임말 예외처리만 하면,띄어쓰기를..

1️⃣ Word2Vec 1) Word2Vec 의미 단어가 가지는 의미 자체를 다차원 공간에 '벡터화'하는 것 중심 단어의 주변 단어들을 이용해 중심 단어를 추론하는 방식으로 학습 2) 장점 단어간의 유사도 측정에 용이 단어간의 관계 파악에 용이 벡터 연산을 통해 추론이 가능 (e.g. 한국 - 서울 + 도쿄 =?) 3) 단점 단어의 subword information 무시 (e.g. 서울 vs 서울시 vs 고양시) 서울 vs 서울시는 '서울'이라는 subword로 추론을 할 수 있는데 Word2Vec은 추론 불가 Out of vocabulary (OOV)에서 적용 불가능 vocabulary에 등록되어있지 않은 단어는 Word2Vec이 추론 불가 2️⃣ FastText FastText는 Subword In..