또르르's 개발 Story

[Stage 3 - 이론] DST의 Computational Complexity 본문

[P Stage 3] DST/이론

[Stage 3 - 이론] DST의 Computational Complexity

또르르21 2021. 5. 4. 18:36

DST에서 계산복잡도를 최소화하는 것이 매우 중요합니다.

 

1️⃣ COMER

1) ITC (Inference Time Complexity)

  • Inference Time Complexity를 의미하는 단어
  • Dialogue turn에서 state (slot-value)를 완료하기위해 inference를 수행해야하는 횟수

[Liliang Ren et al., arXiv 2019]

 

2) COMER Model

  • COMER는 Seq2Seq framework를 적용하여 DST를 Sequence generation 문제로 접근했습니다.
  • 3개의 Encoder와 3개의 hierarchically stacked decoder로 구성 되어있습니다.
  • Single Value Assumption - 각 slot type은 해당 turn에서 slot value를 하나밖에 가질 수 없다는 가정

 

3) COMER Model - Encoder

  • Encoder는 embedding layer와 BiLSTM을 포함
  • Encoder는 User utterance, System utterance, (현재 Turn의) previous belief state를 input으로 받음
  • User Encoder와 Sys Encoder는 고정된 BERT 모델을 Embedding layer로 사용함

[Liliang Ren et al., arXiv 2019]

 

 

4) COMER Model - Decoder

  • Sequence Decoding을 위해 Conditional Memory Relation Decoder(CMRD)를 제안함
  • CMRD는 Hierarchical sequence generation을 진행함
  • 최종적으로 Generation을 마치면 새로운 Belief State로 Update됨

https://www.edwith.org/bcaitech1

 

 

 

2️⃣ NA-DST

 

  • 기존 DST 모델은 separate slot의 dialogue state를 예측함
  • NA-DST는 Non-Autoregressive 구조를 활용하여 complete set의 dialogue state를 예측함
  • Non-Autoregressive 구조는 parallel한 decoding이 가능하며, Generative DST의 latency를 낮춤
  • Domain과 slot을 감지할 수 있으며, Token level의 slot들 사이의 종속성을 찾을 수 있음

 

1) Definition

  • AR Decoder vs NAR Decoder

https://www.edwith.org/bcaitech1

 

  • Fertility : Decoder의 input sequence를 형성하기 위해 input token이 복사되는 횟수 (Target Slot Value의 길이)

 

2) NA-DST Model

하나의 Encoder, 두개의 Decoder로 이루어진 모델

[Jiatao Gu et al., ICLR 2018]

 

3) NA-DST Model - Encoder

  • Encoder(Red)는 sequence of dialogue history, delexicalized dialogue history, domain ,slot tokens을 연속적인 representation으로 encoding함

 

4) NA-DST Model - Decoder (1) : Fertility Decoder

  • Fertility Decoder(Blue)는 3가지 Attention mechanism을 사용함
  • 이 mechanism은 domain-slot 쌍과 dialogue history에 대한 잠재적인 dependency를 학습함

[Jiatao Gu et al., ICLR 2018]

 

5) NA-DST Model - Decoder (2) : State Decoder

  • State Decoder(Green) 또한 3가지 Attention mechanism을 사용함
  • Input으로 (Domain, Slot) x Fertility의 sub-sequence를 포함한 sequence를 받음
  • Slot, value에 대한 Concatenation sequence를 output으로 decoding함

[Jiatao Gu et al., ICLR 2018]

 

 

3️⃣ SOM-DST

 

  • DST task를 2개의 subtask로 분리하여 효과적으로 slot에 해당하는 value를 생성함

    - Task 1 : State operation prediction (Encoder 1개)

    - Task 2 : Slot value generation (Decoder 1개)

  • Selectively Overwriting Memory

    - 기존 모델 대비 효율적인 DST Model 구축

    - Slot의 minimal subset (selective slot)만 가지고 value를 생성 할 수 있음

 

 

1) Definition

https://www.edwith.org/bcaitech1
https://www.edwith.org/bcaitech1

 

2) SOM-DST Model

State Operation Predictor와 Slot Value Generator로 구성된 모델

 

[Kim et al., arXiv 2019]

 

3) SOM-DST Model - State Operation Predictor

  • Input Representation

 

  • Encoder Output

 

  • State Operation Prediction

 

  • Process

https://www.edwith.org/bcaitech1

 

4) SOM-DST Model - Slot Value Generator

  • Slot에 해당하는 Value를 찾기 위해 Generation task를 수행하는 Decoder (GRU 사용)

    - 기존 연구는 모든 slot에 대해 generation을 진행해야 했지만, SOM-DST는 UPDATE Operation에 대한 value만 생성하면 되므로 효율적

    - Training 과정에서는 GT Operation이 존재하므로 Encoder의 Output Operation을 사용하지 않음 Testing 과정에서 UPDATE operation slot index의 value generation 진행함
  • Soft copy mechanism을 사용하여 final distribution을 생성함 (Pointer-generator)

 

  • Process

https://www.edwith.org/bcaitech1

 

Comments