개요
Common BERT와 Domain knowledge 그리고 continue pre-training (CPT; further pre-training)
- BERT와 같이 Transfer learning이 NLP에도 도입된 후에는 손쉽게 자연어 테스크를 수행하는 모델을 빠르게 fine-tuning을 통해 만들 수 있었음
- BERT는 대체로 위키나 뉴스 기사등 일반적인 형태의 데이터셋으로부터 학습되었음.
- 그렇기 때문에 전문화된 분야에서의 Domain knowledge는 OOV(out of vocabulary)등의 문제와 함께 일반적인 데이터셋 문제에 적용할 때와는 성능이 다를 수 있음.
- 그래서 이를 해결하기 위해서 일반적인 데이터셋으로 pre-training된 BERT를 가지고 도메인이 특정된 데이터셋으로 추가적인 further pre-training하여 language model에 도메인을 부가하려는 시도들이 있었고 효과를 보았음
케이스
- 금융 도메인, FinBERT (2019)
https://arxiv.org/abs/1908.10063 - 텍스트북 별 도메인적용(채점 문제), 별칭없음 BERT (2019)
https://www.aclweb.org/anthology/D19-1628/ - 법률, LEGAL-BERT (2020)
https://arxiv.org/abs/2010.02559 - 그외 외 논문들에서 relative works에 참고된 것들
- BioBERT (2019)
- SciBERT (2019)
- Clinical BioBERT (2019)
위 BERT들 모두 다 further pre-training 방식임. 아무도 pre training from scratch 하지 않음
결론
- Full pre-training보다는 further pre-training으로 도메인을 보다 효율적으로 주입. 그래서 대부분 further pre-training을 함
- Further pre-training은 domain knowledge를 LM(language model)
- 에 부여하는 효과를 봄
- 복잡한 task일 수록 더 큰 효과를 봄 Binary classification < Multi label classification < Question & Answer
- 도메인을 한정 할 수록 한정된 도메인의 문제에서 더 큰 효과를 봄
- 작은 사이즈의 BERT 모델을 기반으로 도메인을 추가 학습한 경우가 풀 사이즈의 기본 BERT와 도메인 특정지어지는 문제에서의 성능은 비슷하지만 더 가볍기 때문에 효율적임
케이스별 성능 차이
LEGAL-BERT
- LEGAL-BERT(여러 파생 포함)들은 대체로 항상 BERT-BASE보다 좋은 결과를 보임
- Binary classification 보다 어려운 다중 라벨 작업 (2.5 %)에서 보다 실질적인 개선을 관찰하여 LEGAL-BERT가 도메인지식 활용에 이득을 보인다는 점을 확인함
Textbook Short Answer Grading
- BERT와 같은 사전 훈련 된 언어 모델은 일반적으로 일반 영어 코퍼스에서 훈련됨. 따라서 단답형 채점 영역에 사용할 수 있는 텍스트 리소스에 대해서 사전 훈련 된 언어 모델을 추가적으로 업데이트하고 개선 할 수 있다고 생각함
- 도메인 교과서 데이터를 사용한 LM 업데이트는 해당 도메인의 단답형 채점 성능에 좋은 결과를 끼쳤음
- 또한 업데이트 된 모델이 해당 도메인에 대해 더 전문화됨으로써 학습하지 않은 도메인에서는 반대로 성능이 저하됨을 확인함
FinBERT
- 차이는 크지 않지만 financial domain corpus에서 pre-training을 진행한 classifier는 세 가지 중에서 가장 잘 수행됨.
- 그러나 성능 향상의 폭이 그렇게 크지 않음. 4가지 이유라고 가정.
- corpus는 task set과 다른 distribution을 가질 수 있음.
- BERT classifier는 further pre-training을 통해 크게 향상되지 않을 수 있음.
- short sentence classification은 further pre-training이 큰 도움이 되지 않을 수 있음.
- 성능이 이미 우수하여 개선의 여지가 많이 없음.
- 가능성은 마지막이 젤 크다고 추측. 이미 Vanilla BERT의 정확도는 0.96임.
BIO-BERT/SCI-BERT
- SCIBERT가 생물 의학 task에서 BERT-Base보다 성능이 우수하다는 것을 관찰했음 (미세 조정시 +1.92 F1, 미 조정시 +3.59 F1).
- 또한 SCI-BERT는 BC5CDR 및 ChemProt (Lee et al., 2019) 및 EBM-NLP (Nye et al., 2018)에서 새로운 SOTA 결과를 달성했음
기타
- 테크니컬한 트러블 슈팅과 메서드가 잘 정리된 논문
- FinBERT
- Legal-BERT
- 실제 서비스를 위해서는 Knowledge Distillation 도 고려 해야함