Domain을 위한 language model continue pre-training(CPT)

안일호, AI Engineer at MUSINSA

2021-03-21

개요

Common BERT와 Domain knowledge 그리고 continue pre-training (CPT; further pre-training)

BERT와 같이 Transfer learning이 NLP에도 도입된 후에는 손쉽게 자연어 테스크를 수행하는 모델을 빠르게 fine-tuning을 통해 만들 수 있었음
BERT는 대체로 위키나 뉴스 기사등 일반적인 형태의 데이터셋으로부터 학습되었음.
그렇기 때문에 전문화된 분야에서의 Domain knowledge는 OOV(out of vocabulary)등의 문제와 함께 일반적인 데이터셋 문제에 적용할 때와는 성능이 다를 수 있음.
그래서 이를 해결하기 위해서 일반적인 데이터셋으로 pre-training된 BERT를 가지고 도메인이 특정된 데이터셋으로 추가적인 further pre-training하여 language model에 도메인을 부가하려는 시도들이 있었고 효과를 보았음

케이스

금융 도메인, FinBERT (2019)
https://arxiv.org/abs/1908.10063
텍스트북 별 도메인적용(채점 문제), 별칭없음 BERT (2019)
https://www.aclweb.org/anthology/D19-1628/
법률, LEGAL-BERT (2020)
https://arxiv.org/abs/2010.02559
그외 외 논문들에서 relative works에 참고된 것들
- BioBERT (2019)
- SciBERT (2019)
- Clinical BioBERT (2019)

위 BERT들 모두 다 further pre-training 방식임. 아무도 pre training from scratch 하지 않음

결론

Full pre-training보다는 further pre-training으로 도메인을 보다 효율적으로 주입. 그래서 대부분 further pre-training을 함
Further pre-training은 domain knowledge를 LM(language model)
에 부여하는 효과를 봄
복잡한 task일 수록 더 큰 효과를 봄 Binary classification < Multi label classification < Question & Answer
도메인을 한정 할 수록 한정된 도메인의 문제에서 더 큰 효과를 봄
작은 사이즈의 BERT 모델을 기반으로 도메인을 추가 학습한 경우가 풀 사이즈의 기본 BERT와 도메인 특정지어지는 문제에서의 성능은 비슷하지만 더 가볍기 때문에 효율적임

케이스별 성능 차이

LEGAL-BERT

LEGAL-BERT(여러 파생 포함)들은 대체로 항상 BERT-BASE보다 좋은 결과를 보임
Binary classification 보다 어려운 다중 라벨 작업 (2.5 %)에서 보다 실질적인 개선을 관찰하여 LEGAL-BERT가 도메인지식 활용에 이득을 보인다는 점을 확인함

Textbook Short Answer Grading

BERT와 같은 사전 훈련 된 언어 모델은 일반적으로 일반 영어 코퍼스에서 훈련됨. 따라서 단답형 채점 영역에 사용할 수 있는 텍스트 리소스에 대해서 사전 훈련 된 언어 모델을 추가적으로 업데이트하고 개선 할 수 있다고 생각함
도메인 교과서 데이터를 사용한 LM 업데이트는 해당 도메인의 단답형 채점 성능에 좋은 결과를 끼쳤음
또한 업데이트 된 모델이 해당 도메인에 대해 더 전문화됨으로써 학습하지 않은 도메인에서는 반대로 성능이 저하됨을 확인함

FinBERT

차이는 크지 않지만 financial domain corpus에서 pre-training을 진행한 classifier는 세 가지 중에서 가장 잘 수행됨.
그러나 성능 향상의 폭이 그렇게 크지 않음. 4가지 이유라고 가정.
1. corpus는 task set과 다른 distribution을 가질 수 있음.
2. BERT classifier는 further pre-training을 통해 크게 향상되지 않을 수 있음.
3. short sentence classification은 further pre-training이 큰 도움이 되지 않을 수 있음.
4. 성능이 이미 우수하여 개선의 여지가 많이 없음.
5. 가능성은 마지막이 젤 크다고 추측. 이미 Vanilla BERT의 정확도는 0.96임.

BIO-BERT/SCI-BERT

SCIBERT가 생물 의학 task에서 BERT-Base보다 성능이 우수하다는 것을 관찰했음 (미세 조정시 +1.92 F1, 미 조정시 +3.59 F1).
또한 SCI-BERT는 BC5CDR 및 ChemProt (Lee et al., 2019) 및 EBM-NLP (Nye et al., 2018)에서 새로운 SOTA 결과를 달성했음

기타

테크니컬한 트러블 슈팅과 메서드가 잘 정리된 논문
- FinBERT
- Legal-BERT
실제 서비스를 위해서는 Knowledge Distillation 도 고려 해야함

참고

https://jeonsworld.github.io/NLP/finbert/

ILHO AHN
안일호, AI Engineer at MUSINSA