논문 주소:}, 사전 D 에서 문장에 문자 C 가 포함된 가능한 모든 단어 ws 를 찾습니다. 그림 -3:
최종 생성 시퀀스:
S_cw={(c 1, ws 1), (C2, ws2), ... (cn, wsn)}
그림 -4 와 같이 단어 및 단어 정보를 BERT 네트워크의 사전 적응 계층에 통합합니다.
사전 맞춤 레이어에는 문자와 단어 쌍, 즉 위 그림의 H 와 X 의 두 가지 입력이 있습니다. 여기서 H 는 이전 변환기 레이어에서 출력되는 문자 벡터이고, X 는 해당 문자를 포함할 수 있는 M 단어로 구성된 단어 임베딩이고, J 는 M 의 J 단어입니다.
여기서 e 는 사전 훈련된 단어 벡터 매핑 테이블입니다.
길이가 다른 시퀀스를 정렬하기 위해 단어 벡터의 비선형 변환은 다음과 같습니다.
여기서 W 1 은 dc-dw 크기의 행렬, W2 는 DC-DC 크기의 행렬, b 1 및 B2 는 간격띄우기, dw 는 문자 벡터의 치수, C 는 숨겨진 레이어의 치수입니다.
그림 -3 에서 볼 수 있듯이 한 단어가 여러 단어에 해당될 수 있으며, 작업에 따라 가장 일치하는 단어가 다를 수 있습니다.
구체적인 알고리즘은 VI 를 사용하여 I 번째 문자에 해당하는 모든 단어를 나타내는 것입니다. 여기서 m 은 해당 문자에 해당하는 글자 수이며 관심도는 다음과 같이 계산됩니다.
여기서 w 는 주의력 가중치 매트릭스입니다.
그런 다음 각 단어에 가중치를 곱하고 더하여 위치 I 에 해당하는 단어 표현을 얻습니다.
마지막으로 문자의 벡터에 사전 정보를 추가하고 해당 위치에서 새 벡터를 가져옵니다.
처리된 데이터는 폐기 및 표준화된 레이어로 전송되어 추가 처리를 위해 전송됩니다.
단어 포함 레이어에 문자를 입력하고 토큰, 세그먼트 및 위치 정보를 추가한 다음 해당 레이어에서 내보낸 단어를 Transformer 레이어에 포함합니다.
출력은 L 번째 은층의 출력이고, LN 은 표준화된 계층이고, HMAttn 은 여러 개의 주의 메커니즘이며, FFN 은 두 개의 사전 공급 네트워크 계층이고, ReLU 는 활성화 함수이다.
K 번째와 k+ 1 변환기 사이에 사전 정보를 추가합니다.
태그의 컨텍스트를 고려하여 CRF 레이어를 사용하여 최종 태그를 예측하고 마지막 숨겨진 레이어 h 의 출력을 입력으로 사용하여 출력 레이어 o 를 계산합니다.
그런 다음 출력 레이어를 CRF 모델로 대체하여 레이블 Y 의 확률 P 를 계산합니다.
훈련 시 문장 S 와 태그 Y 를 주어서 전체 문장의 음의 로그를 오차로 계산하는 것 같다.
디코딩할 때 비트비 알고리즘을 사용하여 점수가 가장 높은 시퀀스를 계산합니다.
이 글은 명명 실체 인식 NER, 분사 CWS 및 위치 품사 표기를 실험했는데, 실험 데이터는 표-1 (중국어 자연어 처리 공통 실험 데이터) 에 나와 있다.
그림 5 는 BERT 및 BERT 기반 최신 모델에 비해 모델 오류 감소를 보여 줍니다.
이 문서에서는 다른 모델과 비교하는 것 외에도 어셈블리 모델의 LEBERT 방법과 Bert+Word 방법의 차이점을 비교합니다.