신경 기계 번역 (su Jinsong 등)
요약 소개:
NMT 신경 기계 번역은 단어 수준 모델링에 크게 의존하여 입력 문장의 의미 표현을 배운다.
자연어 구분 기호가 없는 언어 (예: 중국어) 를 처리하려면 먼저 태그를 지정해야 합니다.
두 가지 문제: 1) 소스 문장 모델의 경우 최적의 레이블 세분성을 찾기가 매우 어렵습니다. 입도가 굵으면 데이터가 희소해지고, 입도가 가늘어지면 유용한 정보가 손실됩니다. 2) 어려울 때는 오류가 발생하기 쉽고, 오류는 NMT 인코더로 옮겨져 소스 문장의 표현에 영향을 줍니다.
이 두 가지 문제를 기반으로 소스 문장을 더 잘 모델링하려면 단일 레이블 시퀀스가 아닌 NMT 에 여러 레이블을 제공해야 합니다.
이 문서에서는 여러 플래그 셀의 압축 인코딩을 입력으로 하는 셀 기반 재귀 신경망 NMT 인코더: 1) 를 제공합니다. 2) 이전 시간 단계 중 원하는 수의 입력 및 숨기기 상태에서 새 숨기기 상태를 생성하는 방법을 배웁니다.
셀은 많은 태그의 압축 표현입니다. 셀 기반 인코더는 최적의 태그 모드 (1-best) 의 태그 오류를 줄일 뿐만 아니라
오류 표시) 및 입력 문장을 포함시키면 표현력과 유연성이 향상됩니다.
-응?
NMT 기능:
전통적인 통계 기계 번역은 파이프 라인에서 소스 언어와 대상 언어 간의 잠재적 구조와 대응을 시뮬레이션합니다.
NMT 는 인코더가 입력 문장을 고정 길이 벡터에 매핑하고 디코더가 인코딩된 벡터에서 번역을 생성하는 통합 인코딩 디코딩 신경 네트워크를 교육합니다.
단어 격자 기반 재귀 신경망 NMT:
이 기사에서는 두 가지 단어 기반 RNN 인코더를 연구하고 비교합니다.
1). 얕은 격자 GRU 인코더: 표준 GRU 아키텍처를 사용하는 여러 태그의 입력 및 숨기기 상태 조합을 기반으로 합니다.
2). 깊이 셀의 GRU 인코더: 문, 입력 및 숨기기 상태에 대한 태그 지정을 배우고 업데이트합니다.
벡터) 를 선택한 다음 현재 셀의 숨겨진 상태 벡터를 생성합니다.
두 인코더 모두에서 여러 가지 다른 태그를 동시에 사용하여 입력 문장을 시뮬레이션할 수 있습니다.
결론:
표준 RNN 인코더에 비해 이 문서의 인코더는 입력 및 이전 숨기기 상태를 모두 사용하며 여러 레이블에 의존하여 소스 문을 모델링합니다. 따라서 1- 최적 표기법을 줄일 뿐만 아니라
오차가 전파되고 표준 인코더보다 표현력과 유연성이 뛰어납니다.
중국어-영어 번역의 실험 결과는 이 글의 인코더가 각종 기준선에서 눈에 띄게 향상되었다는 것을 보여준다.
전망:
이 기사의 네트워크 구조는 소스 문장의 단어에 달려 있습니다. 모델을 확장하여 분할 모델을 소스 문장 표상 학습에 융합합니다. 이런 식으로 상징과 번역이 서로 협력 할 수 있습니다. 또한 인코더를 개선하기 위해 더 나은 조합 전략을 채택했습니다.
검증 실험:
이 인코더의 유효성을 검증하기 위해 우리는 한영 번역 임무에서 실험을 진행했다.
실험 결과는 다음과 같습니다.
(1) 단어 경계 정보를 이용하여 정확하게 포함된 중국어 문장을 배울 필요가 있다.
(2) 셀 기반 RNN 인코더는 NMT 의 표준 RNN 인코더보다 우수합니다. 지금까지 우리가 아는 한, 이것은 단어에 NMT 를 구축 하는 첫 번째 시도입니다.
실험 섹션:
1. 데이터 세트
NIST 중국어-영어 번역 작업에서 제시된 인코더를 평가했습니다.
교육 데이터 세트: LDC2002E 18, LDC2003E07, LDC2003E 14, LDC2004T07 및 LDC2005T06 에서 추출한 654.38+
데이터 세트 검증: NIST 2005 데이터 세트
테스트 데이터 세트: NIST 2002, 2003, 2004, 2006 및 2008 데이터 세트.
우리는 스탠포드 대학에서 출판한 toolkit2 를 이용하여 CTB, 베이징대, MSR 코퍼스에서 분사기를 훈련시켜 중국어 문장 격식을 얻었다.
신경망을 효과적으로 훈련시키기 위해, 우리는 중국어와 영어로 가장 많이 사용되는 50K 단어를 우리의 어휘로 사용한다. CTB, 북경대학교, MSR, 체크 코퍼스에서 중국어 어휘는 각각 98.5%, 98.6%, 99.3%, 97.3%, 영어 어휘는 99.7% 를 차지했다.
실험 결과:
문자 범위:
번역 품질:
1- 최적 분사를 사용한 NMT 디코딩 실험:
모델 번호:
어격
격자 모델은 분사와는 완전히 별개이지만 단어 정보를 사용할 때 더 효과적입니다. 문맥에서 자유롭게 단어를 선택하여 모호성을 제거할 수 있기 때문입니다.
격자 기반 두 RNN 인코더
BLSTM 기반 명명 된 엔티티 인식 방법 (폰 등)
요약 소개:
(1) 학습을 감독하는 코퍼스가 부족합니다. (2)RNN 은 장거리 의존성 문제를 잘 처리할 수 없고, 훈련 알고리즘에는 그라데이션이 사라지거나 폭발하는 문제가 있다.
세 가지 고려 사항을 기반으로: (1) 텍스트가 명명된 엔티티로 인식되는지 여부는 해당 컨텍스트와 관련이 있으며 명명된 엔티티를 구성하는 각 단어 및 단어 순서와 관련이 있습니다. (2) 치수 시퀀스에서 레이블 간의 상관 관계를 고려하여 이 문서에 제시된 모델의 비용 함수를 제한하고, 작은 교육 데이터에서 가능한 한 가치 있는 정보를 발굴하여 명명된 엔티티 인식의 효과를 높입니다. (3) 기존 인식 방법의 인공 특성과 도메인 지식은 명명 개체의 인식 효과에 중요한 영향을 미치지만, 인공 특징의 설계와 도메인 지식의 획득은 비용이 많이 든다.
따라서 이 문서에서는 신경망 모델을 사용하여 명명된 엔티티 인식 문제를 해결할 수 있는 효과적인 방법을 제시합니다. 이 방법은 인공 특성과 외부 자원에 직접 의존하지 않고 소량의 감독 데이터, 영역 지식 및 대량의 태그 없는 데이터만 사용하여 현재 기계 학습 방법이 인공 특성과 영역 지식, 어료 부족에 지나치게 의존하는 문제를 해결합니다. 이 문서에 제시된 명명 엔티티 인식 방법은 단어의 컨텍스트 정보, 단어의 접두사 및 접미사 정보, 영역 사전을 결합하여 이 정보를 단어의 분포 표현 특징으로 표기합니다. 단어의 태그 사이의 제약 관계를 감안하여 인식 효과를 더욱 높였다.
Outlook: 이 문서에서는 명명된 엔티티를 식별하기 위해 순차적으로 데이터를 읽습니다. 각 단어가 명명된 엔티티에 미치는 영향은 동일하며, 서로 다른 단어가 명명된 엔티티에 미치는 영향은 고려하지 않습니다. 이 모델에 심도 있는 학습을 도입하는 주의 메커니즘은 명명된 엔티티 인식에 중요한 영향을 미치는 단어에 초점을 맞추는 것이 더 해결해야 할 문제입니다.
실험 섹션:
데이터 세트:
DataSet 1 (대규모 치수 없는 코퍼스), DataSet2 (치수 코퍼스), DataSet3 (명명된 엔티티 식별 치수 코퍼스).
DataSet4 (이 문서에서는 DataSet2 와 DataSet3 의 레이블을 삭제하고 문자 시퀀스 데이터로 분할하여 데이터 세트를 얻습니다.)
데이터 세트 5 (Sogou입력기 어휘에서 일부 데이터 선택 [중국, 중국, 국가기관, 조직의 공통 이름 포함, 문자 시퀀스 데이터로 분할].
샘플 분류: TP? FP? TN? [수학] 함수
평가 지표: 정확도 (p), 리콜률 (r), f-score (f), 민감도, Sent), 특이성, Spec), 1- 특이성 (
실험 결과:
실험 영향 요인:
지명과 기관명 두 가지 명명 실체의 길이는 보통 사람의 이름보다 길어 복잡한 구성이다. 컨텍스트 기반 단어 벡터와 BLSTM_Ec 모델 훈련의 단어 벡터는 인식 효과에 긍정적인 영향을 미칩니다.
-응? 성명은 길이가 짧고, 사람의 성과 이름 사이에는 강한 바인딩 관계가 없으며, 이름 사전의 이름은 인식할 텍스트의 이름 개체와 강한 상관관계가 없다. 따라서 접두사 및 접미사 정보, 레이블 제약 정보 및 도메인 지식은 이름 엔티티에 영향을 미치지만 거의 영향을 주지 않습니다.
모델 번호:
여기서 Ec 는 문자 레벨 벡터입니다. Ew 는 문맥 단어를 기반으로 한 단어 벡터입니다.
독서 노트-자동화 된 중국어의 지능 연구
구어체 이해 및 명명 엔티티를위한 단어 세분화
재인식 (나등)
배경: 영어 텍스트에서 문장은 공백으로 구분된 단어 시퀀스입니다. 중국어 문장은 자연 구분 기호가 없는 문자열입니다 (기타 유사한 언어: 아랍어, 일본어). 중국어 처리 임무의 첫 번째 단계는 문장 중의 어순을 식별하고 적절한 위치에 경계를 표시하는 것이다. 중국어 텍스트의 분사는 어느 정도 모호성을 제거할 수 있다. 분사는 일반적으로 많은 중국어 자연어 처리 작업의 첫 번째 단계로 간주되지만 이러한 후속 작업에 미치는 영향은 상대적으로 적습니다.
요약 소개:
현재 주요 문제는 새 데이터에 기존 단어 구분 기호를 적용할 때 1) 이 일치하지 않는다는 것입니다. 2) 더 좋은 분사기가 후속 NLP 임무를 더 잘 표현할 수 있을까.
위의 문제에 대해 이 문서에서는 1) 다음 작업에서 분사 출력을 추가 기능으로 사용하여 분사 단위를 사용하는 것보다 오류 전파에 더 잘 저항할 수 있는 세 가지 방법을 제시합니다. 2) 후속 작업에 대한 교육 데이터에서 얻은 일부 레이블 데이터를 사용하여 기존 분사를 개선하고 엔드-투-엔드 성능을 더욱 향상시킵니다. 3) 분사 출력의 n-best 테이블을 사용하여 후속 작업이 분사 오류에 민감하지 않도록 합니다.
중국어 분사의 주요 임무는: 1) 문장 중의 어순을 인식하는 것이다. 2) 적절한 위치에 경계를 표시하십시오.
요약:
이 문서에서는 분사 출력을 추가 기능으로 사용하는 세 가지 방법을 제시합니다. 지역 학습 적응 수행 N-best 테이블을 사용합니다.
또한 1) 영역 데이터에 단어 경계 정보가 없는 경우 공통 영역 외부의 데이터로 구성된 분사기를 사용하여 전체 성능을 향상시키고 수동 치수로 내보낸 일부 레이블 데이터를 조정하여 성능을 더욱 향상시킬 수 있습니다. 2) 소외된 n-best 분사는 더 많은 개선을 가져올 것이다. 영역 분할을 사용할 수 있을 때 영역 데이터 자체를 사용하여 훈련된 분사기는 CWS 성능이 더 우수하지만 반드시 더 나은 엔드-투-엔드 작업 성능을 갖지는 않습니다. 훈련 및 테스트 데이터에서보다 균형 잡힌 분사기는 더 나은 엔드-투-엔드 성능을 얻을 수 있습니다. 3) 테스트 데이터를 수동으로 나눌 때 분사는 작업에 도움이 되며 분사는 후속 NLP 작업의 모호성을 낮출 수 있습니다.
미래의 가능한 방향: 두 개의 CRF 층을 순서대로 스택하고, 한 층은 분사에, 한 층은 후속 작업에 사용됩니다. 시퀀스 태그 외에도 더 많은 후속 작업에 대해 설명합니다.
실험 (NER 부분):
사용 중인 NER 데이터의 경우 영역 교육 및 테스트 데이터에 단어 경계 정보가 있습니다. 이 문서에서는 도메인 데이터로 훈련된 분사와 공개 사용 가능한 데이터 (두 번째 경우) 의 차이점에 대해 설명합니다. 분사 성적과 엔드-투-엔드 후속 임무 사이의 관계.
실험 데이터: Bakeoff (SIGHAN-3) 의 벤치 마크 NER 데이터는 3 세대 SIGHAN 중국어에서 처리됩니다.
(Levow, 2006). 훈련세트 데이터: 46364 문장, 테스트세트 데이터: 4365 문장. 이 데이터는 단어 경계와 NER 정보로 표시됩니다.
실험 결과: