세밀한 분류에서 로컬 피쳐를 사용하는 방법에는 큰 한계가 있습니다.
따라서 이미지 레벨 레이블의 분류 방법을 사용합니다. 예를 들어, Simon 과 Rodner[26] 는 컨볼 루션 신경망 (CNN) 을 사용하여 신경 활성화 모드의 별자리를 찾는 별자리 모델을 제안했습니다. 장 등 [36] 은 깊이 회선 필터와 결합하여 컴포넌트를 선택하고 설명하는 자동 미세 이미지 분류 방법을 제시했습니다. 이러한 모델은 CNN 을 로컬 탐지기로 사용하여 세밀한 인식을 크게 개선했습니다. 구성 요소 기반 접근 방식과 달리 서로 다른 회선 레이어의 활성화를 대상 구성 요소를 명시적으로 찾는 대신 레이어 간 쌍선형 풀을 사용하여 구성 요소 속성의 레이어 간 상호 작용을 캡처하는 것이 세밀한 인식에 매우 유용하다는 것이 입증되었습니다.
또한 연구 [3,6, 17, 12] 가 쌍선형 풀 프레임워크를 도입하여 로컬 오브젝트를 모델링했습니다. 일부 유망한 결과가 보도되었지만, 추가 개선에는 여전히 다음과 같은 제한이 있다. 첫째, 기존의 쌍선형 풀 기반 모델은 대부분 마지막 컨볼 루션 레이어의 활성화를 이미지로만 표현하며 객체의 의미 부분을 설명하기에 충분하지 않습니다. 둘째, 중간 컨볼 루션 활동을 무시하면 세분화 된 분류에 대한 판별 정보가 손실되며 이는 세분화 된 시각적 인식에 큰 의미가 있습니다.
우리 모두 알고 있듯이 CNN 에는 정보 손실이 있습니다. 유용한 정보의 세밀한 인식 손실을 최소화하기 위해 여러 계층 간 쌍 선형 피쳐를 통합할 수 있는 새로운 계층 쌍 선형 풀 구조가 제시되어 표현 능력을 높였습니다. 중간 컨볼 루션 레이어의 활성화를 최대한 활용하기 위해 모든 교차 레이어 쌍 선형 피쳐가 최종 분류 전에 연결됩니다. 서로 다른 컨볼 루션 레이어의 특징은 상호 보완적이며 식별 기능 학습에 도움이 됩니다. 따라서 네트워크는 계층 간 피쳐 상호 작용과 세밀한 피쳐 학습의 상호 향상의 이점을 누릴 수 있습니다. 우리의 공헌은 다음과 같이 요약됩니다.
1. 우리는 레이어 간 특징의 상호 작용을 지원하고 상호 촉진적인 방식으로 세밀한 표현을 배우는 간단하지만 효과적인 크로스 레이어 쌍선형 풀 기술을 개발했습니다.
2. 여러 개의 크로스 레이어 쌍 선형 모듈을 통합하고 중간 회선 레이어에서 상호 보완적인 정보를 가져와 성능을 향상시키는 크로스 레이어 쌍 선형 풀을 기반으로 하는 계층 쌍 선형 풀 프레임워크를 제안했습니다.
3. 우리는 세 가지 도전적인 데이터 세트 (병아리, 스탠포드 자동차, fgvc 비행기) 에서 전면적인 실험을 한 결과 우리 방법의 우월성을 증명했다.
이 기사의 나머지 부분은 다음과 같이 구성됩니다. 두 번째 부분은 관련 작업에 대한 검토입니다. 섹션 3 은 제안 된 방법을 소개합니다. 4 절은 실험과 결과 분석을, 5 절은 결론을 내렸다.
다음 문장 에서는 CNN 의 세밀한 특징 학습 및 특징 통합을 포함하여 우리의 작업과 관련된 두 가지 흥미로운 각도에서 이전 작업을 간략하게 검토합니다.
1. 미세 범주의 미묘한 차이를 더 잘 모델링하기 위해 Lin 등 [17] 은 두 개의 독립적인 CNN 을 통해 한 쌍의 피쳐를 수렴하는 쌍선형 구조를 제시했습니다. 이 구조는 피쳐 벡터의 외적 곱을 사용하여 매우 높은 차원의 2 차 전개 피쳐를 생성합니다.
2. 높은 [23] 텐서를 사용하여 2 차 통계량을 근사화하고 피쳐 차원을 줄입니다.
3. 구멍 등은 공분산 행렬에 대해 낮은 근사치를 채택하여 계산의 복잡성을 더욱 줄였다.
4.Yin 등은 피쳐에 텐서 스케치 압축을 반복적으로 적용하여 높은 수준의 통계를 수집합니다.
5.[22] 의 작업은 쌍선형 컨볼 루션 신경망을 기본 모델로 하여 통합 학습 방법을 사용하여 가중치를 부여합니다.
6. [16] 에서 행렬의 제곱근 정규화를 제안하고 기존 정규화를 보완한다는 것을 증명했다.
그러나 이러한 방법은 단일 컨볼 루션 레이어의 특성만 고려하며 오브젝트의 다양한 판별 부분을 캡처하거나 하위 범주 간의 미묘한 차이를 시뮬레이션하기에는 충분하지 않습니다. Dell 의 접근 방식은 레이어와 레이어 간의 피쳐 상호 작용과 세밀한 피쳐 학습을 서로 촉진하는 방식으로 결합하여 이러한 제한을 극복하고 더욱 효과적입니다.
3,7,19,33 CNN 에서 서로 다른 컨볼 루션 레이어 특징도의 유효성을 연구합니다.
작성자는 각 컨볼 루션 레이어를 사용되지 않은 오브젝트 부분의 속성 추출기로 간주하여 직관적이고 효과적인 방식으로 직접 상호 작용을 모델링합니다.
이 섹션에서는 위의 제한 사항을 극복하기 위해 계층 쌍 선형 모델을 설정합니다. 계층 쌍 선형 모델을 제안하기 전에 먼저 3. 1 섹션에서 세밀한 이미지 인식을 위한 분해 쌍 선형 풀의 일반 공식을 소개했습니다. 이를 바탕으로 3.2 절에서 서로 다른 회선 레이어의 활성화를 공동으로 학습하고 정보의 크로스 레이어 상호 작용을 캡처하여 더 나은 표현 능력을 얻을 수 있는 크로스 레이어 쌍선형 풀 기술을 제시했습니다. 마지막으로, Dell 의 계층형 쌍 선형 모델은 여러 개의 교차 레이어 쌍 선형 모듈을 결합하여 보다 자세한 부분 설명을 생성하여 보다 세밀한 인식을 제공합니다.
쌍선형 풀의 분해는 시각적 질문에 답하는 작업에 적용되었으며, Kim 등 [1 1] 은 쌍선형 풀의 Hadamard 곱 분해를 이용하여 효과적인 멀티 모달 학습을 위한 주의 메커니즘을 제시했다. 에서는 세밀한 이미지 인식을 위한 분해 쌍선형 풀 기술의 기본 공식에 대해 설명합니다. 이미지 I 가 CNN 필터를 통과한 후 컨볼 루션 레이어의 출력 특징도가 X Rh w c, H, W, C 라고 가정해 보겠습니다. 공간 위치의 C 차원 설명자를 X = [x 1, x2, ..., XC] T 로 표시했습니다.
여기서 Wi 는 투영 행렬이고 Zi 는 쌍선형 모델의 출력입니다. 우리는 W = [W 1, W2, ..., Wo] 를 배우고 O 차원 출력 Z 를 얻어야 한다. [24] 의 행렬 분해, 등식의 투영 행렬 Wi 를 기준으로 합니다. (1) 는 두 개의 단일 순위 벡터로 분해될 수 있습니다.
여기서 ui ∩ RC 와 VI ∩ RC 가 있습니다. 따라서 출력 피쳐 z ∨ ro 는 다음과 같이 제공됩니다
여기서 U Rc d 와 V Rc d 는 투영 행렬, P Rd o 는 분류 행렬, O 는 Hadamard 곱, D 는 절리의 포함된 차원을 결정하는 하이퍼매개변수입니다.
세밀한 하위 범주는 일반적으로 모양이 비슷하며 새의 색상, 모양 또는 부리 길이와 같은 로컬 속성의 미묘한 차이로만 구분할 수 있습니다. 쌍 선형 풀은 중요한 세분화 된 인식 기술입니다. 그러나 대부분의 쌍선형 모델은 단일 컨볼 루션 레이어에서 특성을 배우는 데에만 초점을 맞추고 정보의 크로스 레이어 상호 작용을 완전히 무시합니다. 각 오브젝트 부분에는 영역의 분자 분류에 중요한 여러 속성이 있기 때문에 단일 컨볼 루션 레이어의 활성화는 불완전합니다.
실제로 대부분의 경우 주어진 이미지의 범주를 결정하기 위해 부품 피쳐의 여러 요소를 고려해야 합니다. 따라서 좀 더 세밀한 특징을 포착하기 위해 CNN 의 각 컨볼 루션 레이어를 속성 추출기의 일부로 취급하는 크로스 레이어 쌍선형 풀 방법을 개발했습니다. 그런 다음 요소 곱셈을 통해 서로 다른 컨볼 루션 레이어의 특징을 통합하여 일부 속성의 레이어 간 상호 작용 모델을 설정합니다. 공식 (3) 에 따라 다음과 같이 다시 작성할 수 있습니다.
섹션 3.2 에 제시된 크로스 레이어 쌍선형 풀은 교육 매개변수를 늘리지 않고 기존 쌍선형 풀 모델보다 표현 능력이 뛰어납니다. 이것은 서로 다른 주름층 사이의 층간 특징의 상호 작용을 이용하여 세밀한 하위 층 간의 구분 속성을 캡처하는 데 도움이 된다는 것을 시사한다. 따라서 교차 레이어 쌍 선형 풀을 확장하여 더 많은 중간 컨볼 루션 레이어를 통합하고 피쳐 표현의 속도를 더욱 높였습니다. 이 섹션에서는 여러 크로스 레이어 쌍 선형 풀 모듈을 계단식으로 구성하여 더 많은 회선 레이어 기능을 결합하는 광범위한 계층 쌍 선형 모델을 제시했습니다. 특히 계층 간 쌍선형 풀 모듈을 상호 작용 단계와 분류 단계로 나눕니다. 공식은 다음과 같습니다.
여기서 P 는 분류 행렬, U, V, S, ... 각각 컨볼 루션 레이어 고유 벡터 X, Y, Z, ... 의 투영 행렬입니다. HBP 프레임워크의 전체 프로세스는 그림 1 에 나와 있습니다.
이 섹션에서는 세밀한 기록에서 HBP 모델의 성능을 평가합니다. 4. 1 섹션에서는 먼저 HBP 의 데이터 세트와 구현 세부 사항을 소개합니다. 섹션 4.2 에서는 모델 구성 연구를 수행하여 각 어셈블리의 유효성을 조사했습니다. 섹션 4.3 은 최신 방법과의 비교를 제공합니다. 마지막으로, 섹션 4.4 에서 질적 시각화는 우리 모델을 시각적으로 설명하는 데 사용됩니다.
데이터 세트: cub200-20 1 130, 표준 카드15, fgvc-aircraft 2/
실험: ImageNet 분류 데이터 세트 사전 훈련된 기준 모델 VGG- 16 을 사용하여 HBP 를 평가하고 마지막 세 개의 완전 연결 계층을 삭제합니다. Inception 및 ResNet 에도 적용할 수 있으며 이미지 크기를 448 로 입력합니다. Dell 의 데이터 확장은 교육에 무작위 샘플링 (5 12 S 에서 448 448, 여기서 S 는 가장 큰 이미지 가장자리) 및 수평 뒤집기를 사용하여 추리에 중심 컷만 사용하는 일반적인 접근 방식을 따릅니다. 먼저 logistic 회귀 교육 분류기를 사용한 다음 로트 크기 16, 운동량 0.9, 가중치 감쇠 5 10 4, 학습 속도 10 3 의 임의 그라데이션 강하 방법을 사용하여 전체 네트워크를 진행했습니다.
크로스 레이어 쌍선형 풀 (CBP) 에는 사용자 정의 투영 차원 D 가 있습니다. D 의 영향을 연구하기 위해 제안된 프레임워크의 유효성을 검증하기 위해 cub200 -20 1 1[30] 데이터 세트에서 많은 실험을 했습니다. FBP 의 relu5 3, CBP 의 relu5 2 및 relu5 3, HBP 의 relu5 1, relu5 2 및 relu5 3 을 사용하여 그림 2 의 결과를 얻었습니다. 다음과 같은 선별층 정량 실험도 제공됩니다. VGG- 16[27] 에서는 relu5 1, relu5 2 및 relu5 3 에 초점을 맞추고 있습니다. 얕은 층에는 더 많은 바이어스 정보가 포함되어 있기 때문입니다. 그림 2 에서는 CBP 와 일반 분해 쌍선형 풀 모델 (FBP) 의 성능을 비교했습니다. 이를 바탕으로 다중 계층 조합의 HBP 방법에 대해 자세히 살펴보았습니다. 마지막으로 하이퍼매개 변수 D 의 영향 요인을 분석합니다. 그림 2 에서 다음과 같은 중요한 결론을 도출할 수 있습니다.
첫째, 동일한 D 에서 우리의 CBP 는 FBP 보다 훨씬 우수합니다. 이는 각 레이어 기능 간의 상호 작용이 인식 능력을 향상시킬 수 있음을 보여줍니다.
둘째, HBP 는 CBP 보다 훨씬 우수하여 중간 컨볼 루션 레이어를 활성화하는 것이 세밀한 인식에 효과적이라는 것을 증명합니다. 이는 전파 과정에서 세포 신경망의 정보 손실로 설명할 수 있으므로 세밀한 인식에 중요한 인식 기능이 중간 컨볼 루션 레이어에서 손실될 수 있습니다. 우리의 HBP 는 CBP 보다 더 많은 중간 컨볼 루션 층의 특징 상호 작용을 고려하므로 HBP 가 최고의 성능을 보여 주기 때문에 더욱 견고합니다. 다음 실험에서 HBP 는 다른 가장 진보 된 방법과 비교되었습니다.
셋째, D 가 5 12 에서 8 192 로 변경되면 D 를 늘리면 모든 모델의 정확도가 향상되고 HBP 는 d = 8 192 포화에 도달합니다. 따라서 d = 8 192 입니다.
그런 다음 cub200 -20 1 1[30] 데이터 세트에서 정량 실험을 수행하여 해당 계층의 영향 요인을 분석했습니다. 표 2 의 정밀도는 동일한 임베딩 차원 (d = 8 192) 에서 얻어집니다. 우리는 CBP 와 HBP 의 다양한 수준의 결합을 고려합니다. 그 결과 프레임의 성능 향상은 주로 레이어 간 상호 작용과 다중 레이어 조합에서 비롯된 것으로 나타났습니다. HBP-3 은 최고의 성능을 보여 주었기 때문에 4.3 절의 모든 실험에서 relu5 1, relu5 2 및 relu5 3 을 사용했습니다.
또한 계층 간 통합과 하이퍼시퀀스 [3] 기반 유한 요소 융합도 비교했습니다. 공정한 비교를 위해 하이퍼시퀀스를 relu5 3 과 relu5 2 의 피쳐 연결로 다시 인식한 다음 동일한 실험 설정에서 HyperBP 라는 쌍 선형 풀을 분해했습니다. 표 3 에서 볼 수 있듯이 CBP 의 결과는 HyperBP 의 결과보다 약간 우수하며 1/2 매개 변수에 가깝다는 것을 알 수 있습니다. 이는 통합 프레임워크가 캡처 계층 간의 피쳐 관계에 더 효과적이라는 것을 다시 한 번 보여 줍니다. 우리의 CBP 가 인간의 인식과 어느 정도 일치하기 때문에 이것은 놀라운 일이 아닙니다. HyperBP 알고리즘과 달리 더 많은 컨볼 루션 레이어 활성화 [3] 을 통합할 때 결과가 더 나빠집니다. 우리의 HBP 알고리즘은 중간 컨볼 루션 레이어의 보완 정보를 캡처하여 인식 정확도가 크게 향상되었습니다.
결과 cub- 200-20 1 1. CUB 데이터 세트는 경계 상자와 새 부분에 대한 지면 실제 주석을 제공합니다. 우리가 사용하는 유일한 모니터링 정보는 이미지 레벨 클래스 태그입니다. Cub200 -20 1 1 의 분류 정밀도는 표 4 에 나와 있습니다. 테이블은 행별로 세 부분으로 나뉩니다. 첫 번째 부분에는 치수 기반 방법 (객체 경계 상자 또는 부분 치수 사용) 이 요약되어 있습니다. 두 번째 방법은 감독되지 않은 부분 기반 방법입니다. 마지막으로 풀 기반 방법의 결과가 제공됩니다.
표 4 의 결과에서 볼 수 있듯이, PN-CNN[2] 은 인간 정의 포위 상자와 강력한 지상 실부 슈퍼 비전을 사용합니다. SPDA- CNN[35] 지면 진실 부분을 사용하고 B-CNN [17] 은 매우 높은 차원 피쳐 표현 (250K 차원) 이 있는 경계 상자를 사용합니다. PN- CNN[2], SPDA-CNN[35] 및 B-CNN[ 17] 과 비교하여 제안된 HBP (relu5 3+relu5 2+relu STN[9] 보다 강력한 초기 네트워크를 벤치마킹으로 사용하여 ac-assistant pastor 신분에 비해 3.6% 의 가족혈압 (relu5 3+relu5 2+relu5 1) 을 받았다. 우리는 심지어 RA-CNN[5] 과 MA-CNN[37] 을 제치고 최근 가장 앞선 감독되지 않은 부분 원인 방법을 제시했습니다. 상대 정확도는 각각 2. 1% 와 0.7% 입니다. Pool 기반 B-CNN[ 17], CBP[6], LRBP[ 12] 기준선에 비해 레이어 간 상호 작용과 결과 특성의 다중 계층 통합이 더 우수합니다. BoostCNN[22] 을 능가하여 여러 규모로 훈련된 여러 쌍선형 네트워크를 개선할 수 있습니다. HIHCA[3] 는 피쳐 상호 작용 모델과 유사한 사상을 세밀한 인식으로 제시했지만, 계층과 레이어 간의 피쳐 상호 작용과 판별 피쳐 학습의 상호 촉진 프레임워크로 인해 우리 모델은 더 높은 정확도를 얻을 수 있습니다. Hbp (relu 5 3+relu 5 2+relu 51) 는 CBP(relu5 3+relu5 2) 및 FBP(relu5 3) 보다 성능이 뛰어나 모델을 보여줍니다
스탠포드 자동차 회사의 성과. 스탠포드 자동차의 분류 정확도는 표 5 에 나와 있다. 자동차 부품마다 다르고 상호 보완적이기 때문에 물체와 부품의 현지화는 여기서 중요한 역할을 할 수 있습니다. 우리의 HBP 에는 명확한 부분 테스트가 없지만, 우리의 검사 결과는 현재 가장 선진적인 검사 방법 중 가장 좋다. 층간 특징에 기반한 상호 작용 학습은 수동으로 정의된 경계 상자를 사용하는 PA-CNN[ 13] 보다 1.2% 의 상대 정확도를 높였습니다. 감독되지 않은 부분 기반 방법에 비해 우리는 뚜렷한 개선을 관찰할 수 있다. Dell 의 HBP 도 풀 기반 접근 방식인 BoostCNN[22] 과 KP[4] 보다 우수합니다.
결과 FGVC- 비행기. 미세한 차이로 인해 서로 다른 비행기 모델을 식별하기 어렵습니다. 예를 들어 모델의 창 수를 계산하여 구분할 수 있습니다. 표 6 은 fgvc 항공기의 분류 정확도를 요약 한 것입니다. 그럼에도 불구하고, 우리의 모형은 이미 최고 수준에 도달했고, 분류 정확도도 모든 방법 중 가장 높다. 주석 기반 MDTP[32] 방법, 부분 학습에 기반한 MA-CNN[37] 방법 및 풀 기반 BoostCNN[22] 방법에 비해 꾸준한 개선을 관찰할 수 있어 제안된 HBP 모델의 효율성과 견고성을 강조합니다.
모델을 더 잘 이해하기 위해 네트워크의 여러 계층에 대한 모델 응답을 서로 다른 데이터 세트에서 시각적으로 미세 조정합니다. 피쳐 활성화의 평균 진폭을 계산하여 활성 그래프 채널을 얻습니다. 그림 3 에서는 세 개의 서로 다른 데이터 세트에서 무작위로 일부 이미지를 선택하여 시각화했습니다.
모든 시각화 결과에 따르면 제안된 모델은 지저분한 배경을 인식하고 고도로 특정 장면에서 강하게 활성화될 수 있습니다. 프로젝트 1, 프로젝트 2, 프로젝트 3 에서 강조 표시된 활성 영역은 새끼의 머리, 날개, 가슴 등의 의미 부분과 밀접한 관련이 있습니다. 자동차 앞 범퍼, 휠, 조명; 비행기 조종석, 꼬리 안정기, 엔진. 이러한 부분은 범주를 구분하는 열쇠입니다. 더 중요한 것은, 우리의 모델은 인간의 인식과 매우 일치하며, 장면이나 물체를 감지할 때의 세부적인 문제를 해결한다는 것이다. 그림 3 에서 볼 수 있듯이 역컨볼 루션 레이어 (relu5 1, relu5 2, relu5 3) 는 대상 오브젝트의 대략적인 위치를 제공합니다. 이를 바탕으로 투영 레이어 (project5 1, project5 2, project5 3) 는 오브젝트의 본질적인 부분을 더욱 파악하여 여러 부분 피쳐의 지속적인 상호 작용과 통합을 통해 범주를 구분합니다. 이 과정은 인간의 인식과 자연 [20] 에 부합한다. 형식탑의 격언의 영향을 받는다. 전체 앞부분, 우리 프레임 모델의 분류가 불분명하고, 부분 탐지와 국부적인 차이에 대한 직관적인 해석도 제공한다.
이 문서에서는 계층 간 상호 작용과 판별 특성의 학습을 결합하여 여러 계층의 특징을 세밀하게 융합하는 계층적 쌍선형 풀 방법을 설명합니다. 제시된 네트워크는 경계 상자/어셈블리 주석이 필요하지 않으며 철저한 교육을 받을 수 있습니다. 새, 자동차, 비행기에 대한 대량의 실험은 우리 프레임의 유효성을 증명했다. 앞으로 우리는 두 방향으로 우리의 연구를 확장할 것이다. 더 많은 레이어 피쳐를 효과적으로 통합하여 다중 스케일 부품 표현을 얻는 방법, 효과적인 부품 위치 지정 방법과 결합하여 보다 세밀한 표현을 배우는 방법.