디코딩된 모든 인코딩 분류

1. 한자 영역. 포함 내용:

A.GB 23 12 한자 영역. GBK/2: B0A 1-F7FE 입니다. GB 23 12 는 모두 6763 자의 한자로, 원래 순서로 배열되어 있다.

B.GB 13000. 1 한자 영역 확장. 포함 내용:

(1) GBK. GB 13000. 1 에 있는 6080 개의 한중일 한자를 포함합니다.

(2) GBK/4: AA40-FEA0. 한중일 한자 포함 및 8 160 추가 한자 포함.

한중일 한자가 우선하며 UCS 코드 크기에 따라 정렬됩니다. 간지 (편측부와 부품 포함) 를 보충하는 것은 강희사전 페이지/위치에 따라 마지막을 차지한다.

2. 그래픽 기호 영역. 포함 내용:

A.GB 23 12 한자가 아닌 기호 영역. 즉 gbk/1:a1a1-a9fe 입니다. GB 23 12 의 기호를 제외하고

또한 GB 12345 보충 10 소문자 로마 숫자와 기호가 있습니다. 7 17 개의 기호가 있습니다.

B.GB 13000. 1 한자 이외의 영역 확장. GBK/5: A840-A9A0 입니다. BIG-5 는 중국어가 아닌 기호, 구조기호 및' 0' 이 이 영역에 배열되어 있습니다. 166 개의 기호가 있습니다.

3. 사용자 지정 영역: (1)(2)(3) 세 개의 커뮤니티로 나뉩니다.

(1) 564 인코딩 비트가 있는 AAA1-affe.

(2) 658 자리 f8a1-fefe.

(3) a140-a7a 0,672 야드 비트.

영역 (3) 은 사용자에게 개방되어 있지만 향후 해당 영역에 새 문자를 추가할 가능성을 배제하지 않기 때문에 사용이 제한됩니다.

여기 몇 가지 힌트가 있습니다.

1, PHP 에서 문자 인코딩은 전송 기반 인코딩입니다. 일부 사용자는 인코딩 입력을 사용하여 자동으로 변경되지 않지만 ASP 에서는 기본 인코딩이 유니코드이므로 GBK->; 유니코드 인코딩 비교표를 통해 기본 라이브러리가 없어도 gbk 에서 UTF-8 로 쉽게 변환할 수 있습니다.

2. GBK 의 최저값은 0x40, 즉 64 이기 때문에, 때로는 중국어와 관련된 문자열을 구성할 때 64 전에 ascii 코드를 사용하여 문자를 분할하는 것이 좋다. 이렇게 하면 대체나 분할시 깨짐이 발생하지 않는다. 비교적 흔히 볼 수 있는 것은,,; ,:,,,, 이 문자들은 절대 GB 코딩에 폐를 끼치지 않습니다.