Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

닌자고양이

ASCII 문자표, 확장 ASCII(CP-437,CP-1252) 문자표 본문

카테고리 없음

ASCII 문자표, 확장 ASCII(CP-437,CP-1252) 문자표

닌자고양이 2021. 4. 11. 01:57

ASCII 코드표 (0-127)

0x03 CTRL+C 프로세스에 종료 신호 전송
0x04 CTRL+D 유닉스 입력 종료
0x1A CTRL+Z 윈도우 입력 종료 (유닉스는 프로세스 일시중지)
SPACE 는 Printable 문자이면서 제어 문자이기도 함

확장 ASCII 코드표 (128-255) 

DOS(CP-437) 및 Window(CP-1252) 코드페이지용 아스키 확장 문자

 

ASCII 
7비트 미국 영어 문자 집합 (0~127).
거의 대부분의 문자 집합이 ASCII 문자 구간을 동일한 문자로 정의.

ANSI 
ASCII 에서 확장된 8비트 문자 집합을 지칭.
대표적으로 Windows-1252, IBM-437, ISO-8859 시리즈 등.
이에 기반한 CP-949 같은 멀티 바이트(가변 길이) 문자 집합들도 ANSI 문자라 함.

ISO-8859-1 (Latin 1)
확장 ASCII 로 라틴 문자들과 최소한의 기호를 추가한 8비트 문자 집합.
총 유효 문자 191개로 0~31, 127~159 코드는 정의하지 않음.
여기에 제어 문자 TAB,CR,LF 를 추가해 HTML2~HTML4 의 기본 문자 집합으로 사용.

코드 페이지 (Code page, CP)
주로 시스템 개발사들이 정의한 문자 집합 및 인코딩 방식으로 언어, 지역, 표준, 시스템, 버전별로 수 많은 페이지들이 존재.

제작사가 명시되지 않으면 IBM 또는 Microsoft 의 코드 페이지로 간주.

 

익숙한 코드 페이지들

CP-437 (IBM-437, OEM-US)
IBM-PC, DOS 에 처음 사용된 8비트 문자 집합의 코드 페이지.
확장 ASCII 로 라틴 문자들과 기호 문자들로 추가해 256개의 문자를 모두 채움.

CP-1252 (Windows-1252)
윈도우에 사용되는 8비트 영어권 문자 집합 코드 페이지.
ISO-8859-1 문자 집합에 C0 구간(0~31)에 제어 문자들, C1 구간(127~159)에 기호 문자들을 추가.
C1구간을 제외한 모든 코드의 문자가 유니코드와 동일하다.

CP-949 (IBM-1363)
윈도우의 기본 한글 코드 페이지로 멀티바이트(1~2바이트 가변 길이) 인코딩.
1바이트일 때 ASCII 와 이진 호환.
2바이트일 때 KS_C_5601 문자 집합 표현.

CP-1200, CP-1201 (UTF-16)
유니코드 UTF-16LE, UTF-16BE 의 윈도우 코드 페이지. 
2바이트로 UCS-2 문자 집합 표현, 4바이트로 UCS-4 문자 집합 표현.

CP-12000, CP-12001 (UTF-32)
유니코드 UTF-32LE, UTF-32BE 의 윈도우 코드 페이지. 
고정 4바이트 인코딩. UCS-4 문자 집합 모두 표현.

CP-65001 (UTF-8)
유니코드 UTF-8 의 윈도우 코드 페이지. 
1~4 바이트 가변 길이 인코딩. UCS-4 문자 집합 거의 표현.
1바이트일 때 ASCII 와 이진 호환. 

Comments