文字コードの基本

スポンサーリンク

0. はじめに

文字コードについて基本的なことをまとめます。

1. 概要

英数字、記号、ひらがな、漢字…等の文字は、コンピュータはそのまま理解することができないため、コンピュータが理解できる数値(16進数)に置き換えたものを文字コードという。
文字集合符号化方式という2つの概念が存在し、これらが組み合わさってコンピュータの文字を表している。

2. 文字集合

「文字」と「文字に割り当てた番号」の対応表のこと。
Unicode、JIS(ISO-2022-JP)等がある。

3. 符号化方式

文字集合で定義されている一つ一つの文字を、どのように符号化するかという方式(エンコーディング)。
例えば、Unicodeという一つの文字集合に対して、異なる文字符号化方式(UTF-8、UTF-16)が存在する。

3-1. ASCIIコード

  • 最も基礎となる文字コード。
  • 「数字」「アルファベット」「記号」は1バイトで表す。

ASCIIコード表 (10進数ASCIIコード、16進数ASCIIコード、ASCII文字)

10進16進文字10進16進文字10進16進文字10進16進文字
000NULL3220SP6440@9660`
101SOH3321!6541A9761a
202STX34226642B9862b
303ETX3523#6743C9963c
404EOT3624$6844D10064d
505ENQ3725%6945E10165e
606ACK3826&7046F10266f
707BEL39277147G10367g
808BS4028(7248H10468h
909HT4129)7349I10569i
100ALF422A*744AJ1066Aj
110BVT432B+754BK1076Bk
120CFF442C,764CL1086Cl
130DCR452D774DM1096Dm
140ESO462E.784EN1106En
150FSI472F/794FO1116Fo
1610DLE483008050P11270p
1711DC1493118151Q11371q
1812DC2503228252R11472r
1913DC3513338353S11573s
2014DC4523448454T11674t
2115NAK533558555U11775u
2216SYN543668656V11876v
2317ETB553778757W11977w
2418CAN563888858X12078x
2519EM573998959Y12179y
261ASUB583A:905AZ1227Az
271BESC593B;915B[1237B{
281CFS603C<925C|1247C
291DGS613D=935D]1257D}
301ERS623E>945E^1267E~
311FUS633F?955F_1277FDEL

3-2. Shift_JIS

  • ASCIIコードの文字に加え、日本語の文字を加えたもの。
  • 半角カタカナは1バイトで表現し、それ以外の全角文字は、2バイトで表現する。
  • Windows、Macでも採用しており、PC上のファイルで広く用いられている。

3-3. UTF-8

  • ASCIIコードの文字に加え、世界中の文字を加えたもの。
  • ASCIIコード以外の文字は、2~6バイトで表現され、日本語の文字は、基本的に3バイトで表現する。
  • ASCIIコードとの互換性が良いため、パソコンで扱いやすく、世界中の多くのソフトウェアは、UTF-8に対応しています。

3-4. UTF-16

  • ASCIIコードは使わず、基本的な世界中の文字(基本多言語)の全てを2バイトで表現し、残りのマイナーな文字を4バイトで表現した文字コード。
  • 半角アルファベット、半角数字、日本語のほとんどが2バイトで表現されます。
  • 多くの文字を対応しており、様々な場面で使われているが、UTF-8より対応するシフトウェアは少ない。

3-5. EUC

  • Extended UNIX Codeの略。
  • UNIX環境でよく使われるコード体系。
  • EUCには日本語EUC、中国語EUC、韓国語EUCなどがある。

4. おわりに

他にも追加情報等ありましたら随時更新致します。

コメント

タイトルとURLをコピーしました