文字コード

概要

参考:

文字コード | 通信用語の基礎知識

ISO 8859-1

  • 通称 Latin-1

参考:

ISO/IEC 8859-1 – Wikipedia

Is ISO-8859-1 a Unicode charset? – Stack Overflow

What is the difference between UTF-8 and ISO-8859-1? – Stack Overflow

What are the differences between ASCII, ISO 8859, and Unicode? | Indiana University Knowledge Base

Universal Coded Character Set (UCS)

ISO/IEC 10646 で定められた文字コードの国際標準の一つ。Unicode と概ね互換性のある規格。日本では、JIS X 0221 として規格化されている。

参考:

ISO/IEC 10646 – Wikipedia

JIS X 0221 – Wikipedia

Unicode

こちらのページを参照

参考:

Unicode – Wikipedia

UTF-8

Windows 10 ではバージョン 1903 (May 2019 Update) で、メモ帳のデフォルト文字コードが UTF-8 (BOM なし) に変更された。

参考:

文字コード考え方から理解する Unicode と UTF-8 の違い | ギークを目指して

メモ帳の既定の文字コードが UTF-8 に | 初心者のための Office 講座

メモ帳の文字コード既定値が UTF-8 に、Windows 10 May 2019 Update | 日経クロステック

メモ帳の保存、文字コードのデフォルトが BOM なし UTF-8 になった – Microsoft コミュニティ

JIS 漢字コード (JIS X 0208)

日本語表記、地名、人名などで用いられる6,879文字を含む、2バイト符号化文字集合を規定する日本工業規格。

参考:

JIS X 0208 – Wikipedia

文字コードの変換

参考:

Unicode から ISO-8859-1 への変換 | 葉っぱ日記

絵文字

こちらのページを参照

参考:

絵文字の処理にハマった時に、文字コードとエンコードについて勉強した | Inside PRESSBLOG

Unicode: Behind the Curtain | Emojipedia

Miscellaneous Symbols and Pictographs – Wikipedia

Emoticons (Unicode Block) – Wikipedia

その他の記号及び絵記号 – Wikipedia

顔文字 (Unicode のブロック) – Wikipedia

Shift JIS

通常、日本語 Windows 環境で使用されてきた Microsoft による実装を指す。1997年に JIS X 0208 として規格化された。IANA には Shift_JIS として登録されている。電子メールでは、RFC 1468 で規定され、ISO-2022-JP として利用されている。

別名
  • CP932
  • Windows-31J
  • Shift_JIS
  • SJIS
  • ISO-2022-JP

参考:

Shift_JIS / CP932 / MS932 / Windows-31J | ウナの IT 資格一問一答

Shift JIS とは | e-Words

シフト JIS | XML 用語事典

ISO-2022-JP | 通信用語の基礎知識

シフト JIS を使い続ける上場企業をまとめてみた | megamouth の葬列

Shift_JIS – Wikipedia

Microsoft コードページ 932 – Wikipedia

JIS X 0208 – Wikipedia

ISO-2022-JP – Wikipedia

Shift_JISX0213 (Shift_JIS_2004) はどこで使われていますか? – スタック・オーバーフロー

EUC

  • 日本語
    • EUC-JP JIS X 0208 ベース
    • EUC-JIS-2004 JIS X 0213 ベース
  • 中国語
    • EUC-CN 簡体字
    • EUC-TW 繁体字
  • 韓国語
    • EUC-KR

参考:

EUC | 通信用語の基礎知識

SO | 通信用語の基礎知識

SI | 通信用語の基礎知識

Extended Unix Code – Wikipedia

EUC-JP – Wikipedia

EUC-JIS-2004 – Wikipedia

EUC-CN (GB 2312) – Wikipedia

EUC-TW (CNS 11643) – Wikipedia

EUC-KR (KS X 1001) – Wikipedia

ISO-2022

参考:

ISO-2022 | 通信用語の基礎知識

ISO/IEC 2022 | 通信用語の基礎知識

ISO-2022-JP | 通信用語の基礎知識

ISO-2022-JP-3 | 通信用語の基礎知識

ISO-2022-JP-2004 | 通信用語の基礎知識

ISO-2022-CN | 通信用語の基礎知識

ISO-2022-CN-EXT | 通信用語の基礎知識

バイト順マーク (BOM)

ファイルを読み取る際にファイルが作成された環境のバイト順 (エンディアン) を判別できるよう、ファイルの先頭に書き込まれているゼロ幅改行禁止空白 (Zero Width No-Break Space / U+FEFF) のことを、Byte Order Mark を省略して「BOM」と呼ぶ。現在では UTF-8 が標準として使われており、UTF-8 ではバイト順を判別する必要がないため、ほぼ廃止されている。

UTF の種類及びエンディアンにより、実際に書き込まれるバイトは次の通りとなる。

  • UTF-8 0xEF 0xBB 0xBF
  • UTF-16LE 0xFF 0xFE
  • UTF-16BE 0xFE 0xFF
  • UTF-32LE 0x00 0x00 0xFE 0xFF
  • UTF-32BE 0xFF 0xFE 0x00 0x00

参考:

BOM | 通信用語の基礎知識

BOM | IT 用語辞典バイナリ

バイト順マーク – Wikipedia

BOM (Byte Order Mark) | exlight.net

BOM (U+FEFF) | SuikaWiki

Byte Order Mark – Wikipedia

マジックコメント

参考:

プログラムの文字コードを指定する (Ruby) | JavaDrive

Magic Comment (Python) | Tech 控え帳

中国語

文字コード
  • EUC-CN
  • GB 2312
  • GBK
  • GB 18030
  • Big5

リンク:

Disruptive Changes in GB 18030-2022 (PDF) | Unicode [Official]

入手:

GBUNICNV – GB18030 to Unicode Conversion Tool | Microsoft [Official]

参考:

GB コードについて | アンテナハウス株式会社

EUC-CN | 通信用語の基礎知識

GB 2312 – Wikipedia

GBK – Wikipedia

GB 18030 – Wikipedia

GB 18030 – Wikipedia (EN)

EUC-CN 簡体字中国語 – 文字コード表 | UIC

GB 18030 簡体字中国語 – 文字コード表 | UIC

GB 2312-80 コード表 | CyberLibrarian

Big5-1984 コード表 | CyberLibrarian

GB 18030 – Private Use Area – Wiktionary

Convert GB2312 to UTF-8 – Stack Overflow

韓国語

文字コード
  • EUC-KR
  • KS X 1001 / KS C 5601
  • Johab

参考:

KS X 1001 / KS C 5601 – コード表 | CyberLibrarian

EUC-KR 韓国語 – 文字コード表 | UIC

Johab | 通信用語の基礎知識

KS X 1001 – Wikipedia

タイ語

参考:

ISO-8859-11 タイ語 – 文字コード表 | UIC

windows-874 タイ語 – 文字コード表 | UIC

x-mac-thai タイ語 – 文字コード表 | UIC

Windows

ドキュメント:

コードページ識別子 | Microsoft Learn [公式]

文字コード表

リンク:

対応エンコードリスト – 文字コード表 | UIC

リンク

参考資料 | CyberLibrarian

記事をシェアする:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Protected by reCAPTCHA