文字コード
概要
参考:
ISO 8859-1
- 通称: Latin-1
参考:
Is ISO-8859-1 a Unicode charset? – Stack Overflow
What is the difference between UTF-8 and ISO-8859-1? – Stack Overflow
What are the differences between ASCII, ISO 8859, and Unicode? | Indiana University Knowledge Base
Universal Coded Character Set (UCS)
ISO/IEC 10646 で定められた文字コードの国際標準の一つ。Unicode と概ね互換性のある規格。日本では、JIS X 0221 として規格化されている。
参考:
Unicode
参考:
UTF-8
Windows 10 ではバージョン 1903 (May 2019 Update) で、メモ帳のデフォルト文字コードが UTF-8 (BOM なし) に変更された。
参考:
文字コード考え方から理解する Unicode と UTF-8 の違い | ギークを目指して
メモ帳の既定の文字コードが UTF-8 に | 初心者のための Office 講座
メモ帳の文字コード既定値が UTF-8 に、Windows 10 May 2019 Update | 日経クロステック
メモ帳の保存、文字コードのデフォルトが BOM なし UTF-8 になった – Microsoft コミュニティ
JIS 漢字コード (JIS X 0208)
日本語表記、地名、人名などで用いられる6,879文字を含む、2バイト符号化文字集合を規定する日本工業規格。
参考:
文字コードの変換
参考:
Unicode から ISO-8859-1 への変換 | 葉っぱ日記
絵文字
参考:
絵文字の処理にハマった時に、文字コードとエンコードについて勉強した | Inside PRESSBLOG
Unicode: Behind the Curtain | Emojipedia
Miscellaneous Symbols and Pictographs – Wikipedia
Emoticons (Unicode Block) – Wikipedia
顔文字 (Unicode のブロック) – Wikipedia
Shift JIS
通常、日本語 Windows 環境で使用されてきた Microsoft による実装を指す。1997年に JIS X 0208 として規格化された。IANA には Shift_JIS
として登録されている。電子メールでは、RFC 1468 で規定され、ISO-2022-JP として利用されている。
別名
- CP932
- Windows-31J
- Shift_JIS
- SJIS
- ISO-2022-JP
参考:
Shift_JIS / CP932 / MS932 / Windows-31J | ウナの IT 資格一問一答
シフト JIS を使い続ける上場企業をまとめてみた | megamouth の葬列
Microsoft コードページ 932 – Wikipedia
Shift_JISX0213 (Shift_JIS_2004) はどこで使われていますか? – スタック・オーバーフロー
EUC
- 日本語
- EUC-JP: JIS X 0208 ベース
- EUC-JIS-2004: JIS X 0213 ベース
- 中国語
- EUC-CN: 簡体字
- EUC-TW: 繁体字
- 韓国語
- EUC-KR
参考:
Extended Unix Code – Wikipedia
EUC-TW (CNS 11643) – Wikipedia
EUC-KR (KS X 1001) – Wikipedia
ISO-2022
参考:
バイト順マーク (BOM)
ファイルを読み取る際にファイルが作成された環境のバイト順 (エンディアン) を判別できるよう、ファイルの先頭に書き込まれているゼロ幅改行禁止空白 (Zero Width No-Break Space / U+FEFF
) のことを、Byte Order Mark を省略して「BOM」と呼ぶ。現在では UTF-8 が標準として使われており、UTF-8 ではバイト順を判別する必要がないため、ほぼ廃止されている。
UTF の種類及びエンディアンにより、実際に書き込まれるバイトは次の通りとなる。
- UTF-8:
0xEF 0xBB 0xBF
- UTF-16LE:
0xFF 0xFE
- UTF-16BE:
0xFE 0xFF
- UTF-32LE:
0x00 0x00 0xFE 0xFF
- UTF-32BE:
0xFF 0xFE 0x00 0x00
参考:
BOM (Byte Order Mark) | exlight.net
マジックコメント
参考:
プログラムの文字コードを指定する (Ruby) | JavaDrive
Magic Comment (Python) | Tech 控え帳
中国語
文字コード
- EUC-CN
- GB 2312
- GBK
- GB 18030
- Big5
リンク:
Disruptive Changes in GB 18030-2022 (PDF) | Unicode [Official]
入手:
GBUNICNV – GB18030 to Unicode Conversion Tool | Microsoft [Official]
参考:
GB 18030 簡体字中国語 – 文字コード表 | UIC
GB 2312-80 コード表 | CyberLibrarian
Big5-1984 コード表 | CyberLibrarian
GB 18030 – Private Use Area – Wiktionary
Convert GB2312 to UTF-8 – Stack Overflow
韓国語
文字コード
- EUC-KR
- KS X 1001 / KS C 5601
- Johab
参考:
KS X 1001 / KS C 5601 – コード表 | CyberLibrarian
タイ語
参考:
ISO-8859-11 タイ語 – 文字コード表 | UIC
windows-874 タイ語 – 文字コード表 | UIC
Windows
ドキュメント:
コードページ識別子 | Microsoft Learn [公式]
文字コード表
リンク: