ISO 8859-1

  • 通称Latin-1

参考:

ISO/IEC 8859-1 – Wikipedia

Is ISO-8859-1 a Unicode charset? – Stack Overflow

What is the difference between UTF-8 and ISO-8859-1? – Stack Overflow

What are the differences between ASCII, ISO 8859, and Unicode? | Indiana University Knowledge Base

Universal Coded Character Set (UCS)

ISO/IEC 10646 で定められた文字コードの国際標準の一つ。Unicode と概ね互換性のある規格。日本では、JIS X 0221 として規格化されている。

参考:

ISO/IEC 10646 – Wikipedia

JIS X 0221 – Wikipedia

Unicode

こちらのページを参照

参考:

Unicode – Wikipedia

UTF-8

Windows 10 ではバージョン 1903 (May 2019 Update) で、メモ帳のデフォルト文字コードが UTF-8 (BOM なし) に変更された。

参考:

文字コード考え方から理解する Unicode と UTF-8 の違い | ギークを目指して

メモ帳の既定の文字コードが UTF-8 に | 初心者のための Office 講座

メモ帳の文字コード既定値が UTF-8 に、Windows 10 May 2019 Update | 日経クロステック

メモ帳の保存、文字コードのデフォルトが BOM なし UTF-8 になった – Microsoft コミュニティ

JIS 漢字コード (JIS X 0208)

日本語表記、地名、人名などで用いられる6,879文字を含む、2バイト符号化文字集合を規定する日本工業規格。

参考:

JIS X 0208 – Wikipedia

文字コードの変換

参考:

Unicode から ISO-8859-1 への変換 | 葉っぱ日記

絵文字

こちらのページを参照

参考:

絵文字の処理にハマった時に、文字コードとエンコードについて勉強した | Inside PRESSBLOG

Unicode: Behind the Curtain | Emojipedia

Miscellaneous Symbols and Pictographs – Wikipedia

Emoticons (Unicode Block) – Wikipedia

その他の記号及び絵記号 – Wikipedia

顔文字 (Unicode のブロック) – Wikipedia

Shift JIS

通常、日本語 Windows 環境で使用されてきた Microsoft による実装を指す。1997年に JIS X 0208 として規格化された。IANA には Shift_JIS として登録されている。電子メールでは、RFC 1468 で規定され、ISO-2022-JP として利用されている。

別名
  • CP932
  • Windows-31J
  • Shift_JIS
  • SJIS
  • ISO-2022-JP

参考:

Shift_JIS / CP932 / MS932 / Windows-31J | ウナの IT 資格一問一答

Shift JIS とは | e-Words

シフト JIS | XML 用語事典

ISO-2022-JP | 通信用語の基礎知識

シフト JIS を使い続ける上場企業をまとめてみた | megamouth の葬列

Shift_JIS – Wikipedia

Microsoft コードページ 932 – Wikipedia

JIS X 0208 – Wikipedia

ISO-2022-JP – Wikipedia

Shift_JISX0213 (Shift_JIS_2004) はどこで使われていますか? – スタック・オーバーフロー

バイト順マーク (BOM)

ファイルを読み取る際にファイルが作成された環境のバイト順 (エンディアン) を判別できるよう、ファイルの先頭に書き込まれているゼロ幅改行禁止空白 (Zero Width No-Break Space / U+FEFF) のことを、Byte Order Mark を省略して「BOM」と呼ぶ。現在では UTF-8 が標準として使われており、UTF-8 ではバイト順を判別する必要がないため、ほぼ廃止されている。

UTF の種類及びエンディアンにより、実際に書き込まれるバイトは次の通りとなる。

  • UTF-80xEF 0xBB 0xBF
  • UTF-16LE0xFF 0xFE
  • UTF-16BE0xFE 0xFF
  • UTF-32LE0x00 0x00 0xFE 0xFF
  • UTF-32BE0xFF 0xFE 0x00 0x00

参考:

BOM | 通信用語の基礎知識

BOM | IT 用語辞典バイナリ

バイト順マーク – Wikipedia

BOM (Byte Order Mark) | exlight.net

BOM (U+FEFF) | SuikaWiki

Byte Order Mark – Wikipedia

マジックコメント

参考:

プログラムの文字コードを指定する (Ruby) | JavaDrive

Magic Comment (Python) | Tech 控え帳

記事をシェアする:

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

Protected by reCAPTCHA