文字化けパターン
主な文字化けパターンは次の通りである。
- 糸偏の漢字が多い → UTF-8 を Shift-JIS で表示した。
- 半角カタカナが多い → EUC-JP を Shift-JIS で表示した。
- ハテナ文字
�
になる → UTF-8 以外を UTF-8 で表示した。(※それ以外のケースもある。) - 発音記号付きのアルファベットになる → UTF-8 を Latin-1 (ISO 8859-1) で表示した。
参考:
文字化け解説/文字化けパターンサンプル | instant tools
海外の技術者が日本語の文字化けを本気で解説/日本人顔負けの日本通っぷりが披露される | GIGAZINE
Mojibake UTF-8 to ISO-8859 (PNG) – Wikipedia
文字化けを解読/変換する
こちらのページを参照
ツール:
コピーライト記号
現象:
コピーライト記号「©」 (C丸) が、半角カタカナの「ゥ」 (小さなウ) になってしまう。
原因:
Latin-1 (ISO 8859-1) で保存されたテキストを Shift JIS (CP932) として認識している。実際の文字コードは 0xA9
である。
対処法:
解釈する文字コードとして Latin-1 (ISO 8859-1) を指定する。
参考: