Unicode
公式サイト:
カテゴリー
参考:
平仮名/ひらがな
参考:
片仮名/カタカナ
参考:
半角片仮名/半角カナ
参考:
Halfwidth and Fullwidth Forms – Wikipedia
濁点/半濁点
参考:
結合文字を使用した濁点や半濁点を直前の仮名と結合させる方法 – Qiita
Unicode では濁点や半濁点を別扱いしてることがあるので結合した | はてなの鴨澤
シナ「プ」スで困った話/Mac の濁点、半濁点問題 | シナプス技術者ブログ
半角/全角
参考:
Unicode 半角/全角形 | CyberLibrarian
リプレイスメントキャラクター
従来の文字コードおけるベンダ依存文字や私用文字 (外字) など、Unicode に存在しない文字をコード変換した際にこの文字コードに置き換えられる。
�
:リプレイスメントキャラクター (Replacement Character / U+FFFD
)
参考:
黒いひし形にはてなマークが出る文字 (�) は UTF-8 変換時のときに変換後の対象がない置き換え文字 | コード日進月歩
日本の文字コードと Unicode との変換についての標準化検討 (y-adagio.com)
Unicode Character ‘REPLACEMENT CHARACTER’ (U+FFFD) | FileFormat.Info
Replacement Character – Wikipedia
サロゲートペア
参考:
正規化
参考:
結合文字/合字/リガチャ
参考:
絵文字
参考:
Unicode 13.0 絵文字 | Let’s EMOJI
Unicode 12.0 絵文字 | Let’s EMOJI
Unicode 11.0 絵文字 | Let’s EMOJI
Unicode 10.0 絵文字 | Let’s EMOJI
日中韓統合漢字 (CJK)
参考:
CJK 統合漢字 全漢字一覧 | CyberLibrarian
CJK 統合漢字 (4E00-62FF) – Wikipedia
CJK 統合漢字 (6300-77FF) – Wikipedia
CJK 統合漢字 (7800-8CFF) – Wikipedia
CJK 統合漢字 (8D00-9FFF) – Wikipedia
ブロック
参考:
漢字
- 康煕部首:
U+2F00
~U+2FDF
U+2F00
(⼀
) ~U+2FD5
(⿕
)
- CJK 部首補助:
U+2E80
~U+2EFF
U+2E80
(⺀
) ~U+2EF3
(⻳
)
- CJK 統合漢字拡張 A:
U+3400
~U+4DBF
U+3400
(㐀
) ~U+4DB5
(䶵
)
- CJK 統合漢字:
U+4E00
~U+9FFF
U+4E00
(一
) ~U+9FD5
(鿕
)
- CJK 互換漢字:
U+F900
~U+FAFF
- CJK 互換漢字補助:
U+2F800
~U+2FA1F
特殊漢字
々
(U+3005
):漢字の繰り返しを表す文字/踊り字〇
(U+3007
):漢数字で用いる零 (ゼロ)〻
(U+303B
):訓読みの繰り返しを表す文字/踊り字
参考:
添え字
- 上付き文字
- 下付き文字
参考:
識別子
- ID_Start:1文字目
- ID_Continue:2文字目以降
NFKC
- XID_Start
- XID_Continue
参考:
Unicode Identifier and Pattern Syntax (UAX #31) | Unicode [Official]
How to get all Unicode characters from specific categories? – Stack Overflow
文字プロパティ
ツール:
Character Properties – Utilities | Unicode [Official]
参考:
Unicode のコードポイントやプロパティの一覧/詳細情報などを確認 | note.nkmk.me
文字データベース
公式サイト:
Character Database (UAX #44) | Unicode [Official]
リンク:
Index of UNIDATA | Unicode [Official]
参考:
Unicode Character Database | SuikaWiki
一覧/検索サイト
0g0.org – Unicode と URL エンコード検索と変換サイト
ツール
Online Charset Conversion | Skandis Systems
UnicodeSet – Utilities | Unicode [Official]
Utilities | Unicode [Official]
ICU
公式サイト:
ICU – International Components for Unicode | Unicode [Official]
リポジトリ:
unicode-org/icu: International Components for Unicode – GitHub
ドキュメント: