Encode::TW - 台灣中文編碼
use Encode qw/encode decode/;
$big5 = encode("big5", $utf8); # loads Encode::TW implicitly
$utf8 = decode("big5", $big5); # ditto
此模組實作台灣和香港使用的繁體中文字元集編碼。支援的編碼如下。
Canonical Alias Description
--------------------------------------------------------------------
big5-eten /\bbig-?5$/i Big5 encoding (with ETen extensions)
/\bbig5-?et(en)?$/i
/\btca-?big5$/i
big5-hkscs /\bbig5-?hk(scs)?$/i
/\bhk(scs)?-?big5$/i
Big5 + Cantonese characters in Hong Kong
MacChineseTrad Big5 + Apple Vendor Mappings
cp950 Code Page 950
= Big5 + Microsoft vendor mappings
--------------------------------------------------------------------
如需詳細瞭解如何使用此模組,請參閱 Encode。
由於大小考量,EUC-TW
(延伸 Unix 字元)、CCCII
(資訊交換用中文字元碼)、BIG5PLUS
(CMEX 的 Big5+)和 BIG5EXT
(CMEX 的 Big5e)會在 CPAN 上以 Encode::HanExtra 的名稱分開發行。該模組也包含其他中國編碼。
由於原始的 big5
編碼(1984 年)在任何地方都不受支援(glibc 和 DOS 系統使用 big5
表示 big5-eten
;Microsoft 使用 big5
表示 cp950
),因此有意識地決定將 big5
別名設為 big5-eten
,這是原始 big5 的實際超集。
CNS11643
編碼檔案不完整。對於常見的 CNS11643
處理,請在 Encode::HanExtra 中使用 EUC-TW
,其中包含 1-7 層。
ASCII 區域(0x00-0x7f)保留給所有編碼,即使這與 Unicode 聯盟的對應衝突。