说明文档

关于字符集转换工具

该工具用于不同字符编码之间的文本与文件转换,支持自动识别、BOM 处理及多种输入输出格式。

核心功能

  • 多编码互转:支持 UTF 系列、GB 系列、BIG5、Shift-JIS、EUC-KR、ISO/Windows 编码等。
  • 自动检测:可自动识别源编码并给出检测结果。
  • BOM 选项:支持添加或移除 BOM。
  • 格式转换:支持文本、Base64、Hex、空格 Hex、C 风格 Hex 等输入输出。
  • 文本/文件双模式:既可处理文本,也可处理文件内容。

使用说明

  1. 选择文本或文件模式。
  2. 设定源编码与目标编码(或源编码自动检测)。
  3. 配置输入/输出格式与 BOM 选项。
  4. 输入内容并执行转换。
  5. 查看输出与字节统计,必要时复制或下载结果。

适用场景

  • 老系统迁移中的编码统一。
  • 多语言数据导入导出前的编码整理。
  • 乱码排查与字节级诊断。

支持的编码参考

Unicode 编码

编码说明字节范围规范文档
UTF-8可变长度 Unicode 编码,Web 上最广泛使用,向后兼容 ASCII。1-4 bytesRFC 3629
UTF-16 LEUTF-16 小端序,Windows 常用。2/4 bytesRFC 2781
UTF-16 BEUTF-16 大端序,常见于部分协议与 Java 场景。2/4 bytesRFC 2781

中文编码

编码说明使用场景规范文档
GBKGB2312 扩展,支持更多简繁汉字。简体中文 Windows、旧网站IANA GBK
GB2312早期简体中文国家标准。旧系统、邮件GB 2312-1980
GB18030中国现行重要字符集标准,覆盖全部 Unicode 字符。现代中文系统、政府文档GB 18030-2005
Big5繁体中文编码。台湾、香港网站IANA Charset

日文编码

编码说明使用场景规范文档
Shift_JIS微软常用日文编码。Windows、旧网站、游戏IANA Charset
EUC-JP日文扩展 Unix 编码。Unix/Linux 系统、旧网站IANA Charset
ISO-2022-JP使用转义序列的 7 位日文编码。日文邮件、旧系统RFC 1468

韩文编码

编码说明使用场景规范文档
EUC-KR基于 KS X 1001 的韩文扩展 Unix 编码。韩文网站、旧系统RFC 1557

西欧编码

编码说明适用语言规范文档
ISO-8859-1Latin-1,覆盖常见西欧字符。英语、法语、德语、西班牙语、葡萄牙语、意大利语ISO/IEC 8859-1
ISO-8859-15Latin-9,补充欧元符号和部分西欧字符。带欧元符号的西欧语言ISO/IEC 8859-15
Windows-1252微软对 Latin-1 的扩展。Windows 上的西欧语言Unicode.org

西里尔文编码

编码说明适用语言规范文档
Windows-1251微软西里尔文编码。俄语、乌克兰语、保加利亚语、塞尔维亚语Unicode.org
KOI8-R面向俄语的经典 8 位编码。俄语RFC 1489
ISO-8859-5ISO 标准西里尔文编码。俄语、保加利亚语、马其顿语、塞尔维亚语ISO/IEC 8859-5

其他编码

编码说明使用场景规范文档
ASCII现代编码体系基础的 7 位编码。基础英文文本、编程RFC 20
Macintosh旧版 Mac OS Classic 的 Mac Roman 编码。旧版 Mac 文件、旧 Mac 应用程序Unicode.org

常见问题

为什么会乱码?

通常是源编码判断错误或输入格式不一致,建议先用“自动检测”并核对原始文件来源。

何时需要 BOM?

部分编辑器或平台依赖 BOM 识别 UTF 编码,是否添加取决于目标系统要求。