首页字符集编码转换

字符集编码转换

将文本从一种字符编码转换为另一种字符编码,支持UTF-8、GBK、GB2312、Big5、Shift_JIS、ISO-8859、Windows-1252等多种编码格式互转,支持自动检测编码、批量文件转换、BOM处理等功能

输入字符数: 0输入字节数: 0
输出字符数: 0输出字节数: 0

拖放文件到此处或点击选择

支持多文件(大文件可能影响性能)

自动检测或手动选择上传文件的编码



说明文档

关于字符集转换工具

该工具用于不同字符编码之间的文本与文件转换,支持自动识别、BOM 处理及多种输入输出格式。

核心功能

  • 多编码互转:支持 UTF 系列、GB 系列、BIG5、Shift-JIS、EUC-KR、ISO/Windows 编码等。
  • 自动检测:可自动识别源编码并给出检测结果。
  • BOM 选项:支持添加或移除 BOM。
  • 格式转换:支持文本、Base64、Hex、空格 Hex、C 风格 Hex 等输入输出。
  • 文本/文件双模式:既可处理文本,也可处理文件内容。

使用说明

  1. 选择文本或文件模式。
  2. 设定源编码与目标编码(或源编码自动检测)。
  3. 配置输入/输出格式与 BOM 选项。
  4. 输入内容并执行转换。
  5. 查看输出与字节统计,必要时复制或下载结果。

适用场景

  • 老系统迁移中的编码统一。
  • 多语言数据导入导出前的编码整理。
  • 乱码排查与字节级诊断。

常见问题

为什么会乱码?

通常是源编码判断错误或输入格式不一致,建议先用“自动检测”并核对原始文件来源。

何时需要 BOM?

部分编辑器或平台依赖 BOM 识别 UTF 编码,是否添加取决于目标系统要求。

支持的编码参考

本工具支持 30+ 种字符编码,覆盖全球主要语言和地区。以下是每种支持编码的详细参考。

Unicode 编码

编码说明字节范围规范文档
UTF-8可变长度 Unicode 编码,Web 上最广泛使用的编码。向后兼容 ASCII。1-4 bytesRFC 3629
UTF-16 LEUTF-16 小端序,Windows 系统常用。每个字符使用 2 或 4 字节。2/4 bytesRFC 2781
UTF-16 BEUTF-16 大端序,用于某些网络协议和 Java。每个字符使用 2 或 4 字节。2/4 bytesRFC 2781

中文编码

编码说明使用场景规范文档
GBKGB2312 的扩展,支持 21,003 个汉字,包括繁体字。简体中文 Windows 常用。简体中文 Windows、旧网站IANA GBK
GB2312原始中国国家标准(1980年),支持 6,763 个简体汉字和 682 个符号。旧系统、邮件GB 2312-1980
GB18030最新中国国家标准,在中国强制执行。支持所有 Unicode 字符,包括少数民族语言。现代中文系统、政府文档GB 18030-2005
Big5繁体中文编码,主要在台湾和香港使用。包含 13,060 个繁体汉字。台湾、香港网站IANA Charset

日文编码

编码说明使用场景规范文档
Shift_JIS微软的日文编码,支持 JIS X 0201 和 JIS X 0208 字符集。Windows、旧网站、游戏IANA Charset
EUC-JP日文扩展 Unix 编码,可变长度编码,兼容 ASCII。Unix/Linux 系统、旧网站IANA Charset
ISO-2022-JP使用转义序列的 7 位日文编码。也称为 JIS 编码。日文邮件、旧系统RFC 1468

韩文编码

编码说明使用场景规范文档
EUC-KR韩文扩展 Unix 编码,基于 KS X 1001 标准。支持 8,822 个韩文字符(韩文字母 + 汉字)。韩文网站、旧系统RFC 1557

西欧编码

编码说明适用语言规范文档
ISO-8859-1也称为 Latin-1,ISO-8859 系列的第一部分。覆盖 191 个西欧语言字符。英语、法语、德语、西班牙语、葡萄牙语、意大利语ISO/IEC 8859-1
ISO-8859-15Latin-9,在 Latin-1 基础上增加了欧元符号(€)和额外的法语/芬兰语字符。带欧元符号的西欧语言ISO/IEC 8859-15
Windows-1252微软对 Latin-1 的扩展,添加了弯引号和破折号等排版字符。Windows 上的西欧语言Unicode.org

西里尔文编码

编码说明适用语言规范文档
Windows-1251微软的 Windows 西里尔文编码,支持俄语和其他西里尔文语言。俄语、乌克兰语、保加利亚语、塞尔维亚语Unicode.org
KOI8-R8 位西里尔文编码,专为俄语设计。即使去掉高位也能阅读字符。俄语RFC 1489
ISO-8859-5ISO 标准西里尔文编码,ISO-8859 系列的一部分。支持基本西里尔字符。俄语、保加利亚语、马其顿语、塞尔维亚语ISO/IEC 8859-5

其他编码

编码说明使用场景规范文档
ASCII美国信息交换标准代码,大多数现代编码的基础。7 位编码,包含 128 个字符。基础英文文本、编程RFC 20
Macintosh苹果为 Mac OS Classic 设计的原始字符编码,也称为 Mac Roman。旧版 Mac 文件、旧 Mac 应用程序Unicode.org