字符集编码转换
将文本从一种字符编码转换为另一种字符编码,支持UTF-8、GBK、GB2312、Big5、Shift_JIS、ISO-8859、Windows-1252等多种编码格式互转,支持自动检测编码、批量文件转换、BOM处理等功能
工具简介
什么是字符编码?
字符编码是一套将字符映射到数字(码点),再映射到字节的系统。不同的编码使用不同的映射规则,这就是为什么用错误的编码打开文本会出现乱码。选择正确的编码对于正确显示和处理多语言文本至关重要。
重要说明
本工具用于将文本从一种编码转换为另一种编码,例如将UTF-8编码的文本转换为GBK编码。
本工具不能修复已经显示为乱码的文本。如果您看到的文本已经是乱码,说明文本在读取时使用了错误的编码,需要重新以正确的编码读取原始文件。
功能概览
字符集编码转换工具能够将文本从一种字符编码转换为另一种字符编码,支持UTF-8、GBK、GB2312、Big5、Shift_JIS、ISO-8859、Windows-1252等多种编码格式互转,支持自动检测编码、批量文件转换、BOM处理等功能。适用于数据库迁移、文件编码转换、Web开发、跨平台文件共享等场景。
典型使用场景
- 数据库迁移:在不同数据库系统或服务器之间迁移数据时,使用本工具确保字符编码一致性,防止数据损坏。
- 文件编码转换:将文本文件从一种编码转换为另一种编码,例如将GBK编码的文件转换为UTF-8,或将UTF-8转换为Big5。
- Web开发:将旧版网页转换为UTF-8编码,确保在现代浏览器和不同平台上正确显示。
- 跨平台文件共享:在Windows(GBK)、macOS和Linux系统之间转换文件,确保文本在所有平台上正确显示。
使用技巧与最佳实践
- 自动检测编码:不确定源编码时使用"自动检测"功能,对大多数语言的检测准确率很高。
- BOM处理:为需要它的Windows应用程序创建UTF-8/UTF-16文件时,可以添加BOM(字节顺序标记)。
- 批量文件转换:使用"文件转换"标签页可以同时处理多个文件,提高工作效率。
- 数据安全:所有处理均在浏览器本地完成,不上传任何数据到服务器,完全保护用户隐私。
如何使用本工具
文本转换模式
- 点击「文本转换」标签页进入文本转换模式
- 从下拉菜单选择源编码,或使用「自动检测」自动识别编码
- 选择目标编码(默认为 UTF-8,最通用的编码格式)
- 选择输入/输出格式:纯文本、Base64、Hex 或 C/C++ 数组格式
- 输入或粘贴文本,点击「转换」按钮。使用「复制」复制结果或「下载」保存为文件
文件转换模式
- 点击「文件转换」标签页进入文件模式
- 将文件拖放到上传区域,或点击选择文件(支持多文件)
- 系统会自动检测每个文件的编码,显示在「源编码」列。如需要可手动修改
- 选择所有文件的目标编码
- 点击「全部转换」进行转换,然后点击「全部下载」保存转换后的文件
支持的输入/输出格式
- 纯文本 - 常规文本内容,直接输入或粘贴
- Base64 - Base64 编码字符串,常用于邮件附件和 Data URL
- Hex - 连续的十六进制字节,如 48656C6C6F
- 带空格的 Hex - 空格分隔的十六进制字节,如 48 65 6C 6C 6F
- C/C++ 数组 - C/C++ 风格的字节数组格式,如 0x48,0x65,0x6C,0x6C,0x6F
常见使用场景
数据库迁移
在不同数据库系统或服务器之间迁移数据时,使用本工具确保字符编码一致性,防止数据损坏。
文件编码转换
将文本文件从一种编码转换为另一种编码,例如将GBK编码的文件转换为UTF-8,或将UTF-8转换为Big5。
Web 开发
将旧版网页转换为 UTF-8 编码,确保在现代浏览器和不同平台上正确显示。
跨平台文件共享
在 Windows(GBK)、macOS 和 Linux 系统之间转换文件,确保文本在所有平台上正确显示。
使用技巧与最佳实践
- 不确定源编码时使用「自动检测」功能——对大多数语言的检测准确率很高
- 启用「显示 Hex」可查看实际字节值,有助于调试编码问题
- 为需要它的 Windows 应用程序创建 UTF-8/UTF-16 文件时,添加 BOM(字节顺序标记)
- 批量文件转换请使用「文件转换」标签页,支持同时处理多个文件
- 编码转换时,某些字符可能在目标编码中不存在,会被替换为「?」或类似占位符
常见问题
如何选择合适的编码?
根据文本的语言和用途选择:中文简体用GBK或UTF-8,中文繁体用Big5,日文用Shift_JIS或UTF-8,韩文用EUC-KR或UTF-8,英文和西欧语言用UTF-8或ISO-8859-1。
自动检测编码准确吗?
自动检测对大多数常见语言的准确率很高,但对于混合编码或特殊字符可能不够准确。如果不确定,建议手动选择编码。
转换后出现乱码怎么办?
如果转换后出现乱码,可能是源编码选择错误。请尝试使用"自动检测"功能,或手动尝试不同的源编码。
数据安全性如何?
所有处理均在浏览器本地完成,不上传任何数据到服务器,完全保护用户隐私。
支持的编码参考
本工具支持 30+ 种字符编码,覆盖全球主要语言和地区。以下是每种支持编码的详细参考。
Unicode 编码
中文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| GBK | GB2312 的扩展,支持 21,003 个汉字,包括繁体字。简体中文 Windows 常用。 | 简体中文 Windows、旧网站 | IANA GBK |
| GB2312 | 原始中国国家标准(1980年),支持 6,763 个简体汉字和 682 个符号。 | 旧系统、邮件 | GB 2312-1980 |
| GB18030 | 最新中国国家标准,在中国强制执行。支持所有 Unicode 字符,包括少数民族语言。 | 现代中文系统、政府文档 | GB 18030-2005 |
| Big5 | 繁体中文编码,主要在台湾和香港使用。包含 13,060 个繁体汉字。 | 台湾、香港网站 | IANA Charset |
日文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| Shift_JIS | 微软的日文编码,支持 JIS X 0201 和 JIS X 0208 字符集。 | Windows、旧网站、游戏 | IANA Charset |
| EUC-JP | 日文扩展 Unix 编码,可变长度编码,兼容 ASCII。 | Unix/Linux 系统、旧网站 | IANA Charset |
| ISO-2022-JP | 使用转义序列的 7 位日文编码。也称为 JIS 编码。 | 日文邮件、旧系统 | RFC 1468 |
韩文编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| EUC-KR | 韩文扩展 Unix 编码,基于 KS X 1001 标准。支持 8,822 个韩文字符(韩文字母 + 汉字)。 | 韩文网站、旧系统 | RFC 1557 |
西欧编码
| 编码 | 说明 | 适用语言 | 规范文档 |
|---|---|---|---|
| ISO-8859-1 | 也称为 Latin-1,ISO-8859 系列的第一部分。覆盖 191 个西欧语言字符。 | 英语、法语、德语、西班牙语、葡萄牙语、意大利语 | ISO/IEC 8859-1 |
| ISO-8859-15 | Latin-9,在 Latin-1 基础上增加了欧元符号(€)和额外的法语/芬兰语字符。 | 带欧元符号的西欧语言 | ISO/IEC 8859-15 |
| Windows-1252 | 微软对 Latin-1 的扩展,添加了弯引号和破折号等排版字符。 | Windows 上的西欧语言 | Unicode.org |
西里尔文编码
| 编码 | 说明 | 适用语言 | 规范文档 |
|---|---|---|---|
| Windows-1251 | 微软的 Windows 西里尔文编码,支持俄语和其他西里尔文语言。 | 俄语、乌克兰语、保加利亚语、塞尔维亚语 | Unicode.org |
| KOI8-R | 8 位西里尔文编码,专为俄语设计。即使去掉高位也能阅读字符。 | 俄语 | RFC 1489 |
| ISO-8859-5 | ISO 标准西里尔文编码,ISO-8859 系列的一部分。支持基本西里尔字符。 | 俄语、保加利亚语、马其顿语、塞尔维亚语 | ISO/IEC 8859-5 |
其他编码
| 编码 | 说明 | 使用场景 | 规范文档 |
|---|---|---|---|
| ASCII | 美国信息交换标准代码,大多数现代编码的基础。7 位编码,包含 128 个字符。 | 基础英文文本、编程 | RFC 20 |
| Macintosh | 苹果为 Mac OS Classic 设计的原始字符编码,也称为 Mac Roman。 | 旧版 Mac 文件、旧 Mac 应用程序 | Unicode.org |