About Charset Converter

This tool converts text/files across multiple encodings, with auto-detection, BOM handling, and flexible input/output formats.

Key Features

Multi-encoding Conversion: UTF, GB family, BIG5, Shift-JIS, EUC-KR, ISO/Windows encodings, etc.
Auto Detection: Detect source encoding automatically.
BOM Controls: Add or remove BOM when needed.
Format Conversion: Text, Base64, Hex, spaced Hex, and C-style Hex formats.
Text + File Modes: Works for both direct text and file workflows.

Steps

Choose text mode or file mode.
Set source/target encoding (or auto-detect source).
Configure I/O format and BOM options.
Run conversion.
Review output and byte stats, then copy/download if needed.

Use Cases

Encoding normalization in legacy migrations.
Preparing multilingual data import/export.
Diagnosing mojibake and byte-level encoding issues.

FAQ

Why is output garbled?

Source encoding may be incorrect, or input format may not match actual data format.

When should I keep BOM?

Some editors/platforms rely on BOM for UTF detection. Follow target platform requirements.

Supported Encoding Reference

This tool supports 30+ character encodings, covering major languages and regions worldwide. Below is a detailed reference for each supported encoding.

Unicode Encodings

Encoding	Description	Byte Range	Specification
UTF-8	Variable-length Unicode encoding, the most widely used encoding on the Web. Backward compatible with ASCII.	1-4 bytes	RFC 3629
UTF-16 LE	UTF-16 Little Endian, commonly used in Windows systems. Each character uses 2 or 4 bytes.	2/4 bytes	RFC 2781
UTF-16 BE	UTF-16 Big Endian, used in some network protocols and Java. Each character uses 2 or 4 bytes.	2/4 bytes	RFC 2781

Chinese Encodings

Encoding	Description	Usage	Specification
GBK	Extension of GB2312, supports 21,003 Chinese characters, including traditional characters. Commonly used in Simplified Chinese Windows.	Simplified Chinese Windows, old websites	IANA GBK
GB2312	Original Chinese National Standard (1980), supports 6,763 simplified Chinese characters and 682 symbols.	Old systems, email	GB 2312-1980
GB18030	Latest Chinese National Standard, mandatory in China. Supports all Unicode characters, including minority languages.	Modern Chinese systems, government documents	GB 18030-2005
Big5	Traditional Chinese encoding, mainly used in Taiwan and Hong Kong. Contains 13,060 traditional Chinese characters.	Taiwan, Hong Kong websites	IANA Charset

Japanese Encodings

Encoding	Description	Usage	Specification
Shift_JIS	Microsoft's Japanese encoding, supports JIS X 0201 and JIS X 0208 character sets.	Windows, old websites, games	IANA Charset
EUC-JP	Japanese Extended Unix Encoding, variable-length encoding, compatible with ASCII.	Unix/Linux systems, old websites	IANA Charset
ISO-2022-JP	7-bit Japanese encoding using escape sequences. Also known as JIS encoding.	Japanese email, old systems	RFC 1468

Korean Encodings

Encoding	Description	Usage	Specification
EUC-KR	Korean Extended Unix Encoding, based on KS X 1001 standard. Supports 8,822 Korean characters (Hangul + Chinese characters).	Korean websites, old systems	RFC 1557

Western European Encodings

Encoding	Description	Languages	Specification
ISO-8859-1	Also known as Latin-1, the first part of the ISO-8859 series. Covers 191 Western European language characters.	English, French, German, Spanish, Portuguese, Italian	ISO/IEC 8859-1
ISO-8859-15	Latin-9, adds Euro symbol (€) and additional French/Finnish characters on top of Latin-1.	Western European languages with Euro symbol	ISO/IEC 8859-15
Windows-1252	Microsoft's extension of Latin-1, adds typographic characters such as curly quotes and dashes.	Western European languages on Windows	Unicode.org

Cyrillic Encodings

Encoding	Description	Languages	Specification
Windows-1251	Microsoft's Windows Cyrillic encoding, supports Russian and other Cyrillic languages.	Russian, Ukrainian, Bulgarian, Serbian	Unicode.org
KOI8-R	8-bit Cyrillic encoding designed for Russian. Characters can be read even with high bit removed.	Russian	RFC 1489
ISO-8859-5	ISO standard Cyrillic encoding, part of the ISO-8859 series. Supports basic Cyrillic characters.	Russian, Bulgarian, Macedonian, Serbian	ISO/IEC 8859-5

Other Encodings

Encoding	Description	Usage	Specification
ASCII	American Standard Code for Information Interchange, the foundation of most modern encodings. 7-bit encoding containing 128 characters.	Basic English text, programming	RFC 20
Macintosh	Original character encoding designed by Apple for Mac OS Classic, also known as Mac Roman.	Old Mac files, old Mac applications	Unicode.org

Charset Encoding Converter

Documentation

About Charset Converter

Key Features

Steps

Use Cases

FAQ

Why is output garbled?

When should I keep BOM?

Supported Encoding Reference

Unicode Encodings

Chinese Encodings

Japanese Encodings

Korean Encodings

Western European Encodings

Cyrillic Encodings

Other Encodings

Related Tools

Documentation

About Charset Converter

Key Features

Steps

Use Cases

FAQ

Why is output garbled?

When should I keep BOM?

Supported Encoding Reference

Unicode Encodings

Chinese Encodings

Japanese Encodings

Korean Encodings

Western European Encodings

Cyrillic Encodings

Other Encodings