PDF文本提取用于在浏览器本地读取 PDF 文本层,并可对扫描件或低文本页面进行 OCR 补识别。文件不会上传到服务器,适合处理合同、论文、发票、扫描归档和办公资料。
功能说明
- 支持上传单个 PDF 并显示文件大小、页数和文件名。
- 支持仅文本层提取、自动补 OCR、全页强制 OCR。
- 支持导出 TXT 文本或 HTML 报告。
- 支持完整页标记、简洁页标记和无页分隔三种导出格式。
- 支持压缩空白、修复英文断行连字符、全角英数转半角。
OCR 说明
自动补 OCR 会在页面可见字符数低于阈值时识别该页。全页强制 OCR 会逐页渲染识别,适合扫描版 PDF,但耗时更长。当前支持中文、英文以及中英混合识别。
适用场景
适合合同条款审阅、论文资料整理、发票凭证归档、扫描件转文字、PDF 内容检索、办公文档转换等场景。
注意事项
加密 PDF 需要先解密后再提取。OCR 结果会受扫描清晰度、页面倾斜、图片分辨率和字体质量影响,重要文档需要人工复核。