Lazy loaded image
🔥开源PDF翻译神器,科研必备!一键本地部署!
00 分钟
2024-12-29
2025-1-9
type
status
date
slug
summary
tags
category
icon
password

介绍

PDFMathTranslate 是最近很火的一款开源的 PDF 翻译工具,它在翻译你的 PDF 文件的同时,还会最大程度保留 PDF 文件中的内容的结构,包括里面的各种公式、图表、目录和注释。
PDFMathTranslate 支持多种语言和诸多翻译服务,也提供了多种部署和使用方式,包括命令行工具、图形交互界面以及容器化部署。
Video preview

在线服务

官方提供了三个在线使用的方式,但是实测下来这三种在线使用的方式效果都不好,并且还限制 PDF 文件大小为 5MB,建议本地部署使用。
在线服务地址(不建议):
  1. https://pdf2zh.com/
  1. https://huggingface.co/spaces/reycn/PDFMathTranslate-Docker
  1. https://www.modelscope.cn/studios/AI-ModelScope/PDFMathTranslate

本地部署

Windows 一键部署

在 windows 系统上,可以使用 bat 批处理脚本一键部署并启动 PDFMathTranslate
首先,在桌面新建一个 setup.bat 文件,编辑该文件并拷贝以下代码:
保存该脚本,然后双击该脚本,启动。在启动过程中,它会去下载一系列的文件,我们耐心等待就好,等到出现 Running on local URL: http://0.0.0.0:7860 时就启动成功了。
notion image
启动成功以后,访问 http://0.0.0.0:7860 ,然后就可以上传 PDF 文件进行翻译。

命令行

使用命令行安装的前提是确保安装了版本大于 3.8 且小于 3.12 的 Python ,在安装好了对应版本的 Python 以后,使用以下命令安装:
  • pip install pdf2zh
紧接着在命令行中使用 pdf2zh -i 启动 web 服务,后台服务启动以后,打开浏览器访问 http://0.0.0.0:7860 即可开始翻译。

容器化部署

不推荐在一些 paas 平台部署,个人体验下来,这个项目在使用过程中还是需要占用一定资源的,使用互联网在线服务太贵,不划算,况且本地部署也很方便。

使用演示

为了方便演示,随便下载了一篇论文。这是论文的地址: https://arxiv.org/pdf/1502.04681
打开 http://0.0.0.0:7860 ,如图所示,上传待翻译的 PDF 文件,选择翻译服务,国外可以选择谷歌,国内咱选择 bing 就行。
当然,该项目也支持多种大模型翻译,有大模型 API 的小伙伴也可以使用大模型翻译。
notion image
notion image
开始翻译以后,等待进度条完成,然后我们就可以下载翻译以后的文件了。
notion image
notion image

效果展示

对比一:
notion image
notion image
对比二:
notion image
notion image

总结

总体来说,翻译效果还不错,最大的特点是在翻译以后,也最大程度保留了原来的结构、公式、图表以及注释。
上一篇
2024年终总结
下一篇
一分钟搭建你自己的在线工具箱!