相关软件:

1.mutool 工具 : 免费开源PDF批处理工具,可转PDF至文本/图片/HTML网页

MuPDFmupdf.com/index.html

备选:可用其他:如福昕/Abbyy FineReader/万兴PDF/PDFXCview来提取
还有一种方案为: 先用Calibre工具转换PDF成ZIP格式,然后解压成图片
小型PDF文档,直接用Word或WPS打开另存为Html,或在线网页转换也可.

2.img2html 工具 : 批量转换图片->Html网页工具 百度网盘提取码: 84gf

https://pan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqgpan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqg

备选:也可自己写python脚本来生成网页,如果简单可直接写成一个批处理

具体流程:

1.使用mutool工具转换pdf文档,生成每页一个图片

2.使用img2html批处理脚本生成简单的index网页

3.在SuperMemo中导入网页,按分割符号Split分割

4.使用Alt+X图片提取,截图识别进行文本内容提取

说明及使用:

以下为mutool工具常见的一些使用命令,非常简单,但功能丰富,灵活,软件开源/速度快/无限制.

mutool工具常见使用案例

PDF文档文本增量

如果只是简单的提取PDF文件内的文本,不含图片,用上面第二条命令,指定-F txt 即可,也可以直接-F html 不加 -O preserve-images 参数即可.

mutool draw -F txt file.pdf 2,3,6-20 后面的数字是转换的页码范围,不加的话默认转换所有
mutool convert -F html -o outfile_name%d.html file.pdf 不加 -O preserve-images 参数

1.使用mutool工具转换pdf到图片,比较轻量/而且免费,具体可以到下图所示的官网下载:

https://www.mupdf.com/index.htmlwww.mupdf.com/index.html

下载客户端工具

使用这个链接下载

下载后解压出如下, 我们只需拷贝其中的一个mutool.exe文件至C:\Windows\System32即可

拷贝工具至C盘路径

打开cmd窗口,只执行mutool命令如下(具体的帮助可查看如下官网链接),即代表工具安装正常:

https://mupdf.com/docs/index.htmlmupdf.com/docs/index.html

命令行输入mutool命令

PDF转换操作: cmd下进入磁盘指定目录(图片会生成在这,不建议C盘)后执行如下脚本并回车:

方法一:

  • 如下命令指定了PDF文件输出格式,输出为带页码的图片,要进行PDF转换页码为1,3,4,5-12页

mutool convert -F png -o myfile-%d.png ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12

方法二:

mutool draw -F png -o myfile-%d.png ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12
mutool convert -F cbz -o my_zip_file.cbz ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12

方法三:

使用mutool run javascript文件

在本文中我们只用方法一来实现,具体步骤如下:

单PDF转换成多图片

稍等一会我们即可在Windows窗口中看到转换后的图片如下,注意:命令行取消操作则按Ctrl+C

图片提取成功的界面


2.使用img2html工具转换多个图片至html,上面提供下载的是一个批处理,具体你可自己修改:

图片生成网页批处理脚本内容

把bat文件放置于以上图片同一目录,双击执行即可,过一会可看到生成一个index.html文件如下:

放置于图片目录双击img2html

生成网页内容如上,可用IE打开


3.在SuperMemo中导入网页,按分割符号Split分割,生成多个子元素主题,具体操作如下:

拷贝所有文件(index.html,所有图片)至多媒体文件夹,具体路径在option选项中下的elements:

用IE浏览器打开index.html,在supermemo中快捷键ctrl+shift+a导入IE中打开的网页如下:

快捷键ctrl+enter打开命令窗口,输入split选首项分割(分割符号即上面我们批处理中设置的):

输入split分割命令

选择按自定义分割

输入批处理中的分割符

如上图:最终分割成了每个图片一个子element元素


4.添加学习计划并对新元素进行增量学习和提取,图片提取使用alt+x , 文字提取使用OCR工具

分支视图中添加学习元素

分支视图中开始学习内容

1.图片内容的提取

快捷键Ctrl+F8下载并插入成图片组件

alt+左键单击右侧图片组件进行操作

如上图,alt+左键点击,边框变成绿色时即可提取,鼠标中键双击放大,加shift中键双击缩小,鼠标框选释放后alt+x提取,unzoom重置缩放,重置后可再次提取.生成的图片会成为当前元素子元素

提取内容结果如下: (提示:你也可以直接用Ctrl+Shift+M使用预定义模版来批量改变内容样式)

删除内容图片,并添加内容(相关笔记)

2.文本内容的提取

因为针对PDF导入并分割的是图片,因此我们要使用OCR工具进行文本内容提取(任何一个可以截图识文的工具都可以)如quicker/itext/abbyy等,接着只添加一个子元素并粘贴识别内容即可:

使用OCR工具识图并粘贴到新建子元素