SuperMemo-PDF文档图片增量方法是
相关软件:
1.mutool 工具 : 免费开源PDF批处理工具,可转PDF至文本/图片/HTML网页
MuPDFmupdf.com/index.html
备选:可用其他:如福昕/Abbyy FineReader/万兴PDF/PDFXCview来提取
还有一种方案为: 先用Calibre工具转换PDF成ZIP格式,然后解压成图片
小型PDF文档,直接用Word或WPS打开另存为Html,或在线网页转换也可.
2.img2html 工具 : 批量转换图片->Html网页工具 百度网盘提取码: 84gf
https://pan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqgpan.baidu.com/s/1pK8oN21JRbrKQSNxbBXPqg
备选:也可自己写python脚本来生成网页,如果简单可直接写成一个批处理
具体流程:
1.使用mutool工具转换pdf文档,生成每页一个图片
2.使用img2html批处理脚本生成简单的index网页
3.在SuperMemo中导入网页,按分割符号Split分割
4.使用Alt+X图片提取,截图识别进行文本内容提取
说明及使用:
以下为mutool工具常见的一些使用命令,非常简单,但功能丰富,灵活,软件开源/速度快/无限制.
mutool工具常见使用案例
PDF文档文本增量
如果只是简单的提取PDF文件内的文本,不含图片,用上面第二条命令,指定-F txt 即可,也可以直接-F html 不加 -O preserve-images 参数即可.
mutool draw -F txt file.pdf 2,3,6-20 后面的数字是转换的页码范围,不加的话默认转换所有
mutool convert -F html -o outfile_name%d.html file.pdf 不加 -O preserve-images 参数
1.使用mutool工具转换pdf到图片,比较轻量/而且免费,具体可以到下图所示的官网下载:
https://www.mupdf.com/index.htmlwww.mupdf.com/index.html
下载客户端工具
使用这个链接下载
下载后解压出如下, 我们只需拷贝其中的一个mutool.exe文件至C:\Windows\System32即可
拷贝工具至C盘路径
打开cmd窗口,只执行mutool命令如下(具体的帮助可查看如下官网链接),即代表工具安装正常:
https://mupdf.com/docs/index.htmlmupdf.com/docs/index.html
命令行输入mutool命令
PDF转换操作: cmd下进入磁盘指定目录(图片会生成在这,不建议C盘)后执行如下脚本并回车:
方法一:
如下命令指定了PDF文件输出格式,输出为带页码的图片,要进行PDF转换页码为1,3,4,5-12页
mutool convert -F png -o myfile-%d.png ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12
方法二:
mutool draw -F png -o myfile-%d.png ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12
mutool convert -F cbz -o my_zip_file.cbz ./轻松Scrum之旅.pdf(全文路径) 1,3,4,5-12
方法三:
使用mutool run javascript文件
在本文中我们只用方法一来实现,具体步骤如下:
单PDF转换成多图片
稍等一会我们即可在Windows窗口中看到转换后的图片如下,注意:命令行取消操作则按Ctrl+C
图片提取成功的界面
2.使用img2html工具转换多个图片至html,上面提供下载的是一个批处理,具体你可自己修改:
图片生成网页批处理脚本内容
把bat文件放置于以上图片同一目录,双击执行即可,过一会可看到生成一个index.html文件如下:
放置于图片目录双击img2html
生成网页内容如上,可用IE打开
3.在SuperMemo中导入网页,按分割符号Split分割,生成多个子元素主题,具体操作如下:
拷贝所有文件(index.html,所有图片)至多媒体文件夹,具体路径在option选项中下的elements:
用IE浏览器打开index.html,在supermemo中快捷键ctrl+shift+a导入IE中打开的网页如下:
快捷键ctrl+enter打开命令窗口,输入split选首项分割(分割符号即上面我们批处理中设置的):
输入split分割命令
选择按自定义分割
输入批处理中的分割符
如上图:最终分割成了每个图片一个子element元素
4.添加学习计划并对新元素进行增量学习和提取,图片提取使用alt+x , 文字提取使用OCR工具
分支视图中添加学习元素
分支视图中开始学习内容
1.图片内容的提取
快捷键Ctrl+F8下载并插入成图片组件
alt+左键单击右侧图片组件进行操作
如上图,alt+左键点击,边框变成绿色时即可提取,鼠标中键双击放大,加shift中键双击缩小,鼠标框选释放后alt+x提取,unzoom重置缩放,重置后可再次提取.生成的图片会成为当前元素子元素
提取内容结果如下: (提示:你也可以直接用Ctrl+Shift+M使用预定义模版来批量改变内容样式)
删除内容图片,并添加内容(相关笔记)
2.文本内容的提取
因为针对PDF导入并分割的是图片,因此我们要使用OCR工具进行文本内容提取(任何一个可以截图识文的工具都可以)如quicker/itext/abbyy等,接着只添加一个子元素并粘贴识别内容即可:
使用OCR工具识图并粘贴到新建子元素
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。