提取斜体文字

hbghlyj · 2023-4-24 05:35

制作一个例子

Copy the Code

用PyPDF2试着做一下page.extract_text()
这样只能提取到纯文本aaa bbb ccc无法保留格式信息

hbghlyj · 2023-4-24 05:47

用SumutraPDF的Document properties看到LaTeX生成的文档有2个字体

CMR10(Type1;embedded)

CMTI10(Type1;embedded)

CMTI10应该是斜体. 能否根据字体来提取文本? 只提取CMTI10就能提取斜体文字了.

Copy the Code

输出是

/DCZPBI+CMR10

/GUKUYZ+CMTI10

'aaa bbb ccc'

这里的DCZPBI、GUKUYZ都是啥意思?
加上“字符串包含CMTI”的判断,代码变成

Copy the Code

输出是bbb
成功了

hbghlyj · 2023-4-24 06:22

Copy the Code

可以输出每个text object的字体

例如

Copy the Code

输出

/HWJIZZ+CMMI10 γ

/RKDUWA+CMR7 2

/RFLZJB+CMR10 +

/HWJIZZ+CMMI10 θ

/RKDUWA+CMR7 2

/RFLZJB+CMR10 =

/HWJIZZ+CMMI10 ω

/RKDUWA+CMR7 2

不知前面的HWJIZZ代表什么

从一个eps文件中找到字体的定义有类似的行:

Copy the Code

和

Copy the Code

可能是为每个/FontName随机生成的识别码?

Account		Remember me	Forgot password
Password			Register account

Quick Reply