|
这个PDF的字母A-Za-z的字体是LMRoman10
将2#脚本第4行改为font='LMRoman10' 同样地提取出CMAP table
/CIDInit /ProcSet findresource begin
12 dict begin
begincmap
/CMapName /BYPSOO+LMRoman10-Regular-UTF16 def
/CMapType 2 def
/CIDSystemInfo <<
/Registry (Adobe)
/Ordering (UCS)
/Supplement 0
>> def
1 begincodespacerange
<0000> <FFFF>
endcodespacerange
59 beginbfchar
<001B> <0041>
<001C> <0061>
<0022> <0042>
<0023> <0062>
<0028> <005B>
<0029> <005D>
<002B> <0063>
<002C> <003A>
<002E> <0044>
<002F> <0064>
<0032> <0065>
<0033> <0038>
<0036> <0046>
<0037> <0066>
<0038> <0035>
<0039> <0034>
<003A> <0047>
<003B> <0067>
<003E> <0048>
<003F> <0068>
<0040> <002D>
<0041> <0049>
<0042> <0069>
<0046> <006B>
<0074> <0078>
<0076> <0079>
<0077> <005A>
<0078> <007A>
<0079> <0030>
<00C7> <2022>
<0189> <00AF>
endbfchar
endcmap
CMapName currentdict /CMap defineresource pop
end
end
下面的脚本可以查询CID:
- def repl(search):
- map={'\u0041':'001B',
- '\u0061':'001C',
- '\u0042':'0022',
- '\u0062':'0023',
- '\u005B':'0028',
- '\u005D':'0029',
- '\u0063':'002B',
- '\u003A':'002C',
- '\u0044':'002E',
- '\u0064':'002F',
- '\u0065':'0032',
- '\u0038':'0033',
- '\u0046':'0036',
- '\u0066':'0037',
- '\u0035':'0038',
- '\u0034':'0039',
- '\u0047':'003A',
- '\u0067':'003B',
- '\u0048':'003E',
- '\u0068':'003F',
- '\u002D':'0040',
- '\u0049':'0041',
- '\u0069':'0042',
- '\u006B':'0046',
- '\u0078':'0074',
- '\u0079':'0076',
- '\u005A':'0077',
- '\u007A':'0078',
- '\u0030':'0079',
- '\u2022':'00C7',
- '\u00AF':'0189'}
- return ''.join([map.get(x,x) for x in search])
- print(repl('hy'))
复制代码 输出
003F0076 |
|