pdf解析

pdf解析将多行文本组合在一起怎么弄

这一步的目标是,以一种有意义的方式,将这些文本行组合在一起。每一行都有一个边框。每行中字的边框,决定了行的边框。就像将字组合成行一样,pdfminer.six使用边框来组合行。水平重叠的行和垂直相近的行,被组合在一起。行之间的垂直距离,由line_margin来决定。这个margin是相对于边框的高度的。