特级做a爰片毛片免费看108,无码精品人妻一区二区三区人妻斩

在之前的Python辦公自動化案專題中，我們已經(jīng)介紹了如何有選擇的提取某些頁面進行合并。

但是很多時候，我們并不會預(yù)知希望提取的頁號，而是希望將包含指定內(nèi)容的頁面提取合并為新PDF，本文就以兩個真實需求為例進行講解。

01需求描述

數(shù)據(jù)是一份有286頁的上市公司公開年報PDF，大致如下

現(xiàn)在需要利用 Python 完成以下兩個需求

“
需求一：提取所有包含 戰(zhàn)略 二字的頁面并合并新PDF

需求二：提取所有包含圖片的頁面，并分別保存為 PDF 文件
”

02前置知識和邏輯梳理

2.1 PyPDF2 模塊實現(xiàn)合并

PyPDF2 導(dǎo)入模塊的代碼常常是：

fromPyPDF2importPdfFileReader,PdfFileWriter

這里導(dǎo)入了兩個方法：

PdfFileReader 可以理解為讀取器
PdfFileWriter 可以理解為寫入器

利用 PyPDF2 實現(xiàn)合并運用的一下邏輯：

讀取器將所有pdf讀取一遍
讀取器將讀取的內(nèi)容交給寫入器
寫入器統(tǒng)一輸出到一個新pdf

隱含知識點：讀取器只能將讀取的內(nèi)容一頁一頁交給寫入器

2.2 獲取與添加頁面

之前我們的推文中提到這兩個代碼，下面列出作為復(fù)習(xí)：

.getPage 獲取特定頁
.addPage 添加特定頁

2.3 圖片和文字的處理

要實現(xiàn)本文的需求還要做到很重要的一個判斷：確定頁面中有無包含的文字或圖片

判斷是否包含特定的文字比較簡單，遍歷每一頁的時候都將包含的文本抽提出，做字符串層面的判斷即可，代碼思路：

利用 pdfplumber 打開PDF 文件
獲取指定的頁，或者遍歷每一頁
利用 .extract_text() 方法提取當(dāng)前頁的文字
判斷 “戰(zhàn)略” 是否在提取的文字中

判斷是否包含圖片，思路和上面是類似的，但方法不同。圖片考慮用正則的方法識別，用 fitz 和 re 配合，具體見下文代碼

03代碼實現(xiàn)

3.1 需求一的實現(xiàn)

首先來完成需求一的任務(wù)，導(dǎo)入需要用到的庫：讀取寫入PDF文件的 PyPDF2 以及抽提文本的 pdfplumber

fromPyPDF2importPdfFileReader,PdfFileWriter
importpdfplumber

指定文件所在的路徑，同時初始化寫入器，將文件交給讀取器：

path=r'C:\xxxxxx'
pdf_writer=PdfFileWriter()
pdf_reader=PdfFileReader(path+r'\公司年報.PDF')

以上下文管理器形式通過 pdfplumber 打開文件，同時用 .getNumPages 獲取讀取器的最大頁利于遍歷每一頁來抽提文字：

withpdfplumber.open(path+r'\公司年報.PDF')aspdf:
foriinrange(pdf_reader.getNumPages()):
page=pdf.pages[i]
print(page.extract_text())

我們抽提文字的目的是用來判斷，將符合要求的頁碼作為讀取器 .getPage 的參數(shù)，最后用 .addPage 交給寫入器：

withpdfplumber.open(path+r'\公司年報.PDF')aspdf:
foriinrange(pdf_reader.getNumPages()):
page=pdf.pages[i]
print(page.extract_text())
if'戰(zhàn)略'inpage.extract_text():
pdf_writer.addPage(pdf_reader.getPage(i))
print(i+1,page.extract_text())

完成識別后讓寫入器輸出為需要的文件名：

withopen(path+r'\new_公司年報.pdf','wb')asout:
pdf_writer.write(out)

至此，我們就完成了包含特定文字內(nèi)容頁面的提取，并整合成一個PDF。所有的頁面均包含“戰(zhàn)略”二字：

需求一完整代碼如下，感興趣的讀者可以自行研究

fromPyPDF2importPdfFileReader,PdfFileWriter
importpdfplumber
 
path=r'C:\xxx'
pdf_writer=PdfFileWriter()
pdf_reader=PdfFileReader(path+r'\公司年報.PDF')
 
withpdfplumber.open(path+r'\公司年報.PDF')aspdf:
foriinrange(pdf_reader.getNumPages()):
page=pdf.pages[i]
print(page.extract_text())
if'戰(zhàn)略'inpage.extract_text():
pdf_writer.addPage(pdf_reader.getPage(i))
print(i+1,page.extract_text())
 
withopen(path+r'\new_公司年報1.pdf','wb')asout:
pdf_writer.write(out)

3.2 需求二的實現(xiàn)

接下來完成需求二的任務(wù)。首先導(dǎo)入需要的庫：

fromPyPDF2importPdfFileReader,PdfFileWriter
importfitz
importre
importos

指定文件所在的路徑：

path = r'C:\xxxxxx'

正則識別圖片的部分不細講，之前的推文已經(jīng)介紹過，我們直接看代碼：

page_lst=[]
checkImg=r"/Subtype(?=*/Image)"
pdf=fitz.open(path+r'\公司年報.PDF')
lenXREF=pdf._getXrefLength()
 
foriinrange(lenXREF):
text=pdf._getXrefString(i)
isImage=re.search(checkImg,text)
ifisImage:
page_lst.append(i)
 
print(page_lst)

獲取到所有包含圖片的頁面后，再結(jié)合讀取器和寫入器的配合就能完成新 PDF 的產(chǎn)生。注意本需求是所有圖片單獨輸出，因此獲取到頁面后交給寫入器直接輸出成文件：

pdf_reader=PdfFileReader(path+r'\公司年報.PDF')
forpageinpage_lst:
pdf_writer=PdfFileWriter()
pdf_writer.addPage(pdf_reader.getPage(page))
withopen(path+r'\公司年報_{}.pdf'.format(page+1),'wb')asout:
pdf_writer.write(out)

至此也完成了第二個需求。需要說明的是目前沒有非常完美提取PDF圖片的方法，本案例介紹的方法識別圖片也并不穩(wěn)定。讀者可以利用自己的數(shù)據(jù)多做嘗試。完整代碼如下：

fromPyPDF2importPdfFileReader,PdfFileWriter
importfitz
importre
importos
 
path=r'C:\xxx'
 
page_lst=[]
checkImg=r"/Subtype(?=*/Image)"
pdf=fitz.open(path+r'\公司年報.PDF')
lenXREF=pdf._getXrefLength()
foriinrange(lenXREF):
text=pdf._getXrefString(i)
isImage=re.search(checkImg,text)
ifisImage:
page_lst.append(i)
 
print(page_lst)
 
pdf_reader=PdfFileReader(path+r'\公司年報.PDF')
forpageinpage_lst:
pdf_writer=PdfFileWriter()
pdf_writer.addPage(pdf_reader.getPage(page))
withopen(path+r'\公司年報_{}.pdf'.format(page+1),'wb')asout:
pdf_writer.write(out)

實現(xiàn)這兩個單個需求后，就可以將相關(guān)代碼封裝并結(jié)合os等模塊實現(xiàn)批量操作，解放雙手。

到此這篇關(guān)于Python提取PDF指定內(nèi)容并生成新文件的文章就介紹到這了,更多相關(guān)Python提取PDF指定內(nèi)容內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

國外穩(wěn)定服務(wù)器

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢