午夜精品一区二区三区,色婷婷av久久久久久久,日韩欧美群交p片內射中文

知識(shí)點(diǎn)：

了解lxml模塊和xpath語(yǔ)法的關(guān)系；
了解lxml模塊的使用場(chǎng)景；
了解lxml模塊的安裝；
了解谷歌瀏覽器xpath helper插件的安裝和使用；
掌握xpath語(yǔ)法-基礎(chǔ)節(jié)點(diǎn)選擇語(yǔ)法；
掌握 xpath語(yǔ)法 -節(jié)點(diǎn)修飾語(yǔ)法；
掌握xpath語(yǔ)法 - 其他常用語(yǔ)法；
掌握 lmxl模塊中使用xpath語(yǔ)法定位元素提取數(shù)學(xué)值或文本內(nèi)容；
掌握l(shuí)xml模塊etree.tostring函數(shù)的使用；

1、了解lxml模塊和xpath語(yǔ)法

對(duì)html或xml形式的文本提取特定的內(nèi)容，就需要我們掌握l(shuí)xml模塊的使用和xpath語(yǔ)法。

lxml模塊可以利用xPath規(guī)則語(yǔ)法，來(lái)快速的定位HEML \ XML 文檔中特定元素以及獲取節(jié)點(diǎn)信息（文本內(nèi)容、屬性值）；
XPath (XML Path Language)是一門(mén)HTML\XML 文檔中查找信息的語(yǔ)言，可用來(lái)在HTML|XML文檔中對(duì)元素和屬性進(jìn)行遍歷。
提取xml、html的數(shù)據(jù)需要lxml模塊和xpath語(yǔ)法配合使用；

2、谷歌瀏覽器xpath helper插件的安裝和使用

在谷歌瀏覽器中對(duì)當(dāng)前頁(yè)面測(cè)試xpath語(yǔ)法規(guī)則。
谷歌瀏覽器xpath helper插件的安裝和使用

我們以windows為例進(jìn)行xpath helper的安裝。

xpath helper插件的安裝：

1）、下載Chrome插件 XPath Helper
可以在Chrome應(yīng)用商城進(jìn)行下載，如果無(wú)法下載，也可以從下面的鏈接進(jìn)行下載
2）、把文件的后綴名crx改為rar,然后解壓到同名文件夾中；
3）、把解壓后的文件夾拖入到已經(jīng)開(kāi)啟開(kāi)發(fā)者模式的chrome瀏覽器擴(kuò)展程序界面；

3、xpath 的節(jié)點(diǎn)關(guān)系

學(xué)習(xí)xpath語(yǔ)法需要先了解xpath中的節(jié)點(diǎn)關(guān)系。

3.1 xpath中的節(jié)點(diǎn)什么

每個(gè)html、xml的標(biāo)簽我們都稱(chēng)之為節(jié)點(diǎn)，其中最頂層的節(jié)點(diǎn)稱(chēng)為根節(jié)點(diǎn)。我們以xml為例、html也是一樣的。、

3.2 xpath中節(jié)點(diǎn)的關(guān)系

author 是 title的第一個(gè)兄弟節(jié)點(diǎn)。

4、xpath語(yǔ)法 - 選取節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

1）、XPath 使用路徑表達(dá)式來(lái)選取XML文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。
2）、這些路徑表達(dá)式和我們?cè)诔Ｒ?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似；
3）、使用chrome插件選擇標(biāo)簽時(shí)候，選中的標(biāo)簽會(huì)添加屬性class=“xh-highlight”;

4.1 xpath定位節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

5、xpath 語(yǔ)法 - 選取特定節(jié)點(diǎn)的語(yǔ)法

可以根據(jù)標(biāo)簽的屬性值，下標(biāo)等來(lái)獲取特定的節(jié)點(diǎn)。

5.1 選取特定節(jié)點(diǎn)的語(yǔ)法

5.2 關(guān)于xpath的下標(biāo)

在xpath中，第一個(gè)元素的位置是1；
最后一個(gè)元素的位置是last();
倒數(shù)第二個(gè)是last() - 1;

6、xpath語(yǔ)法 - 選取未知節(jié)點(diǎn)的語(yǔ)法

可以同通配符來(lái)選取未知的html、xml的元素。

6.1、選取未知節(jié)點(diǎn)的語(yǔ)法

7.lxml模塊的安裝與使用示例

lxml模塊是一個(gè)第三方模塊，安裝之后使用。

7.1 lxml模塊的安裝

對(duì)發(fā)送請(qǐng)求獲取的xml或html形式的響應(yīng)內(nèi)容進(jìn)行提取。

pip install lxml

7.2 爬蟲(chóng)對(duì)html提取的內(nèi)容

提取標(biāo)簽中的文本內(nèi)容；
提取標(biāo)簽中的屬性的值；
比如，提取a標(biāo)簽中href屬性的值，獲取url，進(jìn)而繼續(xù)發(fā)起請(qǐng)求。

7.3 lxml模塊的使用

1）、導(dǎo)入lxml的etree庫(kù)

from lxml import etree

2)、利用etree.HTML，將html字符串（bytes類(lèi)型或str類(lèi)型）轉(zhuǎn)化為Element對(duì)象，Element對(duì)象具有xpath的方法，返回結(jié)果的類(lèi)別。

html = etree.HTML(text)
ret_list = html.xpath("xpath語(yǔ)法規(guī)則字符串")

3)、xpath方法返回列表的三種情況
返回空列表：根據(jù)xpath語(yǔ)法規(guī)則字符串，沒(méi)有定位到任何元素；
返回由字符串構(gòu)成的列表：xpath字符串規(guī)則匹配的一定是文本內(nèi)容或某屬性的值；
返回由Element對(duì)象構(gòu)成的列表：xpath規(guī)則字符串匹配的是標(biāo)簽，列表中的Element對(duì)象可以繼續(xù)進(jìn)行xpath;

import requests
from lxml import etree
class Tieba(object):
? ? def __init__(self,name):
? ? ? ? self.url = "https://tieba.baidu.com/f?ie=utf-8&kw={}".format(name)
? ? ? ? self.headers = {
? ? ? ? ? ? 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
? ? ? ? }
? ? def get_data(self,url):
? ? ? ? response = requests.get(url,headers=self.headers)
? ? ? ? with open("temp.html","wb") as f:
? ? ? ? ? ? f.write(response.content)
? ? ? ? return response.content
? ? def parse_data(self,data):
? ? ? ? # 創(chuàng)建element對(duì)象
? ? ? ? data = data.decode().replace("<!--","").replace("-->","")
? ? ? ? html =etree.HTML(data)
? ? ? ? el_list = html.xpath('//li[@class="j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')
? ? ? ? #print(len(el_list))
? ? ? ? data_list = []
? ? ? ? for el in el_list:
? ? ? ? ? ? temp = {}
? ? ? ? ? ? temp['title'] = el.xpath("./text()")[0]
? ? ? ? ? ? temp['link'] = 'http://tieba.baidu.com' + el.xpath("./@href")[0]
? ? ? ? ? ? data_list.append(temp)
? ? ? ? # 獲取下一頁(yè)url
? ? ? ? try:
? ? ? ? ? ? next_url = 'https:' + html.xpath('//a[contains(text(),"下一頁(yè)"]/@href')[0]
? ? ? ? except:
? ? ? ? ? ? next_url = None
? ? ? ? return data_list,next_url
? ? def save_data(self,data_list):
? ? ? ? for data in data_list:
? ? ? ? ? ? print(data)
? ? def run(self):
? ? ? ? # url
? ? ? ? # headers
? ? ? ? next_url = self.url
? ? ? ? while True:
? ? ? ? ? ? # 發(fā)送請(qǐng)求，獲取響應(yīng)
? ? ? ? ? ? data = self.get_data(self.url)
? ? ? ? ? ? # 從響應(yīng)中提取數(shù)據(jù)（數(shù)據(jù)和翻頁(yè)用的url)
? ? ? ? ? ? data_list,next_url = self.parse_data(data)
? ? ? ? ? ? self.save_data(data_list)
? ? ? ? ? ? print(next_url)
? ? ? ? ? ? # 判斷是否終結(jié)
? ? ? ? ? ? if next_url == None:
? ? ? ? ? ? ? ? break
if __name__ == '__main__':
? ? tieba =Tieba("傳智播客")
? ? tieba.run()

8、lxml模塊中etree.tostring函數(shù)的使用

運(yùn)行下邊的代碼，觀(guān)察對(duì)比html的原字符串和打印輸出的結(jié)果

from lxml import etree
html_str = """<div<<ul>
? ? ? ? <li class="item-1"><a href="link1.html" rel="external nofollow" >first item</a></li>
? ? ? ? <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
? ? ? ? <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
? ? ? ? <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
? ? ? ? <li class="item=0"><a href="link5.html" rel="external nofollow" >fifth item</a>
? ? ? ? </ur></div>
"""
html = etree.HTML(html_str)
handeled_html_str = etree.tostring(html).decode()
print(handeled_html_str)

結(jié)論：

lxml.etree.HTML(html_str)可以自動(dòng)補(bǔ)全標(biāo)簽；
lxml.etree.tostring 函數(shù)可以將轉(zhuǎn)換位Element對(duì)象再轉(zhuǎn)換回html字符串；
爬蟲(chóng)如果使用lxml來(lái)提取數(shù)據(jù)，應(yīng)該以lxml.etree.tostring 的返回結(jié)果作為提取數(shù)據(jù)的依據(jù)；

到此這篇關(guān)于Python數(shù)據(jù)提取-lxml模塊的文章就介紹到這了,更多相關(guān)Python -lxml模塊內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

海外服務(wù)器租用

版權(quán)聲明：本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái)，僅供學(xué)習(xí)參考，不代表本站立場(chǎng)，如有內(nèi)容涉嫌侵權(quán)，請(qǐng)聯(lián)系alex-e#qq.com處理。

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項(xiàng)

概要：競(jìng)價(jià)推廣費(fèi)用大概要多少呢，競(jìng)價(jià)推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費(fèi)郵箱有哪些優(yōu)勢(shì)，付費(fèi)郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢(shì)呢

服務(wù)器配置數(shù)據(jù)庫(kù)配置服務(wù)器運(yùn)維服務(wù)器安全
互聯(lián)網(wǎng)資訊服務(wù)器公司 IDC數(shù)據(jù)中心
免費(fèi)服務(wù)器香港服務(wù)器租用美國(guó)服務(wù)器租用

五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

公司動(dòng)態(tài)

產(chǎn)品資訊

行業(yè)資訊

Python數(shù)據(jù)提取-lxml模塊

1、了解lxml模塊和xpath語(yǔ)法

2、谷歌瀏覽器xpath helper插件的安裝和使用

3、xpath 的節(jié)點(diǎn)關(guān)系

3.1 xpath中的節(jié)點(diǎn)什么

3.2 xpath中節(jié)點(diǎn)的關(guān)系

4、xpath語(yǔ)法 - 選取節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

4.1 xpath定位節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

5、xpath 語(yǔ)法 - 選取特定節(jié)點(diǎn)的語(yǔ)法

5.1 選取特定節(jié)點(diǎn)的語(yǔ)法

5.2 關(guān)于xpath的下標(biāo)

6、xpath語(yǔ)法 - 選取未知節(jié)點(diǎn)的語(yǔ)法

6.1、選取未知節(jié)點(diǎn)的語(yǔ)法

7.lxml模塊的安裝與使用示例

7.1 lxml模塊的安裝

7.2 爬蟲(chóng)對(duì)html提取的內(nèi)容

7.3 lxml模塊的使用

8、lxml模塊中etree.tostring函數(shù)的使用

Python+OpenCV實(shí)現(xiàn)基于顏色的目標(biāo)識(shí)別

Python跨文件全局變量的使用技巧

實(shí)時(shí)開(kāi)通

免備案

全天候客戶(hù)服務(wù)

專(zhuān)屬顧問(wèn)服務(wù)

五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

公司動(dòng)態(tài)

產(chǎn)品資訊

行業(yè)資訊

Python數(shù)據(jù)提取-lxml模塊

1、了解lxml模塊和xpath語(yǔ)法

2、谷歌瀏覽器xpath helper插件的安裝和使用

3、xpath 的節(jié)點(diǎn)關(guān)系

3.1 xpath中的節(jié)點(diǎn)什么

3.2 xpath中節(jié)點(diǎn)的關(guān)系

4、xpath語(yǔ)法 - 選取節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

4.1 xpath定位節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

5、xpath 語(yǔ)法 - 選取特定節(jié)點(diǎn)的語(yǔ)法

5.1 選取特定節(jié)點(diǎn)的語(yǔ)法

5.2 關(guān)于xpath的下標(biāo)

6、xpath語(yǔ)法 - 選取未知節(jié)點(diǎn)的語(yǔ)法

6.1、選取未知節(jié)點(diǎn)的語(yǔ)法

7.lxml模塊的安裝與使用示例

7.1 lxml模塊的安裝

7.2 爬蟲(chóng)對(duì)html提取的內(nèi)容

7.3 lxml模塊的使用

8、lxml模塊中etree.tostring函數(shù)的使用

Python+OpenCV實(shí)現(xiàn)基于顏色的目標(biāo)識(shí)別

Python跨文件全局變量的使用技巧

實(shí)時(shí)開(kāi)通

免備案

全天候客戶(hù)服務(wù)

專(zhuān)屬顧問(wèn)服務(wù)

1、了解lxml模塊和xpath語(yǔ)法

2、谷歌瀏覽器xpath helper插件的安裝和使用

3、xpath 的節(jié)點(diǎn)關(guān)系

4、xpath語(yǔ)法 - 選取節(jié)點(diǎn)以及提取屬性或文本內(nèi)容的語(yǔ)法

5、xpath 語(yǔ)法 - 選取特定節(jié)點(diǎn)的語(yǔ)法

6.1、選取未知節(jié)點(diǎn)的語(yǔ)法

8、lxml模塊中etree.tostring函數(shù)的使用