日韩人妻无码精品一专区,无码人妻品一区二区三区精99,色悠久久久久综合欧美99

五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

一、XPath的介紹

XPath的幾個常用規(guī)則：

表達(dá)式	描述
nodename	選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn)
/	從當(dāng)前節(jié)點(diǎn)選取直接子節(jié)點(diǎn)
//	從當(dāng)前節(jié)點(diǎn)選取子孫節(jié)點(diǎn)
.	選取當(dāng)前節(jié)點(diǎn)
…	選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)
@	選取屬性

二、XPath使用

1、選取所有節(jié)點(diǎn)

test01.html

<book class="item">
  <title lang="en" class="item-01">Harry Potter</title>
  <author class="item-02 name">J K. Rowling</author> 
  <year>2005</year>
  <price>29.99</price>
</book>

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//*')
print(result)

運(yùn)行程序后得到一個列表：

[<Element html at 0x2252aff0d88>, <Element body at 0x2252aff0e48>, <Element book at 0x2252aff0e88>, <Element title at 0x2252aff0ec8>, <Element author at 0x2252aff0f08>, <Element year at 0x2252aff0f88>, <Element price at 0x2252aff0fc8>]

列表中每個元素代表原test01.html文件中的節(jié)點(diǎn)，可以看出節(jié)點(diǎn)有html、body、book、title、author、year、price節(jié)點(diǎn)。

2、獲取子節(jié)點(diǎn)

如果想要獲取book節(jié)點(diǎn)下的author節(jié)點(diǎn)，則可將代碼編寫為：

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//author')
print(result)

這樣僅可獲得author節(jié)點(diǎn)：[<Element author at 0x2252aef8748>]

3、獲取父節(jié)點(diǎn)

獲取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)，主要是父節(jié)點(diǎn)的屬性值。

以獲取父節(jié)點(diǎn)book的class屬性值為例。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@class="item-01"]/../@class') #獲取title節(jié)點(diǎn)的父節(jié)點(diǎn)的class屬性值
print(result)

【運(yùn)行結(jié)果】

['item']

通過查閱之前test01.html的源碼可知，父節(jié)點(diǎn)book的class屬性值為“item”。

4、屬性匹配

我們知道每個節(jié)點(diǎn)幾乎都帶有屬性，通過屬性匹配我們可以匹配具有相同節(jié)點(diǎn)名但屬性不同的節(jié)點(diǎn)。

通常是將需要匹配的屬性放在中括號內(nèi)。

例如，用屬性匹配的方式獲取title節(jié)點(diǎn)。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en"]')
print(result)

【運(yùn)行結(jié)果】

[<Element title at 0x2252afb2a48>]

則得到了title節(jié)點(diǎn)。

5、文本獲取

一般我們爬取的內(nèi)容都是文本形式，我們使用text()方式將文本內(nèi)容提取出來。

在上一個實(shí)例的基礎(chǔ)上，我們獲取標(biāo)題的具體內(nèi)容。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en"]/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter']

這樣我們就得到了具體的標(biāo)題名稱。

6、屬性獲取

有時候我們想要的數(shù)據(jù)不在文本內(nèi)容，而是在節(jié)點(diǎn)的屬性值里，因此我們還需要學(xué)會獲取節(jié)點(diǎn)的屬性值。

常用方式是在需要獲取的屬性值前面加@符號即可。

例如，我們獲取標(biāo)題title的lang和class這兩個屬性值。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title/@lang')
result.append(html.xpath('//title/@class')[0])
print(result)

【運(yùn)行結(jié)果】

['en', 'item-01']

這樣我們就完成了屬性值的獲取。

7、屬性多值匹配

有時候?qū)傩灾挡⒉恢挥幸粋€，而是具有多個屬性值，像實(shí)例中author節(jié)點(diǎn)的class屬性值，具有兩個值item-02和name，通常我們在匹配時使用contains()方法，該方法的第一個參數(shù)傳入屬性名稱，第二個參數(shù)傳入屬性值（多個屬性值中的任意一個）。

我們以獲取作者姓名為例：

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//author[contains(@class,name)]/text()')
print(result)

【運(yùn)行結(jié)果】

['J K. Rowling']

8、多屬性匹配

一個節(jié)點(diǎn)通常會有多個屬性，例如實(shí)例中的title節(jié)點(diǎn)，就具有l(wèi)ang和class節(jié)點(diǎn)，在進(jìn)行多屬性匹配時，使用and符來連接。

from lxml import etree
html = etree.parse('./test01.html',etree.HTMLParser())
result = html.xpath('//title[@lang="en" and @class="item-01"]/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter']

以下是常見的運(yùn)算符：

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-GyHoIIVB-1631169770821)(D:\Users\31156\Desktop\網(wǎng)絡(luò)爬蟲\img\img11.jpg)]

9、按序選擇

實(shí)例test02.html

<bookstore>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
</bookstore>

我們還是按照之前講的，獲取book節(jié)點(diǎn)下的title名。

from lxml import etree
html = etree.parse('./test02.html',etree.HTMLParser())
result = html.xpath('//book/title/text()')
print(result)

【運(yùn)行結(jié)果】

['Harry Potter', 'Learning XML']

這時我們看到有兩個標(biāo)題名，在處理時，我們可以在中括號中傳入索引獲取指定次序的節(jié)點(diǎn)。

獲取依次節(jié)點(diǎn)的值：

from lxml import etree
html = etree.parse('./test02.html',etree.HTMLParser())
result1 = html.xpath('//book[1]/title/text()')
result2 = html.xpath('//book[2]/title/text()')
print(result1)
print(result2)

【運(yùn)行結(jié)果】

['Harry Potter']
['Learning XML']

還有一些其他方法，例如獲取最后一個節(jié)點(diǎn)用last()等，其他操作函數(shù)可參考：XPath函數(shù)

10、節(jié)點(diǎn)軸選擇

這些節(jié)點(diǎn)軸可以幫助我們更快速的進(jìn)行匹配。

到此這篇關(guān)于python網(wǎng)絡(luò)爬蟲精解之XPath的使用說明的文章就介紹到這了,更多相關(guān)python XPath內(nèi)容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站！

版權(quán)聲明：本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學(xué)習(xí)參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項(xiàng)

概要：競價推廣費(fèi)用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費(fèi)郵箱有哪些優(yōu)勢，付費(fèi)郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢