五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

<cite id="8u9g0"></cite>

<s id="8u9g0"></s>

<blockquote id="8u9g0"><pre id="8u9g0"></pre></blockquote>

注冊有禮

控制臺

400-630-3752

公司動態(tài)

產品資訊

行業(yè)資訊

輕云服務器升級CN2線路有什么優(yōu)點

目錄

一、問題描述

1.什么是XPath？

二、解決方案

1.XPath語法
2.lxml庫
3.實際案例

三、結語

本文轉自微信公眾號："算法與編程之美"

一、問題描述

1.什么是XPath？

xpath是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進行遍歷，XPath 通過使用路徑表達式來選取 XML 文檔中的節(jié)點或者節(jié)點集。這些路徑表達式和在常規(guī)的電腦文件系統(tǒng)中看到的表達式非常相似。

二、解決方案

1.XPath語法

想要學好xpath，首先要搞明白html文檔中的節(jié)點。

<div>
  <ul>
 <li class="item-0"><a href="link1.html" rel="external nofollow" >first item</a></li>
 <li class="item-1"><a href="link2.html" rel="external nofollow" >second item</a></li>
 <li class="item-inactive"><a href="link3.html" rel="external nofollow" >third item</a></li>
 <li class="item-1"><a href="link4.html" rel="external nofollow" >fourth item</a></li>
 <li class="item-0"><a href="link5.html" rel="external nofollow" >fifth item</a> # 注意，此處缺少一個 </li> 閉合標簽
</ul>
  </div>

以上是在網上隨便找的一段html的文本，可以觀察得到，div的標簽下是ul標簽，而ul標簽下是li標簽，于是發(fā)現(xiàn)html的標簽是一級一級如樹狀的。Xpath正是通過這樣的方式去尋找。以生活中舉例，要確定一個人的位置，首先確定他在中國，然后確定他在某個省份，哪座城市，那個小區(qū)，最后找到他。

表達式	描述
Nodename	選取此節(jié)點的所有子節(jié)點 bookstore 選取bookstore下所有的子節(jié)點
/	如果是在最前面，代表從根節(jié)點選取。否則選擇某節(jié)點下的某個節(jié)點 /bookstore 選取根元素下所有的bookstore節(jié)點
//	從全局節(jié)點中選擇節(jié)點，隨便在哪個位置 //book 從全局節(jié)點中找到所有的book節(jié)點
@	選取某個節(jié)點的屬性 //book[@price] 選擇所有擁有price屬性的book節(jié)點
.	當前節(jié)點
Text()	獲取標簽中的文本

同級標簽可以用li[1] ,li[2] ,li[3]的方式獲取

2.lxml庫

簡單介紹一下lxml庫，接下來會用到它

lxml是一個HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML 數(shù)據。

lxml和正則一樣，也是用C實現(xiàn)的，是一款高性能的PythonHTML/XML解析器，可以利用之前學習的XPath語法，來快速的定位特定元素以及節(jié)點信息。

3.實際案例

隨便爬取一個網站，找到找到網站的html文本

如下圖：

要找到title和href，仔細觀察可以得到路徑分別是//div[@id="resultList"]/div[@class="el"]/p/span/a/@title

//div[@id="resultList"]/div[@class="el"]/p/span/a/@href

運行如下：

三、結語

Xpath，是在爬蟲中常見的提取數(shù)據的方式之一，相比于正則，它更加簡單一些，便于操作，xpath的難點在于準確的確定數(shù)據所在的位置。

到此這篇關于一文掌握Python爬蟲XPath語法的文章就介紹到這了,更多相關Python爬蟲XPath語法內容請搜索本站以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持本站！

版權聲明：本站文章來源標注為YINGSOO的內容版權均為本站所有，歡迎引用、轉載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網站，禁止在非maisonbaluchon.cn所屬的服務器上建立鏡像，否則將依法追究法律責任。本站部分內容來源于網友推薦、互聯(lián)網收集整理而來，僅供學習參考，不代表本站立場，如有內容涉嫌侵權，請聯(lián)系alex-e#qq.com處理。

相關文章

動態(tài)撥號：關鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內容優(yōu)化：關鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網站轉化率究竟是什么，有什么提升的技巧

一下吧：外貿站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢

服務器配置數(shù)據庫配置服務器運維服務器安全
互聯(lián)網資訊服務器公司 IDC數(shù)據中心
免費服務器香港服務器租用美國服務器租用

上一篇：

Python 自動化處理Excel和Word實現(xiàn)自動辦公

下一篇：

教你在pycharm中使用tensorflow的方法

實時開通

自選配置、實時開通

免備案

全球線路精選！

全天候客戶服務

7x24全年不間斷在線

專屬顧問服務

1對1客戶咨詢顧問

在線
客服

在線客服：7*24小時在線

客服Lucy
客服Jack
技術Bob
商務合作

客服
熱線



400-630-3752
7*24小時客服服務熱線

關注
微信

關注官方微信