
在爬蟲開發(fā)中,我們進(jìn)場(chǎng)要使用urllib中的urlopen()和request.get()方法請(qǐng)求或獲取一個(gè)網(wǎng)頁的內(nèi)容。Urliopen打開的UIR網(wǎng)址,url參數(shù)可以是一個(gè)字符創(chuàng)url或者是一個(gè)request對(duì)象,返回的網(wǎng)頁內(nèi)容實(shí)際上市沒有被解碼的。下面就具體為大家分享一下urlopen()的內(nèi)容吧。
Urlopen介紹
urllib.request.urlopen()函數(shù)用于實(shí)現(xiàn)對(duì)目標(biāo)url的訪問。其函數(shù)原型如下:urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
其中url是需要打開的網(wǎng)址;data是Post提交的數(shù)據(jù);timeout:設(shè)置網(wǎng)站的訪問超時(shí)時(shí)間。同時(shí)需要說明的是直接用urllib.request模塊的urlopen()獲取頁面,page的數(shù)據(jù)格式為bytes類型,需要decode()解碼,轉(zhuǎn)換成str類型。
函數(shù)參數(shù)介紹
1. url 參數(shù):目標(biāo)資源在網(wǎng)路中的位置。可以是一個(gè)表示URL的字符串(如:https://www.boxuegu.com);也可以是一個(gè)urllib.request對(duì)象。
2. data參數(shù):data用來指明發(fā)往服務(wù)器請(qǐng)求中的額外的參數(shù)信息(如:在線翻譯,在線答題等提交的內(nèi)容),data默認(rèn)是None,此時(shí)以GET方式發(fā)送請(qǐng)求;當(dāng)用戶給出data參數(shù)的時(shí)候,改為POST方式發(fā)送請(qǐng)求。
3. cafile、capath、cadefault 參數(shù):用于實(shí)現(xiàn)可信任的CA證書的HTTP請(qǐng)求。(基本上很少用)
4. context參數(shù):實(shí)現(xiàn)SSL加密傳輸。(基本上很少用)
返回處理方法詳解
urlopen返回對(duì)象提供方法:
read() , readline() ,readlines() , fileno() , close() :對(duì)HTTPResponse類型數(shù)據(jù)進(jìn)行操作。
info():返回HTTPMessage對(duì)象,表示遠(yuǎn)程服務(wù)器返回的頭信息。
getcode():返回Http狀態(tài)碼。如果是http請(qǐng)求,200請(qǐng)求成功完成;404網(wǎng)址未找到。
geturl():返回請(qǐng)求的url。
版本區(qū)別
python2和python3在導(dǎo)入urlrequest的方式是不一樣的。
python2中:import urllib2,而python3里面把urllib分開了,分成了urlrequest和urlerror,在這里我們只需導(dǎo)入urlrequest即可。from urllib.request import urlopen
以上就是為大家介紹的python爬蟲開發(fā)中的urlopen()的介紹。現(xiàn)在python編程語言應(yīng)用率越來越高,也因此越來越多的朋友加入到python的學(xué)習(xí)之中。Python具有極其廣泛的應(yīng)用:人工智能、數(shù)據(jù)分析、爬蟲、全站開發(fā)、自動(dòng)化運(yùn)維、自動(dòng)化測(cè)試等等。 注:尊重原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處和鏈接 http://elsolbar.com/news-id-17496.html 違者必究!部分文章來源于網(wǎng)絡(luò)由培訓(xùn)無憂網(wǎng)編輯部人員整理發(fā)布,內(nèi)容真實(shí)性請(qǐng)自行核實(shí)或聯(lián)系我們,了解更多相關(guān)資訊請(qǐng)關(guān)注python培訓(xùn)頻道查看更多,了解相關(guān)專業(yè)課程信息您可在線咨詢也可免費(fèi)申請(qǐng)?jiān)囌n。關(guān)注官方微信了解更多:150 3333 6050