歡迎來到培訓無憂網(wǎng)!

全國切換

咨詢熱線 400-001-5729

位置:培訓無憂網(wǎng) > 新聞資訊 > 電腦/IT > 網(wǎng)頁制作 >  網(wǎng)頁制作培訓中什么是網(wǎng)頁的采集

網(wǎng)頁制作培訓中什么是網(wǎng)頁的采集

來源:培訓無憂網(wǎng) 發(fā)布人:星星

2022-02-26 11:34:06|已瀏覽:196次

網(wǎng)頁的采集

       網(wǎng)頁采集作為政府網(wǎng)站網(wǎng)頁在線歸檔的首要環(huán)節(jié),就是利用相關工具,以既定的頻率和方式,及時選擇值得保存的政府網(wǎng)頁內容。網(wǎng)頁采集的第一步是要確定采集對象,政府網(wǎng)頁歸檔保存的信息采集對象是域名中含有“gov.cn”的政府網(wǎng)站,為確保政府網(wǎng)頁的采集質量,需要對目標網(wǎng)站進行評價,將那些信息規(guī)模大、原生性信息多、更新頻繁的政府網(wǎng)站選定為采集對象。在確定要采集的目標政府網(wǎng)站之后,還應根據(jù)實際需求選擇相應的采集方式。

       完整性采集和選擇性采集是目前比較常用的網(wǎng)絡資源采集方式,它們各有優(yōu)缺點,為了彌補其各自的不足,可以實現(xiàn)兩種采集方式的優(yōu)勢互補,采用融合二者優(yōu)點的混合型采集方式,在對選定的政府網(wǎng)站中所有網(wǎng)頁進行完整性采集的同時,通過人工干預的方式對網(wǎng)頁內容進行甄別,對其中有證據(jù)價值、歷史價值、研究價值的重要網(wǎng)頁,有選擇性地進行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁采集面的廣度,同時又照顧到了重要網(wǎng)頁采集的深度。
       而網(wǎng)頁的采集與捕獲最終還需要依靠相應的網(wǎng)絡爬蟲工具來實現(xiàn),目前面向網(wǎng)頁存檔的爬蟲工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來有針對性地完成對目標政府網(wǎng)站網(wǎng)頁的自動批量在線采集。

      注:尊重原創(chuàng)文章,轉載請注明出處和鏈接 http://elsolbar.com/news-id-23658.html 違者必究!部分文章來源于網(wǎng)絡由培訓無憂網(wǎng)編輯部人員整理發(fā)布,內容真實性請自行核實或聯(lián)系我們,了解更多相關資訊請關注網(wǎng)頁制作頻道查看更多,了解相關專業(yè)課程信息您可在線咨詢也可免費申請試課。關注官方微信了解更多:150 3333 6050

留下你的信息,課程顧問老師會一對一幫助你規(guī)劃更適合你的專業(yè)課程!
  • 姓名:

  • 手機:

  • 地區(qū):

  • 想學什么:

  • 培訓無憂網(wǎng)
免 費 申 請 試 聽
提交申請,《培訓無憂網(wǎng)》課程顧問老師會一對一幫助你規(guī)劃更適合你的專業(yè)課程!