下載吧 - 綠色安全的游戲和軟件下載中心

          軟件下載吧

          當(dāng)前位置:軟件下載吧 > 數(shù)據(jù)庫(kù) > DB2 > python實(shí)現(xiàn)爬蟲(chóng)數(shù)據(jù)存到 MongoDB

          python實(shí)現(xiàn)爬蟲(chóng)數(shù)據(jù)存到 MongoDB

          時(shí)間:2024-03-09 11:51作者:下載吧人氣:36

          在以上兩篇文章中已經(jīng)介紹到了 Python 爬蟲(chóng)和 MongoDB , 那么下面我就將爬蟲(chóng)爬下來(lái)的數(shù)據(jù)存到 MongoDB 中去,首先來(lái)介紹一下我們將要爬取的網(wǎng)站, readfree 網(wǎng)站,這個(gè)網(wǎng)站非常的好,我們只需要每天簽到就可以免費(fèi)下載三本書(shū),良心網(wǎng)站,下面我就將該網(wǎng)站上的每日推薦書(shū)籍爬下來(lái)。

          python實(shí)現(xiàn)爬蟲(chóng)數(shù)據(jù)存到 MongoDB

          利用上面幾篇文章介紹的方法,我們很容易的就可以在網(wǎng)頁(yè)的源代碼中尋找到書(shū)籍的姓名和書(shū)籍作者的信息。

          找到之后我們復(fù)制 XPath ,然后進(jìn)行提取即可。源代碼如下所示

          # coding=utf-8
          
          import re
          import requests
          from lxml import etree
          import pymongo
          import sys
          
          reload(sys)
          sys.setdefaultencoding('utf-8')
          
          def getpages(url, total):
            nowpage = int(re.search('(d+)', url, re.S).group(1))
            urls = []
          
            for i in range(nowpage, total + 1):
              link = re.sub('(d+)', '%s' % i, url, re.S)
              urls.append(link)
          
            return urls
          
          def spider(url):
            html = requests.get(url)
          
            selector = etree.HTML(html.text)
          
            book_name = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/a/text()')
            book_author = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/div/a/text()')
          
            saveinfo(book_name, book_author)
          
          def saveinfo(book_name, book_author):
            connection = pymongo.MongoClient()
            BookDB = connection.BookDB
            BookTable = BookDB.books
          
            length = len(book_name)
          
            for i in range(0, length):
              books = {}
              books['name'] = str(book_name[i]).replace('n','')
              books['author'] = str(book_author[i]).replace('n','')
              BookTable.insert_one(books)
          
          if __name__ == '__main__':
            url = 'http://readfree.me/shuffle/?page=1'
            urls = getpages(url,3)
          
            for each in urls:
              spider(each)
          
          
          標(biāo)簽python,實(shí)現(xiàn),爬蟲(chóng),數(shù)據(jù),MongoDB

          相關(guān)下載

          查看所有評(píng)論+

          網(wǎng)友評(píng)論

          網(wǎng)友
          您的評(píng)論需要經(jīng)過(guò)審核才能顯示

          熱門閱覽

          最新排行

          公眾號(hào)

          主站蜘蛛池模板: 97一区二区三区四区久久| 无码精品蜜桃一区二区三区WW| 色窝窝免费一区二区三区| 日韩a无吗一区二区三区| 中文字幕日韩人妻不卡一区| 国产乱人伦精品一区二区在线观看 | 国产91精品一区二区麻豆网站 | 亚欧色一区W666天堂| 一区二区三区福利视频| 国产精品无码一区二区三区毛片| 99精品国产高清一区二区三区| 亚洲国产综合精品一区在线播放| 五十路熟女人妻一区二区| 国产乱码精品一区二区三区中| 人妻无码久久一区二区三区免费| 国产日韩精品一区二区在线观看播放 | 在线精品亚洲一区二区小说| 日韩一区二区三区在线观看| 免费高清在线影片一区| 海角国精产品一区一区三区糖心| 亚洲福利视频一区| 久久久久人妻一区精品性色av| 亚洲av无码一区二区三区网站 | 成人日韩熟女高清视频一区| 精品成人一区二区三区四区| 国产一区二区精品久久凹凸| 国模无码一区二区三区不卡| 国产福利视频一区二区| 久久精品一区二区三区资源网| 国产激情无码一区二区app| 久久亚洲AV午夜福利精品一区| 日韩一区二区在线观看视频| 久久久精品人妻一区二区三区蜜桃 | 日本一区免费电影| 乱人伦一区二区三区| 亚洲午夜福利AV一区二区无码| 国产精品免费一区二区三区四区| 3d动漫精品一区视频在线观看 | 亚洲男人的天堂一区二区| 久久精品一区二区三区不卡| 91在线视频一区|