scrapy启动爬虫python网络爬虫scrapy组件scrapy 运行爬虫

首页
scrapy启动爬虫python网络爬虫scrapy组件scrapy 运行爬虫

scrapy启动爬虫python网络爬虫scrapy组件scrapy 运行爬虫

2022-07-21 2:16:03 网络知识 官方管理员

195|0条评论

本文将介绍我是如何在python爬虫里面一步一步踩坑，然后慢慢走出来的，期间碰到的所有问题我都会详细说明，让大家以后碰到这些问题时能够快速确定问题的来源，后面的代码只是贴出了核心代码，更详细的代码暂时没有贴出来。

流程一览

首先我是想爬某个网站上面的所有文章内容，但是由于之前没有做过爬虫（也不知道到底那个语言最方便），所以这里想到了是用python来做一个爬虫（毕竟人家的名字都带有爬虫的含义:smile:），我这边是打算先将所有从网站上爬下来的数据放到ElasticSearch里面,选择ElasticSearch的原因是速度快，里面分词插件，倒排索引，需要数据的时候查询效率会非常好（毕竟爬的东西比较多:smile:），然后我会将所有的数据在ElasticSearch的老婆kibana里面将数据进行可视化出来，并且分析这些文章内容，可以先看一下预期可视化的效果（上图了），这个效果图是kibana6.4系统给予的帮助效果图（就是说你可以弄成这样,我也想弄成这样:grin:）。后面我会发一个dockerfile上来（现在还没弄:flushed:）。

环境需求

Jdk(Elasticsearch需要)
ElasticSearch(用来存储数据)
Kinaba(用来操作ElasticSearch和数据可视化)
Python(编写爬虫)
Redis(数据排重)

这些东西可以去找相应的教程安装，我这里只有ElasticSearch的安装:cry:点我获取安装教程

第一步，使用python的pip来安装需要的插件（第一个坑在这儿）

tomd:将html转换成markdown

pip3installtomd复制代码

redis:需要python的redis插件

pip3installredis复制代码

scrapy:框架安装(坑)
首先我是像上面一样执行了

pip3installscrapy复制代码

然后发现缺少gcc组件error:command'gcc'failedwithexitstatus1

然后我就找啊找，找啊找，最后终于找到了正确的解决方法(期间试了很多错误答案:sob:)。最终的解决办法就是使用yum来安装python34-devel,这个python34-devel根据你自己的python版本来，可能是python-devel,是多少版本就将中间的34改成你的版本,我的是3.4.6

yuminstallpython34-devel复制代码

安装完成过后使用命令scrapy来试试吧。

第二步，使用scrapy来创建你的项目

输入命令scrapystartprojectscrapyDemo,来创建一个爬虫项目

使用genspider来生成一个基础的spider,使用命令scrapygenspiderdemojuejin.im，后面这个网址是你要爬的网站,我们先爬自己家的:joy:

第三步，打开项目，开始编码

查看生成的的demo.py的内容

可以使用第二种方式，将start_urls给提出来

编写parse方法的代码

编写pipeline类,这个pipeline是一个管道，可以将所有yield关键字返回的数据都交给这个管道处理，但是需要在settings里面配置一下pipeline才行

第四步，运行代码查看效果

使用scrapylist查看本地的所有爬虫

liaochengdeMacBook-Pro:scrapyDemoliaocheng$scrapylistdemoliaochengdeMacBook-Pro:scrapyDemoliaocheng$复制代码

使用scrapycrawldemo来运行爬虫

scrapycrawldemo复制代码

到kibana里面看爬到的数据,执行下面的命令可以看到数据

电话邦取消标记手机号码被阿里钱盾标记电话怎么取消申述阿里钱盾号码标记取消平台电话苹果密码忘了怎么办iPhone忘记密码解锁恢复方法苹果解锁密码忘了怎么办最简单的方法

发表评论：取消回复

MORE>

热门推荐网友点评

访客评论文章：

电脑上软件双击打不开win10电脑点不开软件最简单办法win10电脑双击软件打不开是为什么

你好，显示拒绝访问，怎么办，谢谢...
交指评论文章：

快速全选的快捷键是什么,选择全部快捷键全选是哪个

求田问舍，怕应羞见，刘郎才气。...
聪图评论文章：

快速全选的快捷键是什么,选择全部快捷键全选是哪个

一视同仁虎头虎脑...
爬被评论文章：

快速全选的快捷键是什么,选择全部快捷键全选是哪个

窗含西岭千秋雪，门泊东吴万里船。...
古呵评论文章：

快速全选的快捷键是什么,选择全部快捷键全选是哪个

画龙点睛一举两得...

最近发表

网站分类

网络知识

scrapy启动爬虫python网络爬虫scrapy组件scrapy 运行爬虫

scrapy启动爬虫python网络爬虫scrapy组件scrapy 运行爬虫

韩博士系统重装u盘,韩博士系统重装u盘如何使用

Mac苹果电脑安装windows系统,苹果笔记本安装双系统

mac如何清理u盘,mac怎么清空u盘后恢复文件

打印机已连接但无法打印打印机连接正常打印没反应的解决方法打印机已连接但是无法打印什么原因

小米手机无法启动小米手机开不了机怎么办教你一招解决小米手机开不开机怎么回事求帮助

海信电视不识别u盘apk电视无法识别u盘apk文件终极方法海信电视不识别u盘里的apk文件

地铁工作人员工资是多少

电脑一直正在启动windows怎么办电脑开机停留在启动界面怎么办电脑启动时一直停留在"正在启动windows"界面