我学爬虫我骄傲 | 装上chrome，开始研究网页源代码（第44天）

一共是有10页，每页显示25个电影。

于是第二页的网址变成了：

这个网址中：“？”表示后面有参数给服务器：start是参数的名，25 是参数的值；然后用 & 这个符号把后面的参数连接起来。filter = 是说后面没有其他的过滤器。

这行代码的意思就是告诉豆瓣的服务器，我现在是想看 25个以后的一些内容。

于是，这个机灵的小家伙就从第26个

如果把25换成30呢？那服务器就会从第31个电影发给你，而页面依然会显示25部电影。

Filter可不可以去掉呢？直接删，其实也并不影响浏览结果的。

有兴趣的朋友可以试试，蛮有意思的。

爬虫与真实用户浏览的区别就是：我们看到的是经过浏览量解析之后的页面，而爬虫拿到的是网页的源代码。

最终得出结论：

1、页面包括250条电影数据，分10页，每页25条；

2、每页的URL的不同之处：最后的数值=（页数 -1） * 25。

分析页面

这里需要用到chrome开发者工具来分析网页。

先下载一个chrome，这个过程就不赘述了。

这个东东以前我一直感觉挺高大上的，如我等屌丝，一直都是用360的。

结果这头一次用，果然就被嫌弃了，死活登录不上网页。

一开始告诉我ERR_CONNECTION_TIMED_OUT ，折腾了半天又跟我说ERR_CONNECTION_RESET。

大汗淋漓、难上加难的折腾半天，结果不知道碰到哪里了，最后莫名其妙的就进去了。

这个过程，像极了男人第一次的样子。

在chrome中，按 f12进入开发者模式，然后 Elements 功能中，左上角有个小箭头，可以帮助在网页源代码中进行定位。

若是点 Network 则可以看访问日志。

点访问top250，可以知道访问这一个网页时候，我做了哪些事情，以及服务器做了哪些事情。

当然，我的所有信息它也是一览无遗的。

这里，除了要掌握 user –Agent的内容外，还要掌握，如果想要做一些登录以后才能看到的内容，就必须学会怎么样存储cookie以及读取cookie。

总之，headers是我们在向网页发起请求访问网页时，给服务器发送的消息。服务器通过这部分信息，鉴定用户身份，包括 cookie 和 user –Agent。

一般Python程序第一行需要加入： # -*- coding: utf-8 -*-

如果没有此文件编码类型的声明，则python默认以ASCII编码去处理。

用来指定文件编码为utf-8的,保证文字在中文处理上是正确的。

可以加入 main 函数用于测试程序： if_name_ == “_main_”

再后面的内容需要打开pycharm，跟着老师一起输代码了，明天再弄吧。

网页源代码怎么看懂_网页源代码_网页源代码怎么修改

限时特惠：本站每日持续更新5-20节内部创业项目课程，一年会员
只需199元，全站资源免费下载点击查看详情
站长微信：
jjs406

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。