一共是有10页,每页显示25个电影

于是第二页的网址变成了:

这个网址中:“?”表示后面有参数给服务器:start是参数的名,25 是参数的值;然后用 & 这个符号把后面的参数连接起来。filter = 是说后面没有其他的过滤器。

这行代码的意思就是告诉豆瓣的服务器,我现在是想看 25个以后的一些内容。

于是,这个机灵的小家伙就从第26个

如果把25换成30呢?那服务器就会从第31个电影发给你,而页面依然会显示25部电影。

Filter可不可以去掉呢?直接删,其实也并不影响浏览结果的。

有兴趣的朋友可以试试,蛮有意思的。

爬虫与真实用户浏览的区别就是:我们看到的是经过浏览量解析之后的页面,而爬虫拿到的是网页的源代码。

最终得出结论:

1、页面包括250条电影数据,分10页,每页25条;

2、每页的URL的不同之处:最后的数值=(页数 -1) * 25。

分析页面

这里需要用到chrome开发者工具来分析网页。

先下载一个chrome,这个过程就不赘述了。

这个东东以前我一直感觉挺高大上的,如我等屌丝,一直都是用360的。

结果这头一次用,果然就被嫌弃了,死活登录不上网页。

一开始告诉我ERR_CONNECTION_TIMED_OUT ,折腾了半天又跟我说ERR_CONNECTION_RESET。

大汗淋漓、难上加难的折腾半天,结果不知道碰到哪里了,最后莫名其妙的就进去了。

这个过程,像极了男人第一次的样子。

在chrome中,按 f12进入开发者模式,然后 Elements 功能中,左上角有个小箭头,可以帮助在网页源代码中进行定位。

若是点 Network 则可以看访问日志。

点访问top250,可以知道访问这一个网页时候,我做了哪些事情,以及服务器做了哪些事情。

当然,我的所有信息它也是一览无遗的。

这里,除了要掌握 user –Agent的内容外,还要掌握,如果想要做一些登录以后才能看到的内容,就必须学会怎么样存储cookie以及读取cookie。

总之,headers是我们在向网页发起请求访问网页时,给服务器发送的消息。服务器通过这部分信息,鉴定用户身份,包括 cookie 和 user –Agent。

编码规范

一般Python程序第一行需要加入: # -*- coding: utf-8 -*-

如果没有此文件编码类型的声明,则python默认以ASCII编码去处理。

用来指定文件编码为utf-8的,保证文字在中文处理上是正确的。

可以加入 main 函数用于测试程序: if_name_ == “_main_”

再后面的内容需要打开pycharm,跟着老师一起输代码了,明天再弄吧。

网页源代码怎么看懂_网页源代码_网页源代码怎么修改

限时特惠:本站每日持续更新5-20节内部创业项目课程,一年会员
只需199元,全站资源免费下载点击查看详情
站长微信:
jjs406

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注