一共是有10页,每页显示25个电影。
于是第二页的网址变成了:
这个网址中:“?”表示后面有参数给服务器:start是参数的名,25 是参数的值;然后用 & 这个符号把后面的参数连接起来。filter = 是说后面没有其他的过滤器。
这行代码的意思就是告诉豆瓣的服务器,我现在是想看 25个以后的一些内容。
于是,这个机灵的小家伙就从第26个
如果把25换成30呢?那服务器就会从第31个电影发给你,而页面依然会显示25部电影。
Filter可不可以去掉呢?直接删,其实也并不影响浏览结果的。
有兴趣的朋友可以试试,蛮有意思的。
爬虫与真实用户浏览的区别就是:我们看到的是经过浏览量解析之后的页面,而爬虫拿到的是网页的源代码。
最终得出结论:
1、页面包括250条电影数据,分10页,每页25条;
2、每页的URL的不同之处:最后的数值=(页数 -1) * 25。
分析页面
这里需要用到chrome开发者工具来分析网页。
先下载一个chrome,这个过程就不赘述了。
这个东东以前我一直感觉挺高大上的,如我等屌丝,一直都是用360的。
结果这头一次用,果然就被嫌弃了,死活登录不上网页。
一开始告诉我ERR_CONNECTION_TIMED_OUT ,折腾了半天又跟我说ERR_CONNECTION_RESET。
大汗淋漓、难上加难的折腾半天,结果不知道碰到哪里了,最后莫名其妙的就进去了。
这个过程,像极了男人第一次的样子。
在chrome中,按 f12进入开发者模式,然后 Elements 功能中,左上角有个小箭头,可以帮助在网页源代码中进行定位。
若是点 Network 则可以看访问日志。
点访问top250,可以知道访问这一个网页时候,我做了哪些事情,以及服务器做了哪些事情。
当然,我的所有信息它也是一览无遗的。
这里,除了要掌握 user –Agent的内容外,还要掌握,如果想要做一些登录以后才能看到的内容,就必须学会怎么样存储cookie以及读取cookie。
总之,headers是我们在向网页发起请求访问网页时,给服务器发送的消息。服务器通过这部分信息,鉴定用户身份,包括 cookie 和 user –Agent。
编码规范
一般Python程序第一行需要加入: # -*- coding: utf-8 -*-
如果没有此文件编码类型的声明,则python默认以ASCII编码去处理。
用来指定文件编码为utf-8的,保证文字在中文处理上是正确的。
可以加入 main 函数用于测试程序: if_name_ == “_main_”
再后面的内容需要打开pycharm,跟着老师一起输代码了,明天再弄吧。
限时特惠:本站每日持续更新5-20节内部创业项目课程,一年会员
只需199元,全站资源免费下载点击查看详情
站长微信:
jjs406