美团网也是动态加载的网页,其 Ajax 参数也很复杂,来看下截获的美团 Ajax 请求。其 Ajax 请求是第一张图中表示这一条,可以看到内容为网页上的商铺信息。再来分析其参数。第二张图中参数的 token 值,是经过加密的,加密写在 js 文件中,可惜我不会 js ,没办法去分析加密。不好构造请求,因此只能用之前的 selenium 来采集信息。
下面来写整个项目,按照惯例,先列出步骤。
- 使用 selenium 访问美团美食列表网页,获取网页源代码。
- 使用网页解析工具采集所需数据。
- 导出并整理数据。
使用 selenium
获取网页源代码
1 | from selenium import webdriver |