Python爬虫基础讲解(十二):初探selenium——动态网页&静态网页
Selenium采集数据
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),Mozilla Chrome,Safari,Google
Chrome,Opera等。
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
https://space.bilibili.com/523606542
Python学习交流群:1039649593
动态网页&静态网页
静态网页是指存放在服务器文件系统中实实在在的HTML文件。当用户在浏览器中输入页面的
URL,然后回车,浏览器就会将对应的HTML文件下载、渲染并呈现在窗口中。早期的网站通常都是由静态页面制作的。
1. 动态网页
动态网页是相对于静态网页而言的。当浏览器请求服务器的某个页面时,服务器根据当前时间、环境参数、数据库操作等动态的生成HTML页面,然后在发送给浏览器(后面的处理就跟静态网页一样了)。
很明显,动态网页中的“动态”是指服务器端页面的动态生成,相反,”静态”则指页面是实实在在的、独立的文件。
注意:
-
动态页面技术是与静态页面技术相对应的,也就是说,网页URL的后缀不是
.htm、.html、.shtml、.xml等静态网页的常见形式,而是以.asp、.jsp、.php、.perl、.cgi等形式为后缀,并且在动态网页网址中有一个标志性的符号——“? “。 -
这里说的动态网页,与网页上的各种动画、滚动字幕等视觉上的“动态效果”没有直接关系,动态网页也可以是纯文字内容的,也可以是包含各种动画的内容,这些只是网页具体内容的表现形式,无论网页是否具有动态效果,采用动态网站技术生成的网页都称为动态网页。
1.1 JavaScript
JavaScript是-种属于网络的脚本语言,已经被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户提供更流畅美观的浏览效果。通常lavaScript脚本是通过嵌入在HTML 中来实现自身的功能的。
可以在网页源代码的标签里看到,比如:
<script type="text/javascript" src="https://statics . huxiu. com/w/mi ni/static_ 2015/js/sea. js?v=201601150944"> </script>