网络技术分享,编程知识学习。
Python多线程爬虫详解
网络爬虫程序是一种 IO 密集型程序,程序中涉及了很多网络 IO 以及本地磁盘 IO 操作,这些都会消耗大量的时间,从而降低程序的执行效率,而 Python 提供的多线程能够在一定程度上提升 IO 密集型程序的执行效率。如果想学习 Python 多进程、多线程以及 Python GIL 全局解释器锁...
Python爬虫实现Cookie模拟登录
在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie 模拟登录技术成功地解决了此类问题。Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时,服务端会在返...
Python Selenium基本用法
Selenium 作为一款 Web 自动化测试框架,提供了诸多操作浏览器的方法,本节对其中的常用方法做详细介绍。定位节点Selenium 提供了 8 种定位单个节点的方法,如下所示:方法说明find_element_by_id()通过 id 属性值定位find_element_by_name()通过...
Python Scrapy爬虫框架详解
Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架,该框架使用纯 Python 语言编写。Scrapy 框架应用广泛,常用于数据采集、网络监测,以及自动化测试等。提示:Twisted 是一个基于事件驱动的网络引擎框架,同样采用 Python 实现。Scrapy下载安装Scrapy 支持...
Python re模块用法详解
在 Python 爬虫过程中,实现网页元素解析的方法有很多,正则解析只是其中之一,常见的还有 BeautifulSoup 和 lxml,它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。注意:在学习本节知识之前,您应该基本掌握了 Pyth...
Python类对象的创建和使用
Python类的实例化对已定义好的类进行实例化,其语法格式如下:类名(参数)定义类时,如果没有手动添加 __init__() 构造方法,又或者添加的 __init__() 中仅有一个 self 参数,则创建类对象时的参数可以省略不写。例如,如下代码创建了名为 CLanguage 的类,并对其进行了实...
MySQL函数大全,MySQL常用函数汇总
MySQL 函数会对传递进来的参数进行处理,并返回一个处理结果,也就是返回一个值。MySQL 包含了大量并且丰富的函数,这套 MySQL 函数大全只收集了几十个常用的,剩下的比较罕见的函数我们就不再整理了,读者可以到「MySQL 官网」查询。可以对 MySQL 常用函数进行简单的分类,大概包括数值型...
如何安装Python图型处理库Python Imaging Library(PIL)
在Python中对图片的处理采用了PIL库,这个库可用于图片的一些常用操作,如改变尺寸、格式、色彩、旋转等处理。...