当前位置：自学咖网 > 技术教程 > Pyhton常见问题 > Python爬虫之页面解析和数据处理

hmoban Pyhton常见问题 2023-11-26

Python爬虫之页面解析和数据处理

页面解析和数据处理

爬虫一共就四个主要步骤：

1.明确目标 (要知道你准备在哪个范围或者网站去搜索)

2.爬 (将所有的网站的内容全部爬下来)

3.取 (去掉对我们没用处的数据)

4.处理数据（按照我们想要的方式存储和使用）

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化数据和结构化数据。

非结构化数据：先有数据，再有结构。

结构化数据：先有结构，再有数据。

相关推荐：《Python相关教程》

1.非结构化的数据处理

1.文本、电话号码、邮箱地址  
　　　　-->正则表达式
2.HTML文件   
　　　　 -->正则表达式，XPath,CSS选择器

2.结构化的数据处理

1.JSON文件 
　　　　-->JSON Path
　　　　-->转化成python类型进行操作
2.XML文件
　　　　-->转化成python类型（xmltodict）
　　　　-->XPath
　　　　-->CSS选择器
　　　　-->正则表达式

相关推荐：

Python爬虫正则表达式如何使用

来源：PY学习网：原文地址：https://www.py.cn/article.html

hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » Python爬虫之页面解析和数据处理

hmoban 普通

分享到：

相关推荐

python如何用if判断文件夹是否存在

python用if判断文件夹是否存在的方法： python的os模块可以对文件夹进行操作。使用if语句“os.path.exists()”函数的返回值是否是True，如果是则输出该文件夹存在示例：判断文件kk是否存在 ...

Pyhton常见问题 2023-10-11
56

python的input函数出错怎么办

input() 函数用于向用户生成一条提示，然后获取用户输入的内容。由于 input() 函数总会将用户输入的内容放入字符串中，因此用户可以输入任何内容，input() 函数总是返回一个字符串。例如如下程序： msg&...

Pyhton常见问题 2023-11-19
45

postgresql数据库怎么恢复

Postgresql的备份分为三种： SQL转储文件系统级别备份（冷备份）在线热备份（归档）以下通过实例来讲解PostgreSQL的三种备份。二、 SQL转储（一）pg_dump 1，创建数据库 created...

Pyhton常见问题 2023-11-15
49

python与java编程语言的区别？

Python与Java的区别： 1、开源这两者都是开源语言，换言之你可以随意的使用这两门语言而不需要付费。在这一点上这两者是不分上下的。唯一的差别可能就是Java的体量要大很多，中文版本的代码也要多很多。而Pyth...

Pyhton常见问题 2023-11-07
46

python怎么输入汉字

在python2中用的是ASCII编码，所以在进行打印中文的时候要进行编码和解码。在python3中用的是Unicode编码，Unicode号称万国码，可以向所有的编码进行兼容。所以在Python3中不会出现中文打印不...

Pyhton常见问题 2023-11-23
45

python怎么打开文件

一、使用python源文件的几种方法运行python脚本： a. windows下打开shell（DOS提示符，命令行，cmd）： CMD命令进入某个目录如在window 下cmd运行python源文件 xxx.py（...

Pyhton常见问题 2023-11-25
40

自学咖网