当前位置：自学咖网 > 技术教程 > 编程最新 > 用Python获取Amazon亚马逊的商品信息

wen 编程最新 2024-01-31

用Python获取Amazon亚马逊的商品信息

引言

亚马逊网站相较于国内的购物网站，可以直接使用python的最基本的requests进行请求。访问不是过于频繁，在未触发保护机制的情况下，可以获取我们想要的数据。本次通过以下三部分简单介绍下基本爬取流程：

使用requests的get请求，获取亚马逊列表和详情页的页面内容
使用css/xpath对获取的内容进行解析，取得关键数据
动态IP的作用及其使用方法

一、获取亚马逊列表页的信息

以游戏区为例：

程序员必备接口测试调试工具：立即使用

Apipost = Postman + Swagger + Mock + Jmeter

Api设计、调试、文档、自动化测试工具

后端、前端、测试，同时在线协作，内容实时同步

获取列表内能获取到的商品信息，如商品名，详情链接，进一步获取其他内容。

用requests.get()获取网页内容，设置好header，利用xpath选择器选取相关标签的内容：


import requests  
from parsel import Selector  
from urllib.parse import urljoin  
   
spiderurl = 'https://www.amazon.com/s?i=videogames-intl-ship'  
headers = {  
    "authority": "www.amazon.com",  
    "user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_3 like Mac OS X) AppleWebKit/603.3.8 (KHTML, like Gecko) Mobile/14G60 MicroMessenger/6.5.19 NetType/4G Language/zh_TW",  
}  
resp = requests.get(spiderurl, headers=headers)  
content = resp.content.decode('utf-8')  
select = Selector(text=content)  
nodes = select.xpath("//a[@title='product-detail']")  
for node in nodes:  
    itemUrl = node.xpath("./@href").extract_first()  
    itemName = node.xpath("./div/h2/span/text()").extract_first()  
    if itemUrl and itemName:  
        itemUrl = urljoin(spiderurl,itemUrl)#用urljoin方法凑完整链接  
        print(itemUrl,itemName)
登录后复制


      
        hmoban主题是根据ripro二开的主题，极致后台体验，无插件，集成会员系统
自学咖网 » 用Python获取Amazon亚马逊的商品信息


    
    
          
    
      
        wen
         普通      
    
  
      
      分享到：




  
    
        上一篇
基于Python通过cookie对某芯片网站信息的获取
        下一篇
R语言—数据基础及练习
    
    
  

      
      
        相关推荐

        
                     
                 
                    
                      
      
    springboot集成itextpdf动态生成pdf并展示
  
                      
                        背景 接上文SpringBoot集成markdown实现文档管理，对于表格的支持markdown不是特别友好，同时内部文档管理需要增加表格式api接口文档的功能，所以决定采用结合数据库存储与动态生成pdf借助目录结构展示...                      
                      
  

        
      编程最新
       2024-01-31
    

             98
            
  
                    
                  
            
                      
                 
                    
                      
      
    php如何将对象转化为数组
  
                      
                        两种方法：1、用json_encode将对象转为json数据，再用json_decode将json数据转为数组，语法“json_decode(json_encode(对象),TRUE)”；2、用“get_object_v...                      
                      
  

        
      编程最新
       2024-01-31
    

             118
            
  
                    
                  
            
                      
                 
                    
                      
      
    docker安装nacos 1.x版本
  
                      
                        docker安装nacos 拉取版本对应镜像 docker pull nacos/nacos-server:1.4.2 创建配置文件 vim /usr/local/nacos/init.d/custom.properti...                      
                      
  

        
      编程最新
       2024-01-31
    

             115
            
  
                    
                  
            
                      
                 
                    
                      
      
    智能营销总部：C语言入门系列之12位运算
  
                      
                        模板编程是idea的强大功能，也提高了开发人员的编程效率，比如输入main函数： public static void main(String[] args){} 正常情况下我们需要每个字母挨个输入，但是这样输入太慢了，...                      
                      
  

        
      编程最新
       2024-01-31
    

             134
            
  
                    
                  
            
                      
                 
                    
                      
      
    SpringCloud03—Rest学习环境搭建
  
                      
                        1. 概览 我们会使用一个Dept部门模块做一个微服务通用案例Consumer消费者(Client)通过REST调用Provider提供者(Server)提供的服务 新建Maven项目，作为父项目，建立3个子项目 spr...                      
                      
  

        
      编程最新
       2024-01-31
    

             213
            
  
                    
                  
            
                      
                 
                    
                      
      
    几种java输出语句格式感悟
  
                      
                        不是特别完整和齐全，自己的一些小感悟，希望能帮助大家。对新手很友好，哈哈哈。输入：Scanner in=new Scanner(System.in); 新创建一个输入的Scanner对象，然后赋值给in,这个作用就是获取...                      
                      
  

        
      编程最新
       2024-01-31
    

             124


					
				

	热门文章
1php怎么拆分数组且不改变key值
2关于scrapy的代理问题
3全网最新的nacos 2.1.0集群多节点部署教程
4《Python学习手册第5版》PDF高清版-源代码学习思考
5关于单片机内存解释的整理
6linux php不能上传文件夹怎么办
7运算符
8小编带你学定界符之nowdoc和heredoc有区别吗？
推荐文章
接了个变态需求：生成 Excel + PDF 导出，用 Java 怎么实现？
java ==和equals的区别简单理解
快速整明白Redis中的字典到底是个啥
玩转PHP之快速制作Word简历
Python elasticsearch 使用心得
PHP中cookie和session的区别是什么？
php不能处理太大图片怎么办
python 的__str__和__repr__有什么区别？
标签
iframe方法
linux修改系统时间
linux分区
linux命令
linux操作命令
mail()函数解析
more命令
Nginx 反向代理
python 多层for循环
redis优化
redis安装配置
WordPress主题安装
WordPress 伪静态规则
WordPress修改上传文件大小限制
Wordpress创建模版
WordPress固定链接
WordPress 图片 SEO
WordPress居中对齐视频
Wordpress建立友情链接
WordPress快速安装
WordPress插入外链
Wordpress新建模板
wordpress添加导航
WordPress禁止裁剪
WordPress禁用自动保存
WordPress获取缩略图
WordPress菜单功能
上传文件大小限制
中文标签出现404
优化Redis
后台不显示其他主题
图像 SEO
多站点修改
子比美化
文件编码格式
百度静态资源公共库
磁盘配额管理
禁止Emoji表情
禁止WordPress加载Emoji
禁用scandir函数
禁用文章修订版本
移除底部版权
缓存主题
联盟广告代码
重置MySQL密码

 

	
	
		
			
									
				友情链接：
				
				Hi模板网
				
			
									  
			    温馨提示您：本站所载文章、数据仅供参考，如果有文章侵犯了您的权益，请来信告知我们删除，联系邮箱：976157886@qq.com

Copyright © 2023 自学咖网 - All rights reserved
			    			     浙ICP备2023005527号
			    			    

			    
			  
					
	
	

	
	
		
	
	    
    
	    
	







  
  
      自学咖网
    
  
  
    腾讯云春季大促，助力开工
2核2G云服务器低至 68元/年
立即查看
热门文章
1php怎么拆分数组且不改变key值
2关于scrapy的代理问题
3全网最新的nacos 2.1.0集群多节点部署教程
4《Python学习手册第5版》PDF高清版-源代码学习思考
5关于单片机内存解释的整理
6linux php不能上传文件夹怎么办
7运算符
8小编带你学定界符之nowdoc和heredoc有区别吗？
标签
iframe方法
linux修改系统时间
linux分区
linux命令
linux操作命令
mail()函数解析
more命令
Nginx 反向代理
python 多层for循环
redis优化
redis安装配置
WordPress主题安装
WordPress 伪静态规则
WordPress修改上传文件大小限制
Wordpress创建模版
WordPress固定链接
WordPress 图片 SEO
WordPress居中对齐视频
Wordpress建立友情链接
WordPress快速安装
WordPress插入外链
Wordpress新建模板
wordpress添加导航
WordPress禁止裁剪
WordPress禁用自动保存
WordPress获取缩略图
WordPress菜单功能
上传文件大小限制
中文标签出现404
优化Redis
后台不显示其他主题
图像 SEO
多站点修改
子比美化
文件编码格式
百度静态资源公共库
磁盘配额管理
禁止Emoji表情
禁止WordPress加载Emoji
禁用scandir函数
禁用文章修订版本
移除底部版权
缓存主题
联盟广告代码
重置MySQL密码