Python数据分析-
Anaconda 是一个跨平台的版本,通过命令行来管理安装包。进行大规模数据处理、预测分析和科学计算。它包括近 200 个工具包,大数据处理需要用到的常见包有 NumPy 、 SciPy 、 pandas 、 IPython 、 Matplotlib 、 Scikit-learn 、statsmodels、gensim、nltk、networkx、beautifulsoup4和statsmodels 等。
可以直接通过命令进行安装。如下图,分别安装上述相关文件(示例安装pandas,其他类似)。
一、NumPy(Numerical Python)
NumPy是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,也针对数组运算提供大量的数学函数库。NumPy 为开放源代码并且由许多协作者共同维护开发,是一个运行速度非常快的数学库,用于数组计算。
NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用,可广泛用于替代 MatLab,是一个强大的科学计算环境,便于后期学习数据科学和者机器学习。 SciPy 是一个开源的 Python 算法库和数学工具包, 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面,是为利用通用的图形用户界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口(API),前期在数据可视化中做作过简单的介绍。
1、numpy中的数组操作及代码
NumPy中的ndarray是一个多维数组对象,该对象由两部分组成:实际的数据和描述这些数据的元数据,大部分的数组操作仅仅修改元数据部分。
import numpy as np #导入numpy包,并另命令为np a = np.arange(5) # 调用numpy中的函数arange,函数创建数组 print(a.dtype) # 打印出数组a的数据类型 print(a.shape) #数组的 shape 属性返回一个元组(tuple),元组中的元素即为NumPy数组每一个维度上的大小 print(" ") #创建多维数组 m = np.array([np.arange(5), np.arange(5)]) #列表作为参数传给array函数,从而创建了一个5×2的数组 print(m) #选取数组元素 print(m[0,0]) print(m[0,1]) print(m[1,1]) print(m[1,2]) print(m[1,3]) # NumPy 自定义的异构数据类型,该数据类型包括一个用字符串记录的名字、一个用 # 整数记录的数字以及一个用浮点数记录的价格 t = np.dtype([("name", np.str_, 40), ("numitems", np.int32), ("price",np.float32)]) print(t) # 一维数组的索引和切片 a = np.arange(9) print(a[3:7]) print(" ") #多维数组的切片和索引 b = np.arange(24).reshape(2,3,4) #reshape函数的作用是改变数组的“形状”,也就是改变数组的维度 #其参数为一个正整数元组,分别指定数组在每个维度上的大小 print(b.shape) print(" ") print(b) print(" ") print(b[0]) print(" ") print(b[:,0,0]) #下标用英文标点的冒号:来代替,表示不限该位置的参数,即打印出b的第1行,第1列的所有元组的数据。