Python数据分析-

Anaconda 是一个跨平台的版本,通过命令行来管理安装包。进行大规模数据处理、预测分析和科学计算。它包括近 200 个工具包,大数据处理需要用到的常见包有 NumPy 、 SciPy 、 pandas 、 IPython 、 Matplotlib 、 Scikit-learn 、statsmodels、gensim、nltk、networkx、beautifulsoup4和statsmodels 等。
可以直接通过命令进行安装。如下图,分别安装上述相关文件(示例安装pandas,其他类似)。

一、NumPy(Numerical Python)

    NumPy是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,也针对数组运算提供大量的数学函数库。NumPy 为开放源代码并且由许多协作者共同维护开发,是一个运行速度非常快的数学库,用于数组计算。

     NumPy 通常与 SciPy(Scientific Python)和 Matplotlib(绘图库)一起使用,可广泛用于替代 MatLab,是一个强大的科学计算环境,便于后期学习数据科学和者机器学习。 SciPy 是一个开源的 Python 算法库和数学工具包, 包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。 

Matplotlib 是 Python 编程语言及其数值数学扩展包 NumPy 的可视化操作界面,是为利用通用的图形用户界面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 向应用程序嵌入式绘图提供了应用程序接口(API),前期在数据可视化中做作过简单的介绍。

1、numpy中的数组操作及代码

NumPy中的ndarray是一个多维数组对象,该对象由两部分组成:实际的数据和描述这些数据的元数据,大部分的数组操作仅仅修改元数据部分。

import numpy as np  #导入numpy包,并另命令为np

a = np.arange(5)  # 调用numpy中的函数arange,函数创建数组
print(a.dtype)   # 打印出数组a的数据类型
print(a.shape)  #数组的 shape 属性返回一个元组(tuple),元组中的元素即为NumPy数组每一个维度上的大小
print("
")
#创建多维数组
m = np.array([np.arange(5), np.arange(5)]) #列表作为参数传给array函数,从而创建了一个5×2的数组
print(m)

#选取数组元素
print(m[0,0])
print(m[0,1])
print(m[1,1])
print(m[1,2])
print(m[1,3])

# NumPy 自定义的异构数据类型,该数据类型包括一个用字符串记录的名字、一个用
# 整数记录的数字以及一个用浮点数记录的价格 
t = np.dtype([("name", np.str_, 40), ("numitems", np.int32), ("price",np.float32)])
print(t)

# 一维数组的索引和切片
a = np.arange(9)
print(a[3:7])
print("
")
#多维数组的切片和索引
b = np.arange(24).reshape(2,3,4)  #reshape函数的作用是改变数组的“形状”,也就是改变数组的维度
#其参数为一个正整数元组,分别指定数组在每个维度上的大小

print(b.shape)
print("
")
print(b)
print("
")
print(b[0])
print("
")
print(b[:,0,0]) #下标用英文标点的冒号:来代替,表示不限该位置的参数,即打印出b的第1行,第1列的所有元组的数据。
hmoban主题是根据ripro二开的主题,极致后台体验,无插件,集成会员系统
自学咖网 » Python数据分析-