Python AI 环境准备

2018-05-09 python ai

目前大部分的 AI 相关工具包、框架等都是通过 Python 实现的,包括了常用的 Numpy、Scikit-Learn、TensorFlow、PyTorch 等等。

所以,这里搭建的环境主要也就是 Python 相关的,另外还有基本的 MNIST 数据集。

依赖包

这里主要是最基本的依赖包,在 Python 的数据挖掘或者 ML 中,经常遇到如下的几种包。

  • Numpy 提供了数组支持,可以有效的提高处理速度,核心部分通过 C/C++ 实现,同时很多高级扩展包依赖它。
  • Scipy 提供矩阵支持,以及矩阵相关的数值计算模块。
  • Pandas 是 Panel Data 简写,提供了强大数据分析和探索工具,因金融数据分析工具而开发,支持类似 SQL 的数据增删改查,支持时间序列分析,灵活处理缺失数据。
  • Scikit-Learn 用于数据挖掘和数据分析的简单且有效的工具,它的基本功能主要被分为六个部分:分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing)。
  • Matplotlib 用于绘图和绘表,强大的数据可视化工具,另外,Seaborn 也是数据可视化的工具包。

安装

为了防止一些包冲突,可以通过 virtualenv 创建一个临时的环境。在安装时,建议使用 pip 命令而非 yum ,一般来说后者的包会比较老。

----- 生成临时环境
$ mkdir -p ~/Workspace/tensorflow && cd ~/Workspace
$ virtualenv --no-site-packages tensorflow
$ source tensorflow/bin/activate

----- 会同时安装像Tkinter这类的库
# yum install python-tools

----- 安装TensorFlow
$ pip install --upgrade tensorflow

----- 安装Numpy
$ pip install --upgrade numpy

----- 安装Matplotlib
$ pip install --upgrade matplotlib
# yum install python-matplotlib

----- 安装Scikit-Learn
$ pip install -U scikit-learn

----- 安装StatsModels
$ pip install statsmodels
$ conda install statsmodels

然后通过如下代码进行测试。

$ python
>>> import tensorflow as tf
>>> hello = tf.constant("Hello TensorFlow")
>>> sess = tf.Session()
>>> print sess.run(hello)
Hello TensorFlow
>>> a = tf.constant(10)
>>> b = tf.constant(32)
>>> print sess.run(a + b)
42

对于 Numpy 源码可以直接从 www.numpy.org 上下载,如果是离线则下载完包之后直接通过如下命令安装。

$ python setup.py build
$ python setup.py install