tensorflow使用gpu训练不使用cpu,安装gpu版本的tensorflow需要什么操作

　　深度学习的theano/tensorflow多卡多用户习题集转载自:https://zhuanlan.zhihu.com/p/23250782

　　其实一直想写这篇文章，今天还是抽空系统整理一下吧

　　深度学习在实验环境中，一台主机上通常安装多个显卡，可以多人使用，或者运行一些分布式任务

　　举个例子，我在这里的一个主机里装了三个980Ti显卡(虽然我做了SLI，但是深度学习其实不需要其实只有在windows下玩游戏才有用)，三张卡都可以同时正常运行，不用水冷运行环境主要是keras (anaconda虚拟环境，cuda7.5 cudnn4)有的人选择theano，有的人选择tensorflow，有的人直接运行tensorflow，没有keras因为是实验环境加正式环境(每天定时运行程序)，可能会有4、5个用户同时使用，在之前的使用过程中经常会遇到各种冲突经历了各种痛苦，积累了一些经验，列举了各种解决办法

　　基本显卡信息可以通过nvidia-smi命令显示:

　　可以看到第一个显卡和第三个显卡已经有程序在运行了(一般连接显示器的显卡会占用200M左右的显存)，但是我已经通过代码限制了显存占用(下面会提到)

　　要看什么python代码在运行，可以用ps ax grep python命令看别人的代码在运行在实际使用中，由于深度学习会运行很长时间，可以考虑使用apt-get安装screen或者tmux复用终端来运行，这样即使断网，程序也不会中断

　　接下来，我们进入正题默认情况下，我们已经配置使用显卡运行深度学习程序:

　　1.运行多个程序，但返回的视频内存不足

　　有时你会遇到这样的情况:内存错误:错误分配xxxxx

　　xx字节的设备内存错误(cnmem _ status _ out _ of _ memory)

　　一般当两个程序试图同时执行同一块显卡上的程序时，默认会返回这个错误。首先，nvidia的显卡作为深度学习的两个关键部分，一个是显存，一个是cuda流处理器，如下图所示。注意流处理器和显存容量这两个关键指标。

　　默认情况下，初始化时，theano和tensorflow都会占用整个视频内存。请注意，已经满员了。这样这个显卡就容纳不下第二个程序运行了。所以在默认配置下，一块显卡只允许一个人同时运行一个深度学习程序。

　　那么，我们自然会想，是不是一次只用一部分显存，是不是可以同时运行多个程序。答案自然是肯定的。

　　1.1:ano后台限制显存：每个用户在自己的home根目录下建立一个. theanorc文件(注意这个文件默认不存在，文件名前面有一个点)。配置参数示例如下(参考：configano配置):

　　[global]floatx=float 32 device=GPU 0 optimizer _ including=cud nn[lib]cn mem=0.3[cuda]root=/usr/local/cuda/cn mem占用多大比例的内存，也就是说如果配置0.3，1.0/0.3=3个程序可以同时运行(剩下的0.1留给显示器显示ubuntu桌面)，每个程序一次占用三分之一的显存。Device=gpu0表示第0个gpu启动。用nvidia-smi命令输出，gpu0其实代表最下面的显卡(请注意图中显示的是数字2)，gpu1代表中间的那块(如果总共有三块显卡)，gpu2代表最上面的那块。默认情况下，theano将使用第0块显卡(如果其他显卡被占用)。

　　1.2:tensorflow后台限制显存：

　　Tensorflow如果简单使用tensorflow可以用代码控制(见：https://www.tensorflow.org/versions/r0.11/how _ tos/using _ GPU/index . html # allowing-GPU-memory-growth):

　　config=tf。config proto()config . GPU _ options . per _ process _ GPU _ memory _ fraction=0.4 session=TF。会话(配置=配置，)如果将keras用作前端，它也可以由代码控制(参见：限制张量流后端的资源使用问题# 1538 fchollet/keras github)

　　将tensorflow作为tf从keras . back end . tensor flow _ back end导入set_sessionconfig=tf。config proto()config . GPU _ options . per _ process _ GPU _ memory _ fraction=0.3 set _ session(TF。会话(config=config))

　　这就允许同一块显卡同时执行多个程序。Cuda流处理器也可以像多核CPU一样满足多程序运行。

　　2.只运行了一个程序，运行返回的视频内存不足。

　　在运行一个机器学习算法的时候，很多人会在一开始有意无意的将数据集直接加载到显卡内存中。如果处理大数据集(比如大图)或者网络较深，隐藏层较宽，也可能造成显存不足。

　　这种情况随着工作的深入会经常遇到，解决方法其实很多人都知道，就是分块加载。以keras为例。默认情况下，fit方法用于加载数据，即加载所有数据。如果您更改fit_generator方法，您将通过自己的手写yield逐块加载它。下面是关于fit_generator方法的更多信息。

　　fit_generator方法定义

　　def fit_generator(self，generator，samples_per_epoch，nb_epoch，verbose=1，callbacks=[]，validation_data=None，nb_val_samples=None，class_weight=None，Max_q_size=10，**kwargs):在将generator参数传入方法的情况下，validation_data参数可以直接传入方法或验证数据集。通常，我们都可以传入方法。这个方法需要我们自己手写。伪代码如下：

　　def generate _ batch _ data _ random(x，y，batch _ size): 逐步提取批量数据到显存，减少对显存的占用 ylen=len(y)loop count=ylen//batch _ size while(true):I=randint(0，loop count)yield x[I * batch _ size:(I 1)* batch _ size]，y [I * batch _ size:]因为fit方法的默认shuffle参数也为True，所以fit_generator需要我们自己随机加扰数据，另外，while应该写成方法中的无限循环，因为每个epoch都不会再调用方法，这是新手的通病。

　　呼叫示例：

　　model . fit _ generator(self . generate _ batch _ data _ random(x _ train，y_train，batch_size)，samples _ per _ epoch=len(y _ train)//batch_size * batch _ size，nb_epoch=epoch，validation _ data=self . generate _ valid _ data(x _ valid，y_valid，batch _ size)，nb _ val _ samples=(len(y _ valid)//batch _ size * batch _ size)，verbose=verbose，回调=[提前停止])

　　这样可以减少对显存的占用，方便用第一部分的方法同时执行多个程序。

　　3.当一个显卡被占用时，多显卡环境将在其他显卡上运行并返回：分段故障(核心转储)。

　　最近几个月，在频繁使用时，人们经常会遇到分段故障(核心转储)错误(这个问题似乎是突然出现的)。我用2号显卡的时候别人用别的显卡会报错，而别人用0号显卡的时候我用2号显卡也会报错。在网上也能看到这样的问题。

　　tensorflow虽然可以指定显卡(参见：使用GPU)，但是在前端使用keras时无法指定。

　　其实有一个一劳永逸的方法可以在CUDA级别屏蔽其他显卡。

　　默认情况下，调用CUDA会遍历所有显卡，如果显卡被占用可能会出现核心转储错误。你可以通过CUDA_VISIBLE_DEVICES参数来控制CUDA可以看到哪些显卡，只显示自己的显卡就可以了，不用管别人用不用。

　　将此参数配置添加到系统变量中：

　　export CUDA_VISIBLE_DEVICES=2后的数字表示显卡的编号，也可以用逗号分隔。(请参见python-tensorflow从多个GPU中选择要使用的GPU)

　　您通常可以将这一行添加到。用户主目录中的bashrc，这样您就不必在每次远程登录时重新配置它。

　　这样大家可以使用不同的显卡，互不干扰。

　　————————————————

　　终于写完了，应该算是干货了，呵呵~ ~