搞深度学习如何能够不与浑身是“核”的显卡打交道呢?
人工智能的兴起除了数据量的大量提升,算法的不断改进,计算能力的逐步提高,还离不开软件基础设施的逐步完善。当下的主流的深度学习工具软件无论是Caffe还是Theano或者是Tensorflow全部都离不开GPU显卡加速技术的支持。当下的基于GPU加速的主流的深度学习环境就是linux下的cuda。作为NVIDIA目前辅科学计算加速的性能优良的产品,Tesla K80当仁不让地成为了理想对象。可是由于linux开源的特性,nouveau成为Ubuntu等一系列的linux操作系统中的默认NVIDIA显卡驱动程序。然而作为NVIDIA这样高冷的公司,集市式的产品是不被认可的。于是为了保障自己的显卡的性能,NVIDIA显卡自带了驱动,可就是这个根正苗红的驱动和草根版的驱动之间竟然存在着不可和解的冲突。因此想要使用Ubuntu操作系统来带动K80还是要费一些周折的,可是问题的核心就在于解决两个阶级的驱动之间的对立关系,方法很简单,革掉一个就好了嘛。
下面来介绍一下具体的操作步骤。
1、安装ubuntu14.04(具体的操作方式就不多说了,但是要强调一点的是DELL的个人pc在安装Ubuntu的时候可能经常有图形界面不可用的情况,估计也是驱动之间不兼容的问题,如果没有独立显卡的话还是不要折腾了。所幸的是本次搭建的环境是PowerEdgeC4230这个DELL的服务器,所以装一个gnome还是没有啥大问题的)
2、由于是驱动的冲突,那么自然是要杀掉和显卡结合不是那么紧密的草根板驱动nouveau了,加入黑名单使我们要做的第一件事:
2.1.在/etc/modprobe.d/文件夹下创建blacklist-nouveau.conf文件
2.2.使用vi便捷新创建的文件在文件中写入:
blacklist nouveau
options nouveau modeset=0
保存文件(最好使用vi编辑器,尽量不要使用nano这种不太主流的编辑器,之前安装失败了也许就是因为使用了nano编辑的缘故)
2.3.输入update initramfs -u命令得到更新的blacklist
2.4.输入reboot命令重启系统,强力保证blacklist生效。
2.5.输入lsmod | grep nouveau查看是否vouveau真的被干掉了,如果没有任何内容出现,那么恭喜你,成功除掉了草民版驱动。
3、下载NVIDIA官方的K80显卡驱动,我们这里用的是361版本的。将驱动文件移动至/root/文件夹下。
4、如果文件是压缩文件,则键入解压缩命令进行解压缩,得到.run文件
5、接下来是关键的步骤,也是困扰我们一天一夜的问题所在,键入如下命令:
./XXX-NVIDIA.run --no-opengl-files (重要的事情说三遍,这里面的-和字母之间没有空格、这里面的-和字母之间没有空格、这里面的‘-’和字母之间没有空格)
6、出现蓝色的背景界面,如果出现了(X server is running的现象,要注意用户态输入sudo service lightdm stop关闭桌面管理器 ),然后accept协议,接着出现the distribution provided pre-install scripts failed的提示,忽视它,然后继续安装下去,一路OK然后reboot系统,最终得到完整的gnome桌面系统。
7、检验是否安装成功,在命令行界面下输入 nvidia-smi检验是否安装成功,如果成功会出现如下图所示的情况。