Natu Matu
文章65
标签20
分类4
本站总访问量
本站访客数人次
【Docker】GPU集群使用手记

【Docker】GPU集群使用手记

大型服务器GPU集群培训使用

琶洲实验室300W服务器GPU集群培训笔记(11月4日)

linux操作系统上的一些常用命令

ps命令 (Processes Status)

==============ps 的参数说明============================

  -A 列出所有的行程
  -w 显示加宽可以显示较多的资讯
  -au 显示较详细的资讯
  -aux 显示所有包含其他使用者的行程

  -e 显示所有进程,环境变量
  -f 全格式
  -h 不显示标题
  -l 长格式
  -w 宽输出
  a 显示终端上地所有进程,包括其他用户地进程
  r 只显示正在运行地进程
  x 显示没有控制终端地进程

=====================================================

top命令

top[参数] 显示当前系统正在执行的进程的相关信息,包括进程ID、内存占用率、CPU占用率等,跟ps相比,top命令实时更新

==============top 的参数说明============================

  -b 批处理

  -c 显示完整的治命令

  -I 忽略失效过程

  -s 保密模式

  -S 累积模式

  -i<时间> 设置间隔时间

  -u<用户名> 指定用户名

  -p<进程号> 指定进程

  -n<次数> 循环显示的次数

=====================================================

vmstat虚拟内存的实时监控工具

mstat命令是最常见的Linux/Unix监控工具,可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使
用率,内存使用,虚拟内存交换情况, IO读写情况。一般vmstat工具的使用是通过两个数字参数来完成的,第一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数,如: 

watch工具

watch是一个非常实用的命令,基本所有的Linux发行版都带有这个小工具,如同名字一样,watch可以帮你监测一个命令的运行结果,省得你一遍遍的手动运行。在Linux下,watch是周期性的执行下个程序,并全屏显示执行结果。你可以拿他来监测你想要的一切命令的结果变化,比如 tail 一个 log 文件,ls 监测某个文件的大小变化,看你的想象力了!

docket/enveroment基础

python编程

指定GPU(ubuntu环境)

  1. 改环境变量:
    1
    export CUDA_VISIBLE_DEVICES=0
  2. 程序开头设置:
    1
    os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'
  3. 命令行指定:
    1
    CUDA_VISIBLE_DEVICES=0,1,2,3 python xxx.py

    Docker

    教程

Conda环境

  1. 常用命令
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    1. conda --version #查看conda版本,验证是否安装
    2. conda update conda #更新至最新版本,也会更新其它相关包
    3. conda update --all #更新所有包
    4. conda update package_name #更新指定的包
    5. conda create -n env_name package_name #创建名为env_name的新环境,并在该环境下安装名为package_name 的包,可以指定新环境的版本号,例如:conda create -n python2 python=python2.7 numpy pandas,创建了python2环境,python版本为2.7,同时还安装了numpy pandas包
    6. source activate env_name #切换至env_name环境
    7. source deactivate #退出环境
    8. conda info -e #显示所有已经创建的环境
    9. conda create --name new_env_name --clone old_env_name #复制old_env_name为new_env_name
    10. conda remove --name env_name –all #删除环境
    11. conda list #查看所有已经安装的包
    12. conda install package_name #在当前环境中安装包
    13. conda install --name env_name package_name #在指定环境中安装包
    14. conda remove -- name env_name package #删除指定环境中的包
    15. conda remove package #删除当前环境中的包
    16. conda create -n tensorflow_env tensorflow
    conda activate tensorflow_env #conda 安装tensorflow的CPU版本
    17. conda create -n tensorflow_gpuenv tensorflow-gpu
    conda activate tensorflow_gpuenv #conda安装tensorflow的GPU版本
    18. conda env remove -n env_name #采用第10条的方法删除环境失败时,可采用这种方法
本文作者:Natu Matu
本文链接:https://631212502.github.io/2020/11/04/%E3%80%90Linux%E3%80%91GPU%E9%9B%86%E7%BE%A4%E4%BD%BF%E7%94%A8%E6%89%8B%E8%AE%B0/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可
×