虚拟化平台后台运维手册

2016/5/6 17:50 下午 目录  虚拟化 评论

环境分布

  • 生产环境10.0.10.0/24 生产区(东区机房)
    1. 运行DNS DHCP DC KMS 等重要服务的虚拟机
    2. 应用服务器11     10.0.10.151(web节点运行平台tomcat mysql nfs,用户名root 密码 longsun,数据库密码toor 操作系统centos 7)
    3. 应用服务器12     10.0.10.152 (虚拟化节点 用户名root 密码longsun 操作系统 centos7)
  • 测试环境 10.0.18.0/24 测试区 (东区机房)
    1. 运行数字化校园平台APP等测试业务项目
    2. 应用服务器6      10.0.18.251 (web节点运行平台tomcat mysql nfs 用户名root 密码toor 数据库密码toor 操作系统 centos6.5)
    3. 应用服务器10     10.0.18.252 (虚拟化节点 用户名 root 密码toor操作系统 centos6.5)

运维工具

连接centos 推荐使用xshell,也可使用securite CRT putty等远程工具。数据库使用navicat 连接mysql。

学校环境10.0.10.170 虚拟机中安装了上面运维工具,可直接使用,用户名administrator/P@sswd2013 (由于防火墙隔离170无法直接访问18网段需要从10.151或152跳转)

虚拟化平台状态监控

整体查看虚拟机资源使用情况

执行命令virt-top 显示的cpu 和内存表示所有虚拟机占用物理机资源的综合,下方列表表示每个虚拟机的cpu 内存 网络使用状况(退出按q

逐项查看系统负载状况

df -h查看硬盘使用状况

执行命令uptime

查看负载,负值不超过cpu核数即为正常

执行top 命令实时监控cpu 内存及负载状态,在top界面中按q退出 按m查看内存占用率

执行iotop 查看io状态

查看服务端口状态(18.251 或者10.151)
执行/root/checkport.sh

如果没有error表示所有服务端口正常,出现错误请参考第3部分排错

查看平台页面是否正常(命令版)

在10.0.18.251或者10.0.10.151执行下面的命令 检查访问首页是否正常 (也可以通过浏览器访问对应ip):

curl   --connect-timeout 2 -m 10  http://localhost/index.jsp|grep longsun

正常情况如下:

异常情况如下:

出现异常请参考第3部分排错

查看tomcat日志

进入管理节点的目录/root/apache-tomcat-6.0.43/logs
目录结构如下:

默认的catalina.out 文件只输出tomcat启动的日志,平台相关日志输出在CloudThinking文件中。
/root/apache-tomcat-6.0.43/logs/cloudthinking.log文件是info级别日志,超过50m自动生成新文件,最多保留最近3个日志
/root/apache-tomcat-6.0.43/logs/cloudthinking/cloudthinking_warn.log存warn级别以上的日志(日志量很小),每天轮转一次,默认不删除。

常见故障:

tomcat端口不通

进入管理节点的/root目录下 执行以下命令

cd  /root
杀掉所有tomcat进程
ps -ef |grep tomcat |grep -v grep|awk '{print $2}'|xargs kill  -9 
关闭novnc
ps -ef |grep websockify.py |grep -v grep |awk '{print $2}' |xargs  kill  -9  
tomcathome=/root/apache-tomcat-6.0.43
${tomcathome}/bin/startup.sh
cd ${tomcathome}/webapps/ROOT/novnc/utils 
nohup ./startup.sh &

NOVNC端口不通(表现在网页中无法进入虚拟机)

libvirt端口不通

重启libvirt服务,如有报错联系开发人员
centos6.5

service libvirtd restart 

centos 7

systemctl restart libvirtd
mysql 端口不通

重启MySQL服务
centos6.5

service mysqld restart 

centos 7

systemctl restart mariadb
虚拟机服务暂停

从前端查看虚拟机所在物理节点,连上物理节点执行命令查看状态:

virsh  dominfo 虚拟机名

如果状态不为running 为暂停 可能原因是硬盘空间不足,平台随机暂停部分虚拟机服务。查看硬盘空间 df -h ,联系开发人员删除tomcat 日志或系统日志,节省空间,删除tomcat日志后必须重启tomcat进程否则硬盘空间不会释放