小鸟云专注为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。小鸟云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。
传统的服务器是具有独立的CPU、内存条、硬盘,存储的数据安全性不高,硬盘的浪费率比较高,在应用方面应用有局限性,如果有新的应用,那只能再买一台了,这样造成了服务器严重的浪费,对于一些中小企业而言是不可低估的。
1、从技术方面来讲
云服务器使用了云计算技术,而云计算技术,整合了计算、网络、存储等各种软件和硬件技术。传统的服务器,就是独立的了,不会整合这些资源。
2、从安全性方面来讲
云服务器具有天然防ARP攻击和MAC欺骗,快照备份,数据永久不丢失。而传统的服务器则不具有这方面的功能。
3、从可靠性来讲
云服务器是基于服务器集群的,因此硬件冗余度较高,故障率低而传统的服务器则相对来说硬件冗余较少,故障率较高。
4、从灵活性方面来讲
用户可以在线实时增加自己的配置,可扩展空间较大而传统的服务器则有这方面的局限性,如果有新的应用,只能再买一台了
本文由作者朱益军授权网易云社区发布。
背景
维护巡检云主机时,发现有一台运行redis的云主机状态显示维护中,登录该实例查看,系统盘变成readonly。本文简单分析该问题出现原因,并为运维人员提供常见处理方法及建议。
故障分析
查看云主机dmesg信息发现,系统运行过程中python进程发生segfault,随后vda(云主机配置virtio-blk,故盘符显示为vda)系统盘I/O error。
基本可确定是业务把系统盘写坏了。通常发生该问题的场景有二:
一、云主机和宿主机IO繁忙,云主机的IO请求得不到及时的响应,从而产生磁盘IO错误,为了保护磁盘数据会remount分区为只读;
二、云主机被强制关机,导致磁盘出现文件系统错误故障。
故障处理
通常的解决方法是重启系统以root用户进入单用户模式, 运行fsck.ext3 –y /dev/vda(如果是ext4使用fsck.ext4修复),/dev/vda是系统/根分区。修复完reboot进入系统。以debian系统为例:
1、重启系统,grub菜单会出现正常启动和修复模式( recovery mode )启动两个菜单项,选择修复模式启动;
2、进入修复模式,运行fsck工具修复;
3、重启进入正常模式启动。
注意:
1、运维人员在重启云主机之前尽量先收集一些关键的日志,如/var/log下面的一些日志、dmesg等,有条件也要收集宿主机的日志;
2、fsck是Linux内核自带工具,它不仅可以对文件系统进行扫描,还能修正文件系统的一些问题。 fsck扫描文件系统时一定要在单用户模式、修复模式或把设备umount后进行。建议在单用户模式下运行。如果扫描正常运行中的系统,会造成系统文件损坏,需要root权限执行。
建议与思考
1、当前开发要定位问题,需要申请宿主机权限等流程,无法及时上去定位;
2、当前云主机的日志收集功能尚不完善,呈现的日志比较杂、乱、实用性不高,需要适当进行修改调整。另外,运维人员也不知道要收集哪些日志可支撑开发定位;
开发正在考虑开发一个一键式日志收集工具,集成到版本中,定期采集系统数据并归档,或者在发生故障时,由运维先收集分析,再交给开发定位,这样效率会高一些。
更多网易技术、产品、运营经验分享请访问 网易云社区 。
相关文章:
【推荐】 网易云易盾发布多国家多语种内容安全服务,助力中国互联网出海
【推荐】 Spring-Boot自定义Starter实践
【推荐】 一文带你了解 Raft 一致性协议的关键点