下午收到报警:
xxxxxx:[didb..,][master,slave]/home used:94% free:0.6G 2014-01-12 16:42:40 DutyReceived!
【现象】
登陆机器查看:
[root@xxxxx /root]
#df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 92G 4.2G 83G 5% /
/dev/sda6 9.6G 8.5G 626M 94% /home
可是到/home 目录执行命令:
[root@xxxxx /home]
#du -sh ./* | grep G
[root@xxxxx /home]
#du -sh ./* | grep M
728M ./admin
170M ./tops
【分析】
/home 目录并没有占用8.5G空间。这是怎么回事?仔细思考一下之前的操作,我在没有关闭nignix进程的情况下 rm access.log 这里有必要介绍一下文件描述符
"文件描述符是一个简单的整数,用以标明每一个被进程所打开的文件和sock.最前面的三个文件描述符:0 1 2分别与标准输入(stdin),标准输出(stdout)和标准错误(stderr)对应。"
在进程没有被关闭的情况下,手工删除了文件,但是文件句柄还是被进程占用,导致上面的奇怪现象:df -h查看磁盘空间被占用,查看具体占用空间确很小。使用 lsof | grep deleted 可以查看被删除但是依然被进程占用文件句柄文件。
【解决】
针对报警解决方式 杀掉占用文件句柄的进程即可
[root@xxxxx /home/admin/cai/bin]
#lsof | grep access.log
nginx-pro 3428 admin 5w REG 8,6 7689831446 313 /home/admin/cai/logs/access.log (deleted)
nginx-pro 3429 admin 5w REG 8,6 7689831446 313 /home/admin/cai/logs/access.log (deleted)
nginx-pro 3430 admin 5w REG 8,6 7689831446 313 /home/admin/cai/logs/access.log (deleted)
nginx-pro 3431 admin 5w REG 8,6 7689831446 313 /home/admin/cai/logs/access.log (deleted)
[root@xxxxx /home/admin/cai/bin]
#kill -9 3428
[root@xxxxx /home/admin/cai/bin]
#kill -9 3429
[root@xxxxx /home/admin/cai/bin]
#kill -9 3430
[root@xxxxx /home/admin/cai/bin]
#kill -9 3431
[root@xxxxx /home/admin/cai/bin]
#lsof | grep access.log
[root@xxxxx /home/admin/cai/bin]
#df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda2 92G 4.2G 83G 5% /
/dev/sda6 9.6G 1.2G 7.9G 13% /home
如何彻底解决?
可以通过设置crontab 命令 cat /dev/null > access.log 定期清理,而非选择rm 的方式。
【拓展】
在数据库运维过程中,如果遇到rm,drop 误删除表或者数据文件等操作,在db 没有关闭情况下 检查/proc文件系统是否存在被误删除的文件句柄,如果有,立即从其文件描述符恢复。
1 文件描述符file descriptor与inode的相关知识
2 lsof 应用实例分享以及Oracle 数据文件删除恢复测试