你的位置： 群学网 >心得体会 >导航

工作总结

发布时间：2026-04-14

[直接可用]IT员工试用期工作总结。

入职三个月，正好撞上业务系统迁移和年度故障高发期。说实话，头两周心里确实没底——半夜电话一响，手先抖一下。但扛过来之后，数据最老实。

几个硬数字

系统可用性：99.92%（目标99.9%），超了0.02。那0.08%的损失是一次计划外维护造成的，后面细说。
工单处理：接手147个用户报障和需求，关了144个。剩下3个没关的：一个用户换了部门不再追，一个需要厂商下季度补丁，还有一个是用户坚持要的“一键全量导出”功能我拒了——后面也会讲为什么拒。
平均响应时间4.2分钟，平均解决时长2.7小时（不含用户确认环节）。用户满意度问卷112份，“非常满意”占78.6%，“满意”19.1%，不满意2单。
产品迭代：两个小版本（v3.2.1、v3.2.2），修了21个缺陷，其中14个直接来自用户反馈。从用户说到上线，最快的一次是三天。

凌晨一点十七分的47台设备同时掉线

入职第三周的周一，我正睡觉，值班电话炸了。监控大屏上，华北区47台边缘节点设备心跳全灰。按老经验，这种大面积断连八成是网络波动或服务端发布搞的。但我多看了一眼时间戳——它们不是在同一个秒掉线的，而是分散在15分钟里陆续消失。

这就不像网络闪断。我立刻拉系统日志，发现一个共同点：每台设备掉线前都执行了同一个定时任务——业务方自己加的清理脚本，删除/tmp目录下超过一天的临时文件。脚本里有一行find /tmp -type f -mtime +1 -delete，看似无害，却把我们的守护进程生成的.lock文件一起干掉了。守护进程检测不到锁文件就自我退出，而且因为脚本的退出码异常，systemd的自动拉起没触发。

说实话，当时真想骂人。但我忍住了，先干活：

紧急写了个脚本，用systemctl强制重启所有受影响节点的代理服务。15分钟内恢复42台。剩下5台依赖包不一致，手动登录修，花了40分钟。
凌晨四点半修完，没回家，直接在工位趴了两小时，天亮后拉业务方开会。

这个事让我丢了一次人，但也长了个记性：排查故障，别被“可能原因”带偏，先找共同时间戳下的共同操作。

事后我干了三件事：
1. 把业务方的清理脚本权限收回来，以后任何生产环境的定时任务必须经过我这边评审。
2. 守护进程的锁文件从/tmp挪到/run，并且加了一段代码——锁文件丢了就自动重建，不再依赖外部拉起。
3. 扫了一遍其他业务部门，发现还有三个团队也写了类似的“野脚本”，一共11处不合规，全部整改。

用户说“不好用”，别急着怼回去

我同时管产品反馈的收集和迭代转化。试用期里印象最深的一条：资产盘点模块的老用户直接在群里吼：“每次导入都报错，你们这功能就是摆设。”

我没跟他吵，要来了他的原始Excel文件和导入日志。发现报错原因不是代码bug，而是：
- “机房机柜”列他填“A-03”，系统字典里存的是“A03”（没连字符）。
- “维保到期日”格式混用：2025-12-31和20251231并存。
- 报错提示只显示“第3行数据格式错误”，没说哪一列。

我当时就想，换我是用户我也火。于是做了几个小但管用的改进：

修改前端导入模板：每个列头加一个下拉示例（比如“请填写：A03”），并且锁死单元格格式，让他想填错都难。
增强报错提示：从“格式错误”改成“第3行【机房机柜】列的值‘A-03’与标准格式不匹配，请参照模板”。
加了个预检功能：上传后先在后端跑一遍模拟校验，10秒内返回所有格式问题，通过了才允许真正导入。

这个功能上线后，导入成功率从82%升到99.3%。那位老用户后来私信我说“现在好用了”——就这一句，比什么满意度打分都实在。

⬬群学网隐藏款内容:

仓储员工试用期工作总结 | 包装员工试用期工作总结 | 单位员工试用期工作总结 | it新员工试用期工作总结 | 员工试用期工作总结 | 试用期员工工作总结

还有个需求我拒了。有用户想要“一键回滚所有设备到上个版本”，理由是“方便”。我评估了一下：同时回滚几百台设备，如果中间网络抖动，可能导致部分成功部分失败，状态分裂。我给的方案是“分批回滚+每批确认机制”，虽然麻烦点，但不会出事。用户最后接受了。

日常那些“笨功夫”

整理了《常见故障排查手册（实战版）》：把过去两年工单系统里前50个高频问题，按“现象→判断方法→解决步骤→预防措施”重新写了一遍，配上命令示例。不是那种官样文章，是直接能复制粘贴执行的。已经被人调用了17次。
建立“三次确认”流程：之前有人拔错硬盘导致丢数据。我设计了一个简单的《现场操作确认单》——拔线前拍照确认标签→拔一根立即贴临时标签→操作后ping测试。两个月下来，现场误操作率降为零。
反向测试供应商：每次交付新设备，我不只看验收报告，还顺手做几个破坏性测试。有一次测试新服务器，我直接把电源拔了再插上，结果BMC起不来，得手动按开机键。厂家的人脸都绿了，说“卖了五百台没人提过”。我说“那是因为别人没像我这么干”。后来他们确认是固件bug，承诺下季度修复。

三块短板，自己心里有数

文档写得不及时。有时候处理完一个复杂故障，想着“先记脑子里”，结果两天后就忘了两个关键命令。现在强迫自己：故障解除后一小时内必须写下时间线和操作记录，哪怕只有几行。
业务部门的潜规则摸不透。有一次财务部月底要关账，我不知情，在数据库里跑了个统计查询，把人家流程卡了十分钟。后来我专门给每个业务口建了个“操作禁忌日历”，标注哪些时间段不能动什么。
自动化覆盖不够。很多巡检还是手动跑脚本，没有做到定时触发+自动报表。下季度用Ansible把这套搭起来。

接下来三个月，说几个实在的