关于 七月, 2014 的文章

编写Ansible模块并自定义Facts

背景介绍:
Ansible自带的Facts有很多,但很多时候并不够用。 比如,Ansible就没有ansible_private_ipv4_address这样一个Facts,用来保存私网IP地址。 而我们恰恰就需要这样的一个Facts,因为我们有很多服务器的默认网卡并非是eth0,有的是bond0,eth1,em0,em1等,而公网IP地址与私网IP地址也并没有固定的绑定在某个网卡上,很多时候还是虚拟网卡。 还好,我们可以通过编写Ansible模块并自定义Facts来实现。

具体步骤:
[root@idc-server2 ~]# ifconfig

[root@idc-server1 ansible]# vim myfacts.yml

[root@idc-server1 ansible]# mkdir -p roles/myfacts/{tasks,templates}
[root@idc-server1 ansible]# vim roles/myfacts/tasks/main.yml

[root@idc-server1 ansible]# vim roles/myfacts/templates/myfacts.txt.j2

[root@idc-server1 ansible]# mkdir -p library/heylinux
[root@idc-server1 ansible]# vim library/heylinux/myfacts

[root@idc-server1 ansible]# ansible-playbook -u root myfacts.yml -i hosts

[root@idc-server1 ansible]# ssh idc1-server2 'cat /tmp/myfacts.txt'

,

1 Comment

脚本分享 之 天朝全静态路由

背景介绍:
由于近期“伟大的墙”越来越坚固,很多人不得不用上了VPN。但在VPN连接状态下,我们访问国内网站的速度会受到影响,同时也会造成VPN流量的浪费。

有没有可能在系统中把所有天朝的静态路由都加上呢?这样,即使VPN连接状态下,所有的数据请求都会自动分流。
答案是可以的,因为在APNIC上可以获取到所有天朝的公网IP段,我统计了一下总共有4000多个IP段,于是我写了一个脚本将其全部取出再循环添加到系统中,用起来效果真的很不错。

脚本地址:https://github.com/mcsrainbow/shell-scripts/blob/master/scripts/smartroutes.sh

注意:目前我的脚本仅支持Mac OS X,如果想要运行在Linux上,需要做一些简单的修改。

操作示例:

[dong@Dong-MacBookPro scripts]$ sudo ./smartroutes.sh
Downloading the latest APNIC data as ./apnic.data...
######################################################################## 100.0%
Usage:
./smartroutes.sh {on|off|status}
./smartroutes.sh [force|exception] {on|off}

[dong@Dong-MacBookPro scripts]$ sudo ./smartroutes.sh on
Adding the routes... Done

[dong@Dong-MacBookPro scripts]$ netstat -rn | head -n 20
Routing tables

Internet:
Destination        Gateway            Flags        Refs      Use   Netif Expire
default            10.192.168.1       UGSc           23        2    ppp0
default            192.168.0.1        UGScI           1        0     en1
1.0.1/24           192.168.0.1        UGSc            0        0     en1
1.0.2/23           192.168.0.1        UGSc            0        0     en1
1.0.8/21           192.168.0.1        UGSc            0        0     en1
1.0.32/19          192.168.0.1        UGSc            0        0     en1
1.1/24             192.168.0.1        UGSc            0        0     en1
1.1.2/23           192.168.0.1        UGSc            0        0     en1
1.1.4/22           192.168.0.1        UGSc            0        0     en1
1.1.8/21           192.168.0.1        UGSc            0        0     en1
1.1.16/20          192.168.0.1        UGSc            0        0     en1
1.1.32/19          192.168.0.1        UGSc            0        0     en1
1.2/23             192.168.0.1        UGSc            0        0     en1
1.2.2/24           192.168.0.1        UGSc            0        0     en1
1.2.4/24           192.168.0.1        UGSc            0        0     en1
1.2.5/24           192.168.0.1        UGSc            0        0     en1

[dong@Dong-MacBookPro scripts]$ sudo ./smartroutes.sh off
Deleting the routes... Done

然后,可以分别通过 ip138.com 和 ifconfig.me 确认分流是否生效。

,

3 Comments

拿什么拯救你,我的Ansible

在自动化运维方面,我用过Chef,Puppet,Salt还有Ansible。
其中Chef和Puppet之前在线上用了很长一段时间,效果也都不错。后来,我们希望尝试一些新的工具,而Salt和Ansible都是通过Python实现的,加上我们的团队也很喜欢用Python,所以就对二者进行了一些比较和试用。

就我个人而言,当时是比较推崇Salt的,因为看起来Salt更轻量级,跟Puppet在配置管理方面也非常相似,而且Salt的源码看起来很舒服,结构很简单,很适合学习和做二次开发。
但Ansible看起来则似乎更独特一些,通过SSH通道实现免Agent,同时在配置方面显得更干练,也有丰富的模块,能通过tags对每个配置项来进行灵活的分组。这些特点,得到了另外一些同事的大力肯定和推荐,在经历过几次争论之后,领导决定将线上所有的Puppet配置都迁移到Ansible上去。

在初期,使用Ansible感觉是比较新鲜的,还略微有点嗨,因为不再需要安装Agent了,新服务器上线之后,把主机名加入hosts inventory,利用初始的root用户密码Push一次,整个配置任务就算完成了。
但在运行了半年多之后,在我们将所有的Puppet配置都迁移过来后,在不停的增加新的配置的情况下,我感到了痛苦,是真真正正的痛苦。

因为,我们目前很难确保线上的配置是完整的,上下逻辑是没有问题的,是能够适用于所有环境的。
而这些,不是Ansible的问题,是人的问题。
由于Ansible免Agent,所以每一次配置的更改,都需要主动的Push一次。在之前配置内容不多,服务器较少的情况下,我们每次都直接把整个配置Push一次。但随着配置的增多,服务器数量增加到了一个相对饱和的程度时,我们绝大部分情况下都只需要对现有的服务器配置进行一些调整,例如增加或更新某个软件,修改某个参数等。

在这种情况下,我们每一次的Push基本上都是通过tags来完成的,没有人愿意在每次都将所有的配置都主动Push一次,没有人会有这个耐心,因为使用tags来执行我想要修改的部分,可能只需要10秒,而将整个配置都跑一次,则需要3分钟甚至更长的时间。因此,日积月累,整个配置的完整性没有了保障,大家更新过的地方,通过tags跑都没有问题,但是抛开tags将整个配置Push一次的时候,就会发现,各种冲突和错误都出现了。

我曾经写过一个CDH5的role,在最开始部署集群时没有一点错误,但是在维护了1个月之后,需要新上线一个新的CDH5集群时,这个role根本无法完成一个新集群的部署,我花费了足足2天来修复所有的报错,我发现,在这1个月里,大家更新了很多的地方,通过那些绑定的tags在现有的环境中Push,都不会报错。
但其实有很多地方,是有冲突和逻辑问题的,很多仅需要在初始化的时候执行的配置之后再也没有执行过,因为更新后的配置大家都是通过tags进行Push的,而Ansible在任何一个配置项报错时都会中止。

这的确是人的问题,但这也是符合人性的。我们尝试过不使用tags来Push,但之后所有的人都觉得这样太过愚蠢,因为绝大部分时间都不会发现错误,只会浪费时间。而经过一段时间之后,谁都不敢保证整个配置Push一次是没有问题的,并且,残酷的现实告诉我们,每次都会有错误出现。

为何之前在使用Puppet的时候,没有遇到过这样的困扰呢?因为,Agent的方式,每次都需要Pull所有关联的配置,需要耗费一些时间,但由于不需要手动去Push,所以感受会不同,我们没有觉得浪费了多少时间,也不用担心更新之后其它的配置项会有问题。

这或许不是工具的问题,是我们没有找到一个合适的方法来使用它。
但是,真的很难找到解决的办法,强制所有人Push整个配置,或周期性的检查整个配置,都难以实施下去。
该拿什么拯救你,我的Ansible。

6 Comments

尴尬的现状

技术有两个发展方向,一种是纵向一种是横向的,横向的是瑞士军刀,纵向的是削铁如泥的干将莫邪。
如果一个公司不太懂全栈工程师的价值,那么全栈工程师的地位将会很尴尬,说得不好听一点,全栈工程师就是什么都会,什么都不会。
在中小型公司发展起来的运维更是如此,即使你学再多的开源软件,自认为眼界足够宽,会些开发,会些数据库和测试,能独当一面,也很难入一些大公司的法眼。
或许再干几年,我最好的归宿就是到一个创业阶段的公司,做一个不那么坑的运维Leader,确保公司至少能绕过很多自己曾经遇到过的坑,顺利的朝着自己所经历过的最大规模发展。

4 Comments

一个check_mk源码小bug的解决

在线上,我们使用了icinga结合check_mk作为监控系统。
今天,在用cmk -II更新主机的inventory信息时,无论后面跟的是什么主机,都会报告如下错误:

Removing unimplemented check /
Removing unimplemented check oom_adj_for_cron
Removing unimplemented check oom_adj_for_sshd
Traceback (most recent call last):
    File "/usr/share/check_mk/modules/check_mk.py", line 5801, in <module>
        remove_autochecks_of(host, checknames)
    File "/usr/share/check_mk/modules/check_mk.py", line 2907, in remove_autochecks_of
    if splitted[3] not in check_info:
IndexError: list index out of range

在网上搜寻了半天,根本找不到任何有帮助的信息,于是我尝试通过报错中提到的位置对源码进行调试:
修改/usr/share/check_mk/modules/check_mk.py,加入'print splitted'来打印溢出的List,即splitted。

       for fn in glob.glob(autochecksdir + "/*.mk"):
           lines = []
           count = 0
           for line in file(fn):
               # hostname and check type can be quoted with ' or with "
               double_quoted = line.replace("'", '"').lstrip()
               if double_quoted.startswith('("'):
                   count += 1
                   splitted = double_quoted.split('"')
                   print splitted
                   if splitted[1] != hostname or (checktypes != None and splitted[3] not in checktypes):
                   if splitted[3] not in check_info:
                       sys.stderr.write('Removing unimplemented check %s\n' % splitted[3])
                       continue
                       lines.append(line)
                   else:
                       removed += 1
               if len(lines) == 0:

然后再次运行cmk -II,发现如下信息:

...
("iad1-server5", job, 'oom_adj_for_sshd', None)
Removing unimplemented check oom_adj_for_sshd

("iad1-server5", kernel.util, None, kernel_util_default_levels)
Traceback (most recent call last):
    File "/usr/share/check_mk/modules/check_mk.py", line 5803, in 
       remove_autochecks_of(host, checknames)
    File "/usr/share/check_mk/modules/check_mk.py", line 2909, in remove_autochecks_of
    if splitted[3] not in check_info:

可以发现,
("iad1-server5", kernel.util, None, kernel_util_default_levels)
根本不能通过单双引号分割为一个长度大于3的List,所以会报溢出的错误:'IndexError: list index out of range'
阅读全文 »

,

No Comments