通过Keepalived实现Redis Failover自动故障切换功能[实践分享]


参考资料:
http://patrick-tang.blogspot.com/2012/06/redis-keepalived-failover-system.html
http://deidara.blog.51cto.com/400447/302402

背景介绍:
目前,Redis还没有一个类似于MySQL Proxy或Oracle RAC的官方HA方案。
Redis作者有一个名为Redis Sentinel的计划(http://redis.io/topics/sentinel),据称将会有监控,报警和自动故障转移三大功能,非常不错。
但可惜的是短期内恐怕还不能开发完成。

因此,如何在出现故障时自动转移是一个需要解决的问题。

通过对网上一些资料的搜索,有建议采用HAProxy或Keepalived来实现的,事实上如果是做Failover而非负载均衡的话,Keepalived的效率肯定是超过HAProxy的,所以我决定采用Keepalived的方案。

环境介绍:
Master: 10.6.1.143
Slave: 10.6.1.144
Virtural IP Address (VIP): 10.6.1.200

设计思路:
当 Master 与 Slave 均运作正常时, Master负责服务,Slave负责Standby;
当 Master 挂掉,Slave 正常时, Slave接管服务,同时关闭主从复制功能;
当 Master 恢复正常,则从Slave同步数据,同步数据之后关闭主从复制功能,恢复Master身份,于此同时Slave等待Master同步数据完成之后,恢复Slave身份。
然后依次循环。

需要注意的是,这样做需要在Master与Slave上都开启本地化策略,否则在互相自动切换的过程中,未开启本地化的一方会将另一方的数据清空,造成数据完全丢失。

下面,是具体的实施步骤:

在Master和Slave上安装Keepalived
$ sudo apt-get install keepalived

修改Master和Slave的/etc/hosts文件
$ sudo vim /etc/hosts

127.0.0.1	localhost
10.6.1.143	redis
10.6.1.144	redis-slave

默认安装完成keepalived之后是没有配置文件的,因此我们需要手动创建:

首先,在Master上创建如下配置文件:
$ sudo vim /etc/keepalived/keepalived.conf

vrrp_script chk_redis { 
                script "/etc/keepalived/scripts/redis_check.sh"   ###监控脚本 
                interval 2                                        ###监控时间 
} 
vrrp_instance VI_1 { 
        state MASTER                            ###设置为MASTER
        interface eth0                          ###监控网卡    
        virtual_router_id 51
        priority 101                            ###权重值
        authentication { 
                     auth_type PASS             ###加密 
                     auth_pass redis            ###密码 
        } 
        track_script { 
                chk_redis                       ###执行上面定义的chk_redis
        } 
        virtual_ipaddress { 
             10.6.1.200                         ###VIP 
        }
        notify_master /etc/keepalived/scripts/redis_master.sh
        notify_backup /etc/keepalived/scripts/redis_backup.sh
        notify_fault  /etc/keepalived/scripts/redis_fault.sh
        notify_stop   /etc/keepalived/scripts/redis_stop.sh 
} 

然后,在Slave上创建如下配置文件:
$ sudo vim /etc/keepalived/keepalived.conf

vrrp_script chk_redis { 
                script "/etc/keepalived/scripts/redis_check.sh"   ###监控脚本 
                interval 2                                        ###监控时间 
} 
vrrp_instance VI_1 { 
        state BACKUP                                ###设置为BACKUP 
        interface eth0                              ###监控网卡
        virtual_router_id 51 
        priority 100                                ###比MASTRE权重值低 
        authentication { 
                     auth_type PASS 
                     auth_pass redis                ###密码与MASTRE相同
        } 
        track_script { 
                chk_redis                       ###执行上面定义的chk_redis
        } 
        virtual_ipaddress { 
             10.6.1.200                         ###VIP 
        } 
        notify_master /etc/keepalived/scripts/redis_master.sh
        notify_backup /etc/keepalived/scripts/redis_backup.sh
        notify_fault  /etc/keepalived/scripts/redis_fault.sh
        notify_stop   /etc/keepalived/scripts/redis_stop.sh 
}

在Master和Slave上创建监控Redis的脚本
$ sudo mkdir /etc/keepalived/scripts
$ sudo vim /etc/keepalived/scripts/redis_check.sh

#!/bin/bash

ALIVE=`/opt/redis/bin/redis-cli PING`
if [ "$ALIVE" == "PONG" ]; then
  echo $ALIVE
  exit 0
else
  echo $ALIVE
  exit 1
fi

编写以下负责运作的关键脚本:
notify_master /etc/keepalived/scripts/redis_master.sh
notify_backup /etc/keepalived/scripts/redis_backup.sh
notify_fault /etc/keepalived/scripts/redis_fault.sh
notify_stop /etc/keepalived/scripts/redis_stop.sh

因为Keepalived在转换状态时会依照状态来呼叫:
当进入Master状态时会呼叫notify_master
当进入Backup状态时会呼叫notify_backup
当发现异常情况时进入Fault状态呼叫notify_fault
当Keepalived程序终止时则呼叫notify_stop

首先,在Redis Master上创建notity_master与notify_backup脚本:
$ sudo vim /etc/keepalived/scripts/redis_master.sh

#!/bin/bash

REDISCLI="/opt/redis/bin/redis-cli"
LOGFILE="/var/log/keepalived-redis-state.log"

echo "[master]" >> $LOGFILE
date >> $LOGFILE
echo "Being master...." >> $LOGFILE 2>&1

echo "Run SLAVEOF cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF 10.6.1.144 6379 >> $LOGFILE  2>&1
sleep 10 #延迟10秒以后待数据同步完成后再取消同步状态

echo "Run SLAVEOF NO ONE cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF NO ONE >> $LOGFILE 2>&1

$ sudo vim /etc/keepalived/scripts/redis_backup.sh

#!/bin/bash

REDISCLI="/opt/redis/bin/redis-cli"
LOGFILE="/var/log/keepalived-redis-state.log"

echo "[backup]" >> $LOGFILE
date >> $LOGFILE
echo "Being slave...." >> $LOGFILE 2>&1

sleep 15 #延迟15秒待数据被对方同步完成之后再切换主从角色
echo "Run SLAVEOF cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF 10.6.1.144 6379 >> $LOGFILE  2>&1

接着,在Redis Slave上创建notity_master与notify_backup脚本:

$ sudo vim /etc/keepalived/scripts/redis_master.sh

#!/bin/bash

REDISCLI="/opt/redis/bin/redis-cli"
LOGFILE="/var/log/keepalived-redis-state.log"

echo "[master]" >> $LOGFILE
date >> $LOGFILE
echo "Being master...." >> $LOGFILE 2>&1

echo "Run SLAVEOF cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF 10.6.1.143 6379 >> $LOGFILE  2>&1
sleep 10 #延迟10秒以后待数据同步完成后再取消同步状态

echo "Run SLAVEOF NO ONE cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF NO ONE >> $LOGFILE 2>&1

$ sudo vim /etc/keepalived/scripts/redis_backup.sh

#!/bin/bash

REDISCLI="/opt/redis/bin/redis-cli"
LOGFILE="/var/log/keepalived-redis-state.log"

echo "[backup]" >> $LOGFILE
date >> $LOGFILE
echo "Being slave...." >> $LOGFILE 2>&1

sleep 15 #延迟15秒待数据被对方同步完成之后再切换主从角色
echo "Run SLAVEOF cmd ..." >> $LOGFILE
$REDISCLI SLAVEOF 10.6.1.143 6379 >> $LOGFILE  2>&1

然后在Master与Slave创建如下相同的脚本:
$ sudo vim /etc/keepalived/scripts/redis_fault.sh

#!/bin/bash

LOGFILE=/var/log/keepalived-redis-state.log

echo "[fault]" >> $LOGFILE
date >> $LOGFILE

$ sudo vim /etc/keepalived/scripts/redis_stop.sh

#!/bin/bash

LOGFILE=/var/log/keepalived-redis-state.log

echo "[stop]" >> $LOGFILE
date >> $LOGFILE

给脚本都加上可执行权限:
$ sudo chmod +x /etc/keepalived/scripts/*.sh

脚本创建完成以后,我们开始按照如下流程进行测试:
1.启动Master上的Redis
$ sudo /etc/init.d/redis start

2.启动Slave上的Redis
$ sudo /etc/init.d/redis start

3.启动Master上的Keepalived
$ sudo /etc/init.d/keepalived start

4.启动Slave上的Keepalived
$ sudo /etc/init.d/keepalived start

5.尝试通过VIP连接Redis:
$ redis-cli -h 10.6.1.200 INFO

连接成功,Slave也连接上来了。
role:master
slave0:10.6.1.144,6379,online

6.尝试插入一些数据:
$ redis-cli -h 10.6.1.200 SET Hello Redis
OK

从VIP读取数据
$ redis-cli -h 10.6.1.200 GET Hello
"Redis"

从Master读取数据
$ redis-cli -h 10.6.1.143 GET Hello
"Redis"

从Slave读取数据
$ redis-cli -h 10.6.1.144 GET Hello
"Redis"

下面,模拟故障产生:
将Master上的Redis进程杀死:
$ sudo killall -9 redis-server

查看Master上的Keepalived日志
$ tailf /var/log/keepalived-redis-state.log
[fault]
Thu Sep 27 08:29:01 CST 2012

同时Slave上的日志显示:
$ tailf /var/log/keepalived-redis-state.log
[master]
Fri Sep 28 14:14:09 CST 2012
Being master....
Run SLAVEOF cmd ...
OK
Run SLAVEOF NO ONE cmd ...
OK

然后我们可以发现,Slave已经接管服务,并且担任Master的角色了。
$ redis-cli -h 10.6.1.200 INFO
$ redis-cli -h 10.6.1.144 INFO
role:master

然后我们恢复Master的Redis进程
$ sudo /etc/init.d/redis start

查看Master上的Keepalived日志
$ tailf /var/log/keepalived-redis-state.log
[master]
Thu Sep 27 08:31:33 CST 2012
Being master....
Run SLAVEOF cmd ...
OK
Run SLAVEOF NO ONE cmd ...
OK

同时Slave上的日志显示:
$ tailf /var/log/keepalived-redis-state.log
[backup]
Fri Sep 28 14:16:37 CST 2012
Being slave....
Run SLAVEOF cmd ...
OK

可以发现目前的Master已经再次恢复了Master的角色,故障切换以及自动恢复都成功了。

, ,

  1. #1 by 过客 on 2012/10/30 - 11:08

    你好,我想问一下,那个VIP的IP是怎么来的?

    • #2 by crazylucky on 2013/08/29 - 17:01

      这个是keepalived虚拟生成的,自己取个

      • #3 by tree on 2013/11/25 - 17:55

        为什么我的slave没和master连一起

  2. #4 by tnt on 2012/11/16 - 10:20

    请好,我按照您的方法做很顺利 但是当到最后的时候:
    我的主服务器也是如下的日志:
    $ tailf /var/log/keepalived-redis-state.log
    [fault]
    Thu Sep 27 08:29:01 CST 2012
    但是从服务器的日志如下:
    [master]
    Fri Nov 16 10:12:15 CST 2012
    Being master....
    Run SLAVEOF cmd ...
    Could not connect to Redis at 127.0.0.1:6379: Connection refused
    Run SLAVEOF NO ONE cmd ...
    Could not connect to Redis at 127.0.0.1:6379: Connection refused
    请问这个为什么呢 麻烦大神了 谢谢

    • #5 by mcsrainbow on 2012/11/16 - 11:43

      Redis连接不上,检查下Redis的配置,关于Redis的安装配置我博客上也有。

    • #6 by 匿名用户 on 2013/08/05 - 18:11

      找到redis的配置文件中

      # bind 127.0.0.1

      注释掉

  3. #7 by tnt on 2012/11/16 - 14:13

    重新调整过后现在是
    当master端 redis 服务停掉后 VIP迁移不到 slave端;并且也不出现在master端了
    当master端 redis服务起来后 VIP也是不出现的 要重启keepalived才能再次出现VIP 请问是什么问题类

  4. #8 by tnt on 2012/11/16 - 14:49

    LZ 我解决问题 问题是在同一网段内virtual_router_id 值不能相同,如果相同会在messages中收到VRRP错误包
    所以在master virtual_router_id 51改成50就可以了
    谢谢 LZ分享

  5. #9 by tnt on 2012/11/16 - 17:18

    悲剧,当master端 redis 服务停掉后 VIP迁移不到 slave端;并且也不出现在master端了 又出现这种现象了 在从服务器上面 重复出现这种日志
    Nov 16 16:16:03 localhost Keepalived_vrrp: ip address associated with VRID not present
    in received packet : -1358845760
    Nov 16 16:16:03 localhost Keepalived_vrrp: one or more VIP associated with VRID mismatc
    h actual MASTER advert
    Nov 16 16:16:03 localhost Keepalived_vrrp: bogus VRRP packet received on eth0 !!!
    Nov 16 16:16:03 localhost Keepalived_vrrp: VRRP_Instance(VI_1) ignoring received advert
    isment...
    LZ 求助啊

    • #10 by henry on 2016/03/16 - 16:57

      vrrp_script chk_ 查看一下这个里面的结果,也许有特别的发现呢

  6. #11 by Vic on 2013/02/01 - 11:51

    @tnt

    virtual_router_id對相同的instance name (vrrp_instance VI_1) 必須一樣(都是51 or 都是50,不能一個51,另一個50…否則Master與Backup不能溝通,結果是Backup因為找不到Master而自動升為Master

  7. #12 by star on 2013/02/27 - 15:02

    LZ 您好,现在我把master的redis进程杀掉后,发现不会切换到backup,就像没事发生一样,日志也没输出,请问是怎么回事?

  8. #13 by vTNT on 2013/03/13 - 17:10

    按lz的做成功了 不知道lz有把它部署到线上吗

  9. #14 by 许川 on 2013/03/28 - 17:39

    你好,请教个问题,按照你的方式,master DOWN后,backup无法接管服务,LOG如下:

    Mar 28 16:54:34 localhost Keepalived_vrrp[6294]: VRRP_Instance(VR_1) Now in FAULT state
    Mar 28 16:54:34 localhost Keepalived_vrrp[6294]: VRRP_Group(VG_R) Syncing instances to FAULT state

    GOOGLE了很多资料,但无法解决,求助,谢谢!

  10. #15 by Joffe on 2013/07/17 - 11:23

    LZ 你好 我按教程在virtualbox两台虚拟机上做实验
    发现从机毫无反应.... 日志也没写
    想请教问题原因
    所有脚本755

  11. #16 by honway on 2013/11/05 - 12:08

    逻辑有问题吧!
    启动master上的Redis,这时候master的redis角色是master
    启动slave上的redis,这时候slave上的Redis是slave,主从正常
    启动master上的keepalived,这时候master上的keepalived是master,执行Redis_master.sh脚本,master上的redis变成slave了。两台都是slave。。。。

    • #17 by mcsrainbow on 2013/11/06 - 14:40

      我在脚本里面设置了sleep的时间,随着Redis数据越来越大,这个时间应该也跟着进行调整延长。

  12. #18 by lubberland on 2013/11/22 - 10:34

    问一下 ,楼主第一步为什么要绑host?

  13. #19 by chinesejie on 2014/01/16 - 20:21

    redis 主机保存的数据 同步到从机上, 这点可靠吗?

  14. #20 by linuxer on 2014/05/21 - 14:20

    你好,请问如果redis master正常,而是redis slave挂了,进程直接关闭,这种情况怎么处理

  15. #21 by chenqz on 2014/06/18 - 14:58

    下面,模拟故障产生:
    将Master上的Redis进程杀死:
    $ sudo killall -9 redis-server

    查看Master上的Keepalived日志
    $ tailf /var/log/keepalived-redis-state.log
    [fault]
    Thu Sep 27 08:29:01 CST 2012

    下面这步就不出现了,这是什么原因,大侠
    同时Slave上的日志显示:
    $ tailf /var/log/keepalived-redis-state.log
    [master]
    Fri Sep 28 14:14:09 CST 2012
    Being master....
    Run SLAVEOF cmd ...
    OK
    Run SLAVEOF NO ONE cmd ...
    OK

  16. #22 by chuch on 2014/07/23 - 17:26

    LZ你这个存在一个问题,在主down之后,从接管是没有问题,中间可以通过逻辑去重连,然后主在起来后,主同步从的数据,但是vip还没飘移动到主上,这个时候数据还是写入从,但是主是从不到的,你可以试验下

    • #23 by mcsrainbow on 2014/07/23 - 19:24

      我这篇文章只是个Demo,有两个问题无法避免,第一个是如何设置好同步所需的时间,就是脚本中sleep的时间, 第二个就是VIP在漂移切换的期间内,数据会丢失。总之,这是一个不太成熟的方案。
      我还是推荐在Redis的Cluster套件出来以后直接使用官方的。

  17. #24 by wangfan on 2014/10/10 - 17:09

    楼主有没有测试过主的keeplived挂了是什么情况,我测试的结果是两边都有vip,变成两个主

  18. #25 by jsjgelei on 2014/11/25 - 12:33

    backup/stop/fault内容应该一致,大概楼主没测试keepalived的情况

    • #26 by mcsrainbow on 2014/11/25 - 14:32

      三种不同的状态,你可以设置为执行同一个脚本,我选择的是只在backup时进行主从切换,而stop与fault仅作日志记录。

      • #27 by jsjgelei on 2014/11/25 - 15:06

        恩,我之前按照你的方案测试,发现keepalived挂掉,两台机器都是master,之后发现backup/stop/fault执行的脚本应该相同

  19. #28 by weiqi on 2014/11/28 - 00:17

    收益匪浅, 本来老大给我3天时间搭建的, 看了楼主博客,半天就搞定了,非常感谢!
    顺便希望楼主可以把 redis + keepalived 开机自启动的教程加上来丰富

    • #29 by mcsrainbow on 2014/11/28 - 10:58

      Redis服务的管理已经交给keepalived了,你只要让keepalived服务开机自启动就可以了,我一般用"sudo chkconfig keepalived on"。

  20. #30 by hernejie on 2015/04/14 - 15:55

    请教一下$REDISCLI SLAVEOF 10.6.1.143 6379 这条语句的含义,redis-cli还可以更参数?

    • #31 by mcsrainbow on 2015/06/03 - 09:17

      当然可以了,跟mysql的-e参数一样的。

  21. #32 by yang on 2015/07/18 - 16:47

    若是slave挂了,再次启动slave之后不会自动变成slave,而是一台master,这个怎么处理啊?

  22. #33 by yang on 2015/07/18 - 16:58

    好像是 slave的redis挂了之后,keepalive 没检测到。但不是每次都检测不到。也不是每次都不会主动变成slave

  23. #34 by liu on 2016/10/11 - 20:12

    大神,

    这个脚本/etc/keepalived/scripts/redis_check.sh怎么实现keepalived的主从切换的啊?

(will not be published)
*