如何用docker部署kafka
作者:背风衣人
摘抄引用
Docker镜像选型
Kafka是没有官方Docker镜像的,所以要么自己写一个Dockerfile,要么用第三方已经构建好的。
自己写一个Dockerfile不是不可以,但不符合我要“最快”的目标,所以用第三方已经构建好的镜像那是最快的。
由于是第三方镜像,希望已经用过的人越多越好,这样坑相对会比较少一些。
带着上面的要求,开始寻找合适的第三方镜像,比较出名的有以下几个:
wurstmeister/kafka
特点:star数最多,版本更新到 Kafka 1.0,zookeeper与kafka分开于不同镜像。spotify/kafka
特点:star数较多,有很多文章或教程推荐,zookeeper与kafka置于同一镜像中;但kafka版本较老(还停留在0.10.1.0)。confluent/kafka
背景:Confluent是书中提到的哪位开发Kafka的Jay Kreps从LinkedLn离职后创立的新公司,Confluent Platform是一个流数据平台,围绕Kafka打造了一系列的产品。特点:大咖操刀,文档详尽,但是也和Confluent Platform进行了捆绑。
上述三个项目中,最终选定使用wurstmeister/kafka
,star最多,版本一直保持更新,用起来应该比较放心。
wurstmeister/kafka镜像简介的先决条件
- 安装
docker-compose
- 在
docker-compose.yml
配置文件中修改KAFKA_ADVERTISED_HOST_NAME
去匹配你的docker主机IP(注意:如果你想要运行多broker集群,不要使用localhost
或127.0.0.1
作为主机ip) - 如果你想要添加自定义的Kafka参数,只需要将它们添加到
docker-compose.yml
。例如:- 增加
message.max.bytes
参数,添加KAFKA_MESSAGE_MAX_BYTES: 2000000
到environment
部分。 - 关闭自动主题创建集,配置
KAFKA_AUTO_CREATE_TOPICS_ENABLE: 'false'
- 增加
- Kafka可以通过添加环境变量前缀
LOG4J_
来自定义log4j用法。这些环境变量会映射到log4j.properties
。例如:LOG4J_LOGGER_KAFKA-AUTHORIZER_LOGGER=DEBUG,authorizerAppender
**注意:**配置网络有几个“问题”。如果你不知道的要求是什么,请查看连接指南
简单使用
启动集群:
docker-compose up -d
添加更多brokers
docker-compose scale kafka=3
销毁一个集群
docker-compose stop
安装过程
1. 安装Docker(略)
2. 安装Docker Compose(略)
3. 从github拉取最新打包资源
# 克隆docker制作脚本 git clone https://github.com/wurstmeister/kafka-docker.git # 进入目录查看目录文件 cd kafka-docker # 查看所有标签,找到最新版本 git tag # 切换到最新版本 git checkout <last_tag_name>
kafka-docker仓库目录文件展示:
[root@jiewli kafka-docker]# ll 总用量 72 -rwxr-xr-x. 1 root root 210 7月 7 17:18 broker-list.sh -rw-r--r--. 1 root root 969 7月 7 17:18 CHANGELOG.md -rwxr-xr-x. 1 root root 1221 7月 7 17:18 create-topics.sh -rw-r--r--. 1 root root 367 7月 7 17:08 docker-compose-single-broker.yml -rw-r--r--. 1 root root 705 7月 7 17:08 docker-compose-swarm.yml -rw-r--r--. 1 root root 324 7月 7 17:18 docker-compose.yml -rw-r--r--. 1 root root 1132 7月 7 17:18 Dockerfile -rwxr-xr-x. 1 root root 395 7月 7 17:18 download-kafka.sh -rw-r--r--. 1 root root 11325 7月 7 17:08 LICENSE -rw-r--r--. 1 root root 9887 7月 7 17:18 README.md -rwxr-xr-x. 1 root root 4591 7月 7 17:18 start-kafka.sh -rwxr-xr-x. 1 root root 131 7月 7 17:08 start-kafka-shell.sh drwxr-xr-x. 2 root root 4096 7月 7 17:18 test
4. 更新docker-compose.yml中你docker主机ip
通过命令vim docker-compose.yml
查看仓库目录中的docker-compose.yml
配置文件。
version: '2' services: zookeeper: image: wurstmeister/zookeeper ports: - "2181:2181" kafka: build: . ports: - "9092" environment: DOCKER_API_VERSION: 1.22 KAFKA_ADVERTISED_HOST_NAME: 192.168.99.100 KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181 volumes: - /var/run/docker.sock:/var/run/docker.sock
重要:
kafka 0.9.x以后的版本新增了advertised.listeners
配置
kafka 0.9.x以后的版本不要使用 advertised.host.name
和 advertised.host.port
已经 deprecated
host.name
和 port
为 deprecated,使用 listeners
代替
所以,KAFKA_ADVERTISED_HOST_NAME
配置也要改成 KAFKA_ADVERTISED_LISTENERS
, 而后者要求必须配置 KAFKA_LISTENERS
,不然会抛异常:
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
version: '2' services: zookeeper: image: wurstmeister/zookeeper ports: - "2181:2181" kafka: build: . ports: - "9092" environment: DOCKER_API_VERSION: 1.22 KAFKA_LISTENERS: PLAINTEXT://:9092 KAFKA_ADVERTISED_LISTENERS: PLAINTEXT://192.168.99.100:9094 KAFKA_ZOOKEEPER_CONNECT: zookeeper:2181 volumes: - /var/run/docker.sock:/var/run/docker.sock
将上面KAFKA_ADVERTISED_HOST_NAME
改为你的docker主机ip。
如果你想要添加自定义的Kafka参数,只需要将它们添加到docker-compose.yml
。例如:
- 增加
message.max.bytes
参数,添加KAFKA_MESSAGE_MAX_BYTES: 2000000
到environment
部分。 - 关闭自动主题创建集,配置
KAFKA_AUTO_CREATE_TOPICS_ENABLE: 'false'
启动失败:
[root@jiewli kafka-docker]# docker logs -f --tail=300 kafka-docker_kafka_1
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
ERROR: Missing environment variable KAFKA_LISTENERS. Must be specified when using KAFKA_ADVERTISED_LISTENERS
5. 启动集群
$ docker-compose up -d
例如,启动一个有两个broker
的的集群
$ docker-compose scale kafka=2
这会启动一个单独的zookeeper
实例,和两个Kafka
实例。你可以使用docker-compose ps
命令去显示正在运行的实例。
如果你想去添加更多的Kafka
brokers,只需要通过命令docker-compose scale kafka=n
增加值。
5.1 当执行docker-compose -f docker-compose.yml up -d
命令遇到错误
wget: server returned error: HTTP/1.1 404 Not Found
The command '/bin/sh -c apk add --no-cache bash curl jq docker && mkdir /opt && chmod a+x /tmp/*.sh && mv /tmp/start-kafka.sh /tmp/broker-list.sh /tmp/create-topics.sh /usr/bin && sync && /tmp/download-kafka.sh && tar xfz /tmp/kafka_${SCALA_VERSION}-${KAFKA_VERSION}.tgz -C /opt && rm /tmp/kafka_${SCALA_VERSION}-${KAFKA_VERSION}.tgz && ln -s /opt/kafka_${SCALA_VERSION}-${KAFKA_VERSION} /opt/kafka && rm /tmp/* && wget https://github.com/sgerrand/alpine-pkg-glibc/releases/download/${GLIBC_VERSION}/glibc-${GLIBC_VERSION}.apk && apk add --no-cache --allow-untrusted glibc-${GLIBC_VERSION}.apk && rm glibc-${GLIBC_VERSION}.apk' returned a non-zero code: 1
ERROR: Service 'kafka' failed to build
根据提示,是wget
命令下载某个文件的时候遇到了404。
5.2 分析脚本执行过程
从Dockerfile
的RUN
指令中可以找到:
经过一番排查,最终定位到download-kafka.sh
这个脚本中的wget
命令,我增加一行echo
命令,将整个wget
命令打印出来看看:
# echo打印结果
wget -q "https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/1.1.0/kafka_2.12-1.1.0.tgz" -O "/tmp/kafka_2.12-1.1.0.tgz"
根据链接查找这个文件,发现是在“清华大学开源软件镜像站”中下载的,但是1.1.0
这个目录都没有了,取而代之的是2.x.x
的目录了。
下载不了,很明显这个版本太落后了。一看仓库git-tag的创建时间居然是2018年,已经三年多没有发布新的tag版本了。
5.3 使用master分支的构建脚本启动2.x.x
版本的kafka
那么回到master
分支看看,一看最新提交,2021年6月有提交过。仔细研究了一下master分支的脚本和Dockerfile,其实作者早已经将kafka版本调整到2.x.x
,并且修改了下载地址。
那么切换到master分支后,重新使用命令$ docker-compose up -d
启动kafka集群就可以了。
6. 开启单个节点
docker-compose -f docker-compose-single-broker.yml up -d
开启容器如下所示:
[root@jiewli ~]# docker ps CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 43fb3efd832f kafka-docker_kafka "start-kafka.sh" 24 hours ago Up 4 hours 0.0.0.0:9092->9092/tcp kafka-docker_kafka_1 b8bc06090259 wurstmeister/zookeeper "/bin/sh -c '/usr/sb…" 24 hours ago Up 4 hours 22/tcp, 2888/tcp, 3888/tcp, 0.0.0.0:2181->2181/tcp kafka-docker_zookeeper_1
Kafka Shell
进入docker容器交互命令行
docker exec -it kafka-docker_kafka_1 /bin/bash
查看 kafka 安装目录,找到脚本位置
bash-5.1# echo $KAFKA_HOME /opt/kafka bash-5.1# cd $KAFKA_HOME bash-5.1# ls LICENSE NOTICE bin config libs licenses logs site-docs
默认情况下,kafka 安装目录是 /opt/kafka
你可以通过Kafka Shell与你的Kafka集群进行交互。
$ $KAFKA_HOME/bin/start-kafka-shell.sh <DOCKER_HOST_IP> <ZK_HOST:ZK_PORT>
测试
测试你的安装步骤。
启动一个shell终端,创建一个topic和启动一个生产者。
$ $KAFKA_HOME/bin/kafka-topics.sh --create --topic topic \ --partitions 4 --zookeeper $ZK --replication-factor 2 $ $KAFKA_HOME/bin/kafka-topics.sh --describe --topic topic --zookeeper $ZK $ $KAFKA_HOME/bin/kafka-console-producer.sh --topic=topic \ --broker-list=`broker-list.sh`
启动另一个shell终端,并启动一个消费者。
$ $KAFKA_HOME/bin/kafka-console-consumer.sh --topic=topic --zookeeper=$ZK
在MAC电脑上运行Kafka-docker
安装Docker Toolbox
,并将docker-machine ip
命令返回的ip配置到KAFKA_ADVERTISED_HOST_NAME
故障排除
- 默认情况下,Kafka broker使用1GB内存,因此如果您在启动代理是遇到问题,请检查
docker-compose logs
/docker logs
查找容器并确保主机上有足够的可用内存。 - 如果要运行多个broker,请不要使用
localhost
或127.0.0.1
作为主机IP,否则broker将无法通信。
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。