Kafka相关文章_第2页

kafka连接zookeeper异常分析
时间：2024-05-31 09:03:25
昨天晚上突然收到Spark任务的告警异常，立即打开电脑查看原由，经过一番分析查找，问题得到解决，习惯记录一下一、直接问题现象Spark读取kafka超时，重新连接依然超时，那就是肯定是kafka出问题了二、问题分析排查1、分析kafka日志查看其中一台kafka的broker日志，发现了...
kafka消费者消费消息的流程
时间：2024-05-31 09:01:14
1.1 消费流程1.消息有生产者发布到kafka集群后，会被消费者消费。消息的消费模型有两种，推送模型（push）和拉取模型（pull）。1.1 基于推送模型（push）的消息系统，有消息代理记录消费者的消费状态。消息代理在将消息推送到消费者后，标记这条消息已经消费，但这种方式无法很好地保证消费...
kafka-消费者组偏移量重置
时间：2024-05-30 21:15:59
文章目录 1、消费者组偏移量重置1.1、列出所有的消费者组1.2、查看 my_group1 组的详细信息1.3、获取 kafka-consumer-groups.sh 的帮助信息1.4、偏移量重置1.5、再次查看 my_group1 组的详细信息 1、消费者组偏移量重置 1.1、列出所有...
Kafka Connect使用入门-Mysql数据导入到ElasticSearch
时间：2024-05-28 20:34:26
1.Kafka ConnectConnect是Kafka的一部分，它为在Kafka和外部存储系统之间移动数据提供了一种可靠且伸缩的方式，它为连接器插件提供了一组API和一个运行时-Connect负责运行这些插件，它们负责移动数据。Connect以worker进程集群的方式运行，基于work进程安装连...
kafka学习笔记：知识点整理
时间：2024-05-25 18:29:40
一、为什么需要消息系统1.解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消...
kafka
时间：2024-05-25 17:40:34
2016-11-13 20:48:43简单说明什么是kafka？Apache kafka是消息中间件的一种，我发现很多人不知道消息中间件是什么，在开始学习之前，我这边就先简单的解释一下什么是消息中间件，只是粗略的讲解，目前kafka已经可以做更多的事情。举个例子，生产者消费者，生产者生产鸡蛋，消费...
Kafka：主要参数详解（转）
时间：2024-05-25 17:36:36
原文地址：http://kafka.apache.org/documentation.html############################# System ##############################唯一标识在集群中的ID，要求是正数。broker.id=0#服务端口，默...
Spark Streaming+Kafka
时间：2024-05-25 17:33:36
Spark Streaming+Kafka前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark s...
Kafka副本管理—— 为何去掉replica.lag.max.messages参数
时间：2024-05-25 17:27:57
今天查看Kafka 0.10.0的官方文档，发现了这样一句话：Configuration parameter replica.lag.max.messages was removed. Partition leaders will no longer consider the number of ...
Kafka相关内容总结（概念和原理）
时间：2024-05-23 20:25:50
说明主要内容是在网上的一些文章中整理出来；加粗的字体是比较重要的内容，部分是自己的经验和理解；整理的目的主要是为了方便查阅；为什么需要消息系统解耦：在项目启动之初来预测将来项目会碰到什么需求，是极其困难的。消息队列在处理过程中间插入了一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允...
Kafka 中使用 Avro 序列化组件(三)：Confluent Schema Registry【转载】
时间：2024-05-23 16:53:25
1. schema 注册表无论是使用传统的Avro API自定义序列化类和反序列化类还是使用Twitter的Bijection类库实现Avro的序列化与反序列化，这两种方法都有一个缺点：在每条Kafka记录里都嵌入了schema，这会让记录的大小成倍地增加。但是不管怎样，在读取记录时仍然需要用到整个...
使用从Kafka connect实现从oracle到kafka的数据同步
时间：2024-05-22 11:45:29
参考https://blog.csdn.net/ismr_m/article/details/79813838https://mp.weixin.qq.com/s?src=11&timestamp=1579153063&ver=2099&signature=6tatHFHkl...
kafka学习之-Linux上安装zookeeper
时间：2024-05-22 07:55:38
首先确保Linux已经安装好jdk。1、zookeeper下载，选择自己合适的版本。我用的3.4.14http://mirrors.hust.edu.cn/apache/zookeeper/2、将下载好的zookeeper上传到Linux服务器（上传位置看个人喜好）如果没有xftp或者WinSCP类...
kafka单节点的安装，部署，使用
时间：2024-05-22 07:42:02
kafka单节点的安装，部署，使用1、kafka官网：http://kafka.apache.org/downloadsjdk：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html参考...
docker里面启动kafka并做端口映射，容器外无法连接，问题解决记录
时间：2024-05-21 21:40:59
最近研究Docker使用过程中，恰好遇上另一个需求要搭建一个kafka服务器。于是就像尝试把kafka打成docker容器。配置成功在容器内部用生产者和消费者shell脚本试了一下，发现功能是正常的，容器外使用java端和使用shell脚本去调用一直网络连接不同。当时觉得很奇怪端口映射 -p 21...
Spark Streaming 对接Kafka实现实时统计的问题定位和解决
时间：2024-05-21 19:03:33
整个思路：spark streaming 接受Kafka数据（KafkaUtils.createDirectStream）然后累计值（updateStateByKey）把值发给Kafka。整个过程出现两个问题，第一个问题是启动脚本的问题，第二个问题是添加性能参数的问题，第三个问题是认证过期问题。...
kafka分区数设置多少合适
时间：2024-05-21 08:49:14
kafka的每个topic都可以创建多个partition，partition的数量无上限，并不会像replica一样受限于broker的数量，因此partition的数量可以随心所欲的设置。那确定partition的数量就需要思考一些权衡因素。越多的partition可以提供更高的吞吐量在kaf...
zookeeper和kafka的启动和关闭顺序
时间：2024-05-20 19:19:36
一定要先启动ZooKeeper 再启动Kafka 顺序不可以改变。先关闭kafka ，再关闭zookeeper。 zookeeper启动：分别在三台机器上执行：zkServer.sh start检查ZooKeeper状态：zkServer.sh status关闭：zkServer.sh stop k...
kafka 0.10.2 消息消费者
时间：2024-05-20 16:13:44
package cn.xiaojf.kafka.consumer;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.clients.consumer.ConsumerRecord;impor...
Kafka背后公司获1.25亿融资，估值超25亿美元
时间：2024-05-20 16:07:50
北京时间1月24日，开源Apache Kafka项目背后的公司Confluent在官方博客宣布进行了D轮融资，价值约为1.25亿美元，公司总估值高达25亿美元。Confluent公司CEO Jay Kreps在博客中表示：我很高兴地宣布，Confluent已经募集了1.25亿美元的D轮融资，由红杉资...

1 2 3 4 5