您现在的位置是:首页 > 正文

SparkStreaming 介绍及 wordcount 案例

2024-01-30 20:21:21阅读 2

一、介绍

1、Spark Streaming 是什么?
Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 进行运算,而结果也能保存在很多地方,如 HDFS,数据库等。
在这里插入图片描述
2、DStream
和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作 DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。所以简单来讲,DStream 就是对 RDD 在实时数据处理场景的一种封装。

3、Spark Streaming 结构图
在这里插入图片描述

在这里插入图片描述

二、wordcount 案例

1、介绍
使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统计不同单词出现的次数。

2、添加 maven 依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.

网站文章

  • 抽象工厂模式--实例分析

    应用场景 某手机操作系统可以根据用户不同的喜好在多种主题之间进行切换,随着主题的变化,系统中的字体、app图标、壁纸、锁屏壁纸等元素会随之发生变化。 使用抽象工厂模式设计手机主题库 创建元素接口 //...

    2024-01-30 20:21:14
  • “原来我的专业考不了公务员!” 要考公,你的专业能报什么?

    “原来我的专业考不了公务员!” 要考公,你的专业能报什么?

    #原来我的专业考不了公务员#也登上热搜,引发网友热议这里说的“考不了”并非不能考,而是专业能够选择的岗位很少。每到公务员考试报名选岗阶段,很多”公考冷门专业“的同学都非常抓狂,筛了半天愣是一个匹配专业...

    2024-01-30 20:20:44
  • GDB——GDB调试工具简介

    什么是GDB? GDB的常规应用 GDB的启动方式 什么是GDB? GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。与Window下的IDE不同,GDB是纯命令行执行的,并没有图形界面方法。 问题:既然windows下有对用户友好的图形界面的调试工具了。那么为什么我们还需要回到命令行的模式呢? 如果我们是在UNIX平台下做软件,我们会发现基本...

    2024-01-30 20:20:37
  • 打卡:Java面试系列基础题(3)

    内部类与静态内部类的区别:普通内部类作为外部类一个成员而存在,在普通内部类中可以直接访问外部类属性,调用外部类的方法静态内部类是相对外部类独立存在的,静态内部类中无法直接访问外部类中变量,方法,如果要...

    2024-01-30 20:20:29
  • VS编译fopen函数和fscanf函数报错

    今天用VS2017编译fopen函数和fscanf函数报错,提示不安全,建议更换为fopen_s和fscanf_s函数。error C4996: 'fopen': This function or variable may be unsafe. Consider using fopen_s instead. To disable deprecation, use _CRT_SECURE_NO_

    2024-01-30 20:20:01
  • Can you find it?

    Problem Description Give you three sequences of numbers A, B, C, then we give you a number X. Now you need to calculate if you can find the three numbers Ai, Bj, Ck, which satisfy the formula Ai+Bj

    2024-01-30 20:19:53
  • BusyBox

    BusyBox

    BusyBox 简化嵌入式 Linux 系统为小环境准备的一个小工具包M. Tim Jones (mtj@mtjones.com), 咨询工程师, EmulexTim Jones 是一名嵌入式软件工程师,他是 GNU/Linux Application Programming、AI Application Programming 以及 BSD Sockets Pro...

    2024-01-30 20:19:46
  • Java核心 数据结构 集合 泛型 反射 注解

    Java核心 数据结构 集合 泛型 反射 注解

    本文介绍的是java核心的内容 分别是集合 数据类型(链表 红黑树) 泛型 反射 和 注解

    2024-01-30 20:19:38
  • 线性代数 | (3) 行列式

    线性代数 | (3) 行列式

    目录 1. 行列式的概念 2. n阶行列式 3. 特殊行列式的计算 4. 行列式的性质 5. 行列式的计算 6. 克莱姆法则 7. 范德蒙行列式 8. 行列式与逆序数 9. 行列式展开定理 1. 行列式的概念 求下列方程组的解: 利用高斯消元法求解: 为了记忆,引入如下的符号: 下面是给出解的形式: 二阶行列式: 三阶行列式: 2....

    2024-01-30 20:19:06
  • echarts显示不确定项的图表

    在实际应用之中有时候不确定后端返回的数据需要显示在几个图表中,从数据中解析需要显示几张图表,每一次显示的数目都不一样。

    2024-01-30 20:19:00