魔镜数据平台账号（大数据实验科研平台账号魔镜）

熊大 2022年09月17日 16:42 200 0

针对这个问题，我们先来了解下大数据采集平台提供的服务平台流程包括：

1，首先平台针对需求对数据进行采集。

2，平台对采集的数据进行存储。

3，再对数据进行分析处理。

4，最后对数据进行可视化展现，有报表，还有监控数据。

优秀的大数据平台要能在大数据分析方法,大数据编程，大数据仓库，大数据案例，人工智能,数据挖掘方面都能表现出优秀的性能。

现在来推荐几个主流且优秀的大数据平台：

1，Apache Flume

Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统,它是一个分布式、可靠、可用的系统，是java运行时环境j用于从大量不同的源有效地收集、聚合、移动大量日志数据进行集中式数据存储。

主要的功能表现在:

1.日志收集:日志系统中定制各类数据发送方，用于收集数据。

2.数据处理:提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力,提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统，支持TCP和UDP等2种模式），exec（命令执行）等数据源上收集数据的能力。

2，Fluentd

Fluentd是一个用于统一日志层的开源数据收集器。Fluentd允许您统一数据收集和使用，以便更好地使用和理解数据。Fluentd是云端原生计算基金会(CNCF)的成员项目之一，遵循Apache 2 License协议。FLuentd的扩展性非常好，客户可以自己定制(Ruby)Input/Buffer/Output。

官网：

主要的功能表现在:

1,Input:负责接收数据或者主动抓取数据。支持syslog，等。

2,Buffer:负责数据获取的性能和可靠性，也有文件或内存等不同类型的Buffer可以配置。

3,Output:负责输出数据到目的地例如文件，AWS S3或者其它的Fluentd。

3，Chukwa

Chukwa可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能，帮助我们进行数据的收集和整理。

官网：/

1，对应用的各个节点实时监控日志文件的变化，并将增量文件内容写入 HDFS，同时还可以将数据去除重复，排序等。

2，监控来自 Socket 的数据，定时执行我们指定的命令获取输出数据。

优秀的平台还有很多，笔记浅谈为止，开发者根据官方提供的文档进行解读，才能深入了解，并可根据项目的特征与需求来为之选择所需的平台。

魔镜数据平台账号（大数据实验科研平台账号魔镜）-第1张图片