Anjhon | 但知行好事，莫要问前程

2024-07-16

Apache Hive 是一个用于大数据处理的开源数据仓库工具，最初由Facebook开发并于2010年贡献给Apache软件基金会。它设计的主要目的是使数据分析人员能够通过类SQL语言（即HiveQL）在Hadoop分布式文件系统 (HDFS) 上执行大规模数据查询和分析。Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。

大数据

Hive

Hadoop MapReduce & YARN

2024-07-12

MapReduce是Hadoop中的分布式计算组件，它可以以分散->汇总（聚合）模式执行分布式计算任务MapReduce可供Java、Python等语言开发计算程序。YARN（Yet Another Resource Negotiator）是Hadoop 2.x版本引入的资源管理框架，用于集群资源管理和任务调度。它将MapReduce的资源管理和任务调度功能抽象出来，提供一个通用的资源管理平台，可以支持多种分布式计算框架。

Hadoop HDFS (Hadoop Distributed File System) 是一个分布式文件系统，设计用于在大型数据集上进行高吞吐量的数据存储和访问。它是 Hadoop 生态系统的重要组成部分，支持大规模数据处理和分析。为什么需要分布式存储？数据量太大，单机存储能力有上限，需要靠数量来解决问题数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1>2的效果

Linux 软件安装实践；记录了 zookeeper、Tomcat、Nginx、Hadoop、SQL、Spark、Flink 等软件的安装和遇到的问题，以供学习和参考；均用 Ubuntu 系统安装。

Linux 复习笔记；整理了包含常用命令、网络连接认证、用户和权限等等方法的运用，对 Linux 有一个初步的了解。

最近面试了一个大数据异常行为检测的岗位，所以重新温习整理一下 SQL 相关的内容。数据库主要分为两大类,分别是关系型数据库(SQL)和非关系型数据库(NOSQL);在关系型数据库中Oracle和MySQL是最具有代表性的两个,在非关系型数据库中MongoDB和Redis也是榜上有名。 SQL（结构化查询语言）是一种用于操作和查询数据库的标准化语言。它被大多数现代数据库系统如MySQL，Oracle，SQL Server，PostgreSQL等广泛采用。尽管这些数据库系统都使用SQL，但是他们之间可能会有一些语法上的差异，这些差异主要是由于各个数据库系统提供的特定功能和优化。

1994 年 10 月 27 号这天，我的人生正式开启了。这个时候的我还无法意识到这是一个怎样的世界，又是一场怎样的旅程。直到 30 年后的今天，在我认真回顾了自己前半生的 30 年后，或许才有了一个模糊的答案。曾经看过一个纪录片《人生七年》，这个纪录片由英国导演迈克尔·艾普特（Michael Apted）开始于1964年，每隔七年跟踪拍摄同一组人的生活，从他们七岁开始，展示了他们的成长、梦想、挑战和生活变化。我于是也产生了一个想法，以同样的方式来回顾自己曾经的每一个七年。

生活随笔

人生

人生七年

1 2 3 4 5 6

...

AnJhon

但知行好事，莫要问前程