（PS：本文基于CentOS7.x + HDP3.1进行描述）

前几天看到讨论群有小伙伴提到，大数据集群如何针对个别机器做个性化配置这个问题。

正好这两天因为工作需要，要把当前的大数据测试集群做个扩容，也就是新增加几台服务器，以提高原本集群的计算和存储能力。

特此写下这篇文章，也许可以帮到有需要的小伙伴们。

因为我们用的是HDP全家桶(CDH或者CDP亦同理)，像这种发行版的大数据平台软件，因为有厂家出面做了版本整合，将其打包成一个整体、于是其中的组件之间都是做了版本适配的，所以我们在使用的时候基本不需要担心兼容性问题。

而这，便是发行版大数据软件相比完全散装的社区版最大的优势之一。

像这种自带集群管理功能，提供集群服务操作界面的大数据平台，通过动态方式对集群规模进行扩容，是一件非常方便的事情。

但是在现实操作中，我们不得不面临一些比较棘手的难题。

比如，你集群后续要增加(扩容)的机器的配置跟之前的机器配置不一样，这里的不一样，既有内存、CPU、还会有硬盘等硬件指标。

如果你为了省事，整个集群服务器都只用一个统一的配置，当然也可以把集群给跑起来，但是这样会让那些硬件资源异构的服务器之间，缺少了一种个性化的关怀、以及几分管理该有的温度。

这种“一视同仁”的资源分配策略，虽然够简单，但是也让集群在工作的时候总显得不那么优雅。

那么面对这种因为前后服务器硬件资源不一致，但是又不得不在同一个集群中共存的情况，该如何解决？

答案是：通过分配不同的配置组来进行。

下面就以HDP集群为例，利用其集群管理工具Ambari，来操作增加一台配置异构的机器，该如何操作？

0.基础软件的安装

拿到机器后，第一步一定是安装必要的一些软件，以此来符合作为存储和计算服务器的基础要求，软件安装步骤大致如下：

操作系统部署，要求版本最好跟之前集群版本一致(如果条件不允许，至少需要子版本保持一致，比如同为CentOS7.x)，且建议部署英文版本，避免后续出现一些恼人的乱码显示问题，另外不要安装桌面版；
磁盘挂载，因为是大数据应用，因此对于磁盘的规划可以用最简单的方式，即每块硬盘只需要划分一个分区，然后将其依次挂载就可以了，数据盘不用做LVM管理，这样反而麻烦；
安装基础软件，比如Python环境和JDK，Python是ambari管理需要(一般CentOS7.x默认会安装Python2.7)，因为集群所有服务的启停都是用ambari用Python脚本实现的，而JDK则不用解释（建议1.8就可以了），所有大数据服务和应用都需要依赖它；
关闭防火墙和selinux，因为集群之间工作时需要非常多的端口间通信，这个必须要关闭；

5. 修改机器hostname，这个在部署集群的时候需要，而且后续集群之间服务的通信也是根据hostname来识别的，起名字时尽可能正规一点，别太随意，显得不专业；

6. 将新增机器的hostname和ip映射写入到集群中所有机器的hosts文件中，以此让所有机器都能通过hostname来识别新增加的机器。

以上步骤因为非常简单，只做大致说明，详细步骤网上遍地都是，不再赘述。

1.设置免密SSH

因为Ambari要跟新加的机器进行通信，且这个过程中会涉及到非常多的ssh操作进行数据之间的传递，因此这个步骤必不可少。

在新增加的机器上用root用户生成秘钥：

用ssh-keygen命令，然后一路回车，这样就在新机器中生成了root用户的公钥和私钥；
在Ambari server机器(Ambari主节点)，通过运行如下命令：

一路yes，然后输入新机器的root密码。

这个命令的作用在于：将新增加的机器(hdp05.pcl-test.com)的公钥给拿过来保存到Ambari server机器上，这样，Ambari server就可以无密码直接ssh连接到新机器上了；
如果不放心，用命令测试一下试试看：