到2014年底,美国航天局正在考虑全面改革其信息技术治理,以确保美国航天局信息技术系统的安全。 英特尔在帮助NASA的气候模拟中心调查运行该组织在云基础设施上的建模和模拟应用程序的可行性方面发挥了作用,以替代其名为Discover的专用计算集群。
早在2011年,美国宇航局气候模拟中心的网络架构师开始研究(PD F)在云基础设施上运行该组织的建模和模拟应用程序的可行性,作为其名为Discover的专用计算集群的替代方案。
希望捕捉云基础设施的固有优势,如敏捷性和弹性,他们希望确定开放云体系结构是否能满足应用程序严格的吞吐量和延迟要求。
特别是,它们需要确保与虚拟化相关的开销不会限制性能。
作为向云转移的一部分,该团队希望将环境的骨干和管理基础设施汇聚到10兆以太网上。 使用单一的网络结构有望帮助优化整体解决方案的灵活性和成本效益。
美国航天局气候模拟中心对气候变化和相关现象的研究需要广泛的计算机建模,并有助于飓风预测、过去天气模式分析和政府气候政策的科学支持等工作。
这个名为Discover的集群过去几年来一直在做这项工作,并被用作一套集成的超级计算、可视化和数据管理技术,以提供大约400兆的容量。
它拥有3万个传统的英特尔Xeon处理器核心和64个GPU的计算资源;节点间骨干:DDR和QD RInfini带;管理网络:千兆和10千兆以太网(GBE和10GbE);数据存储:~个兆RAID的并行文件系统(GPFS),加上~20个宠物磁带档案发现完全基于非虚拟化机器,因此增加容量需要提供额外的物理服务器。
降低这些变化的传统成本和复杂性是云计算的一个好处。 此外,云体系结构增加了弹性,有助于作业调度,并有助于避免与长期运行的作业相关的操作瓶颈。
英特尔提出星云,基于Open Stack,作为一种替代发现。 但是团队必须找出星云是否能提供同等的性能,因为发现需要整理。 特别是,该小组需要确定,与“裸金属”集群相比,星云所处的虚拟化环境是否会引入间接费用或其他因素,造成不可接受的限制。
为了推进这一初步测试的状态,需要进行额外的工作。 特别是,该团队必须测试更多的基准和现实世界的应用程序,并将测试扩展到包括InfiniBand织物和云基础设施,如Open Stack和桉树。
为了满足节点到节点通信中的关键速度和延迟要求,NASA性能工程师与英特尔合作,充分利用虚拟化技术的潜力。
该小组共同建立了一种测试方法,在几个工作负载上比较这两个环境,包括Nuttcp网络性能测量工具、俄亥俄州立大学MPI基准和英特尔数学内核库(MK L)实现LINP ACK。 使用这些基准进行的分析使团队能够测量和比较各种类型的物理或虚拟服务器之间的系统吞吐量和延迟。
比较多种虚拟化场景的方法使测试能够揭示这些虚拟化技术在实现性能目标方面可以发挥的作用。 这次测试的核心结论是,基于云的高性能计算是一种可行的可能性。 持续测试还将包括额外的管理程序,如Xen和其他VMOS,如Red HatEnterpriseLinux和SUSELinux。
美国宇航局继续完善其基于云的基础设施作为一项服务,并期望在简化、灵活性和成本效益方面实现更多的好处。 展望未来,该机构的高性能计算工作量已经开始转向使用以太网结构的开放基础设施,进一步加速似乎是不可避免的。