
罗彻斯特 密歇根 48309-4486
(248) 370-2762
(248) 370-4111
# Oakland研究


High Performance 计算 Cluster (HPC)

High Performance 计算 Cluster: Matilda

韦德体育app官网(韦德体育app官网)基于linux的中央HPC集群(Matilda)旨在支持并行, GPU, 以及其他不适合个人电脑的应用程序.  The Matilda HPC cluster consists of approximately 2,200 cores.  All nodes are interconnected with 100Gbps InfiniBand networking.

The Matilda HPC cluster includes the following compute nodes:

  • 40个标准计算节点,每个节点有192 GB的RAM和40个CPU内核.50兆赫.
  • 10个高贯穿节点,每个节点有192 GB的RAM和8个CPU内核.80 GHz.
  • 4个大型内存节点,每个节点有768 GB RAM和40个CPU内核.50兆赫.
  • 4个混合节点, 每个容量包括专门的加速卡或gpu和40 CPU核心在2.50兆赫.
  • 3个GPU节点,每个节点有4个NVIDIA Tesla V100 16G GPU, NVLink, 192 GB RAM和48个CPU内核.10 GHz.

该系统包括690tb的高速刮刮存储,使用高性能并行文件系统,通过100Gbps Infiniband连接到每个计算节点.

主目录, 项目空间, and shared software reside on a Dell EMC Isilon H500, a storage system with integrated backup solution. 数据被复制到位于具有独立电源和HVAC系统的二级数据中心的Dell EMC Isilon A2000.  Dell EMC Isilon A2000还可以为Amazon Web Services提供存档机制.

所有玛蒂尔达HPC集群节点均通过HDR100 ib互联, delivering up to 100 Gbps of bandwidth and sub 0.6美国铀浓缩公司延迟.

Matilda HPC集群以10 Gbps的连接连接到韦德体育app官网校园网,提供对存储系统、研究人员实验室和工作站的访问.

Matilda HPC集群包括一个全面的开源研究软件套件, including major software compilers, and many of the common research-specific applications.

Matilda集群位于North Foundation Hall数据中心内. This facility is equipped with fire suppression systems, a standby generator and environmental controls.

Base Resource Allocations
要求, 所有隶属于ou的研究人员都获得50gb的主目录存储空间和10tb的临时存储空间1 在Matilda集群上. 这种分配允许ou附属的研究人员访问Matilda集群,并作为PI项目/小组的一部分提交作业.

pi还为研究项目或小组项目提供共享的项目空间. 这些分配分配给PI,可以由他们组的成员使用:

  • 计算时间2每年100万
  • GPU小时3: 5万/年
  • Shared project/group storage: 1 TB
  • Shared project/group scratch1 存储空间:10tb

Compute and GPU小时 are convertible, 因此,研究人员可以以任何最适合他们特定需求的方式使用他们的拨款. The billing weight is 10x for GPU小时, meaning that 100 GPU小时 is the equivalent of 1,000 CPU小时, while 100 CPU hours is the equivalent of 10 GPU小时. 因此,每位研究人员的有效年分配为1.5 million hours available for use. Usage is tracked in the aggregate f或者是 PI and their group, and usage resets to zero at the start of each calendar year.

Rates for Additional Computational 资源
需要在年度基础分配之外的额外计算时间的研究人员可以购买额外的资源. Current costs (which will be revised every two years) are:

  • 计算时间2: $0.每小时024分
  • GPU小时3: $0.24小时

额外购买的计算资源放置在一个单独的帐户中,研究人员和他们选择的任何其他小组成员都可以访问该帐户. 与基本分配金额不同(这是“使用或丢失”-这意味着未使用的部分不会从一年转到下一年), 未使用的购买资源将保持可用,直到耗尽. To use additional purchased hours, 研究人员或组成员必须指定在提交作业时使用的帐户.

研究人员如果需要比Matilda集群现有硬件更大的硬件容量,可以购买额外的节点. UTS的工作人员将购买的节点添加到集群中,并与集群的其他节点一起管理. 购买用户和他们的研究小组将有优先访问权4 on all cluster resources they purchase. They will also receive additional compute time (CPU or GPU, 根据需要或期望)在日历年购买资源, based on rates in effect at the time of purchase.

To purchase a node, contact UTS at (电子邮件保护) to discuss your needs and get a quote. The exact price will depend on the hardware chosen, 再加上将新硬件连接到集群所需的任何附带费用.

Rates for Additional 存储
需要额外存储空间的研究人员或团队可以购买额外的空间, depending on their specific storage needs. 有两种基本存储类型:Matilda HPC集群本身的存储, or storage in one or more OU data centers, but without direct access to/from the Matilda cluster. Current costs (which will be revised every two years) are:

  • Matilda project or home directory quota: $260 per TB per year
  • Matilda scratch space quota: $72 per TB per year
  • Performance tier: $170 per TB per year
  • Archive tier: $90 per TB per year
  • Replicated performance tier: $250 per TB per year
  • 具有深度存档的复制性能层:每TB每年260美元
  • Archive tier with deep archive: $90 per TB per year

Matilda HPC集群服务是通过与韦德体育app官网研究办公室和大学技术服务合作提供的.  For more information, visit the University Technology Services 研究 支持 page 或者是 研究 计算 and HPC documentation 网站.  To request access, fill out the Matilda HPC Cluster Access Request form (scroll down to "Matilda"; online form requires OU log in).

1临时存储是仅用于工作文件的短期存储. It is not backed up or mirrored. 不活动的文件(由上次访问它们的时间确定)在45天后被删除.

2计算时间 are measured per CPU core used in a job. 在40个CPU内核上运行一小时的作业将消耗40个计算小时.

3GPU小时是根据每个GPU请求来衡量的,因为通常在一个GPU上一次只能运行一个作业. 请求2个GPU资源并运行1小时的作业将消耗2个GPU小时.

4优先访问意味着当用户需要购买资源进行研究项目时,保证能够在不到四个小时的时间内在购买的资源上开始作业. 从购买之日或硬件的预期使用寿命算起,优先访问所购买资源的期限为五年, 取较小者. When the purchaser is not using a purchased resource, 其他集群用户可以使用它,每个作业的最长运行时间为4小时.