最近,超算领域学术界和产业界人士围绕“中国超算服务创新”展开了一场热烈的讨论。
起因是,北京并行科技股份有限公司(以下简称并行科技)总经理陈健从超算建设投入产出比的角度提出,虽然中国超算近年来取得了瞩目的成就,但超算服务的模式还很落后,特别是一些自建院系、单位级和用户组级超算集群(统称为中小微超算),投入产出比远不及大型超算,且年平均利用率低,这种“小农经济式”超算服务形态,急需改进、创新。
如何为科研提供更好的超算服务,是中国超算的一大命题。
陈健提出的解决方案是“超算上云”。作为超算云服务提供商,陈健认为,超算的使用者大都要经历“国内外大超算平台排队上机——自建超算集群——租用超算——超算云服务”的过程,这是一个“从落后的生产力逐渐过渡到更先进的生产力形式”。
以此为发端,超算领域学术界、产业界人士从各个角度给出了他们的理解和思考。
超算“全盘云化”有其局限
之所以以“小农经济”类比,在陈健看来,自建超算集群就好比自种“两亩自留地”,这些自建的中小微超算有些浪费,不如大家都把需求集中起来,把无数的“两亩地”汇集成“万亩良田”,大家通过超算云服务的形式,从大型超算上按需购买计算资源,不但可减少浪费,还能提高应用效率。
相应的,陈健把并行科技比作“制造大型农机具的”——只有大型超算(万亩良田)多了,“现代农机具厂商”才好开张。
但是,超算全部上云(指服务模式,并非云计算),现实吗?
虚拟化和云计算专家麻清刚提出,从技术上来讲,限制超算“上云”的条件是网络带宽。“如果可以以极低成本拉一条400G的网络专线,超算还真有可能全盘云化——但不一定都是公有云,私有云、企业云、行业云等形态都可能存在。”
但是,带宽问题目前很难逾越。“带宽费用是阻碍我们去内蒙古建超算的最主要原因,节约的电费都给运营商买带宽去了。”北京大学高性能计算平台主任工程师、计算中心系统管理室主任樊春这样说。
内蒙古电价为每千瓦时0.26元。近年来,西部地区利用“超低电费”的条件大力投建IT基础设施,这对于一般的云计算中心来说是个利好,但对于超算而言,并不一定可行。
樊春说,对于大部分超算用户来说,速度和价格是排在前两位的。超算中心对外提供计算服务,只有同时满足这两点,用户才愿意买单。
且不说“拉一条400G的网络专线”是个很大的前提,仅超算服务“全盘云化”这一点,中科院计算所研究员、国家超级计算济南中心主任张云泉就不太认同。
他从超算需求的角度出发,认为目前超算云服务只能支持一些中低端计算需求,那些更快、更大规模的需求,超算云服务的形式还提供不了,“就像当年网格计算声称可全面取代超算一样,超算服务全盘云化几乎不可能”。
超算成本下降还需规模效益
樊春还提出一个问题:“超算云技术管理上无法降低成本,从而无法降低对最终用户的价格,这是超算云发展的最大障碍。”
这一观点与陈健提出的观点相悖。陈健此前在接受《中国科学报》采访时称,超算云服务商的角色,就是通过研发软件和方案,以技术输出提高超算集群的易用性和有效利用率,从而降低超算的使用成本——把超算的每核时成本降低至一毛钱。
二者的矛盾点在哪?
一个答案是:用户规模。只有用户规模上去了,两人的观点才能找到平衡点。
一方面,陈健认为樊春所在的北京大学校级高性能计算平台,已经有了足够大的规模应用,规模效益已现,所以北大能够给予用户更低的价格;
另一方面,陈健也深知城域网光纤非常贵——他们就投建了从广州超算到北京的城域网光纤专线,之所以这么做,是因为并行科技也实现了规模效益,通过这条光纤专线,并行科技有每年数千万元的超算云服务经营额。
“这(超大带宽网络光纤)是一个极具规模效益的基础设施投入。”陈健感叹。
那么,现在中国超算应用是否到了产生规模效益的节点?
陈健认为“是”。他给出了一组数据:并行科技依托各大超算中心资源提供的超算云服务,现在已经有近1.5万个客户,并行科技给用户提供的超算价格,经核算比自建超算低一半。此外,2018年并行科技超算云服务合同额已达2亿元,预计2019年会达到3亿元。
“这是无数科研工作者用脚投票的结果。”陈健说,长此以往,中小微超算集群建设的越少,中国超大型国家级超算、大型地方超算、校级超算乃至公有云超算就发展得越好。
没谁能“一统江湖”
以云服务的方式提供超算资源,这块市场上并不只有并行科技。阿里云等云计算巨头,也“顺手”做了超算的云服务;一些大型超算中心,也探索了超算云服务的模式,国家超级计算天津中心就是一例。
“我们做超算云,是为了让用户用起来更好用。”国家超级计算天津中心一位要求匿名的专家说,“不管是超算云还是云超算,本质是为用户服务的形式。服务形式确实可以降低用户使用门槛,让用户用起来更简单,但不应过分夸大使用模式(对中国超算实力提高)的作用。”
他认为,并非只有超算云才能解决现在的超算服务问题。
阿里云高性能计算负责人、资深技术专家何万青也持类似观点。他说,超算是个大生态系统,中国是个超算大国,必然有各种模式的超算集群——有国家投资建设的,有诸如并行科技以SaaS和PaaS形式提供增值服务的,也有诸如阿里云等云计算公司提供的商用系统,“只要用户认为他出的价格符合自己所需的价值,就是合理的”。
至于超算服务的价格,何万青认为:“价格永远是市场行为,甲之蜜糖,乙之砒霜。有的用户愿意出高价购买,其他用户也许弃之若敝履,这就是市场。”
何万青举例说,一些科研型和渲染型客户,他只在灵感或者创作来了之后,才会启动计算的点对点模式,这时候资源灵活调度和自动伸缩比线下性能优化更重要——而这其实是云计算比较擅长的领域。
“举例是想说谁也别想一统江湖。大家各有所长,客户、技术需求、业务特点和生态发展也是多样性的。“何万青说。
超算应该部分免费吗
在超算平台建设方面,陈健提出,事实上目前我国的国家级超算一直是不核算建设成本的,对重大应用采取免费或者低价支持的措施;一些高校超算,一般采取免费或低价使用手段,“其实都是亏本在服务校内用户”。
对此,在超算领域从业多年的中科京云总经理贺建海提出一个大胆的想法,“我认为国家级超算应该向基础研究提供免费计算资源。”
曾在三家国家级超算中心工作、现任职于鹏城实验室人工智能研究中心的王丙强认为,该出发点虽好,但在实际操作中,可能会带来混乱:谁会对免费的东西不动心?
但他也提出,有关科技主管机构,确实应该考虑降低使用计算资源的成本和门槛。
张云泉也觉得,免费难免浪费,但面向基础研究领域,超算可以尝试提供尽量低的价格,降低获取成本。
樊春结合他们在北大高性能计算平台提供超算服务的经验提出,面向那些小规模短时长、纳入教学任务的超算使用需求,可以且应该免费,以降低学生学习的门槛;
而面向基础科研,比较耗费资源的高性能计算任务是不能免费的,但是应该以极低的价格提供给科学工作者使用。
“收费是为了防止滥用资源,不是为了赚钱。”樊春说,收费的价格要让“挖矿”等无利可图。
而低价格是为了降低用户使用成本,符合“价格低—用户大量使用—计算量大—出更优秀结果的概率增加—超算为人类的贡献也更大”的逻辑。
樊春还提出,如果高性能计算免费的话,就需要一个跨学科的专家委员会来分配资源。
不过他也认为,分配资源工作是非常耗费资源和精力的,协调的成本要“远远高于硬件的浪费”。
一位高能物理应用领域的匿名用户认为,国内许多公共服务平台类的大科学装置采用的模式是,国家财政支持装置的运行经费,除企业用户外,装置不得向科研用户收费。用户提出机时申请,用户委员会对申请进行评审筛选。
“事实上科研用户的经费也是从国家财政来的,倒一道手没什么意义。”他表示,“这种只管建设不管运行的模式未必是好模式。”
一个问题是,如果相关主管部门对科研级超算应用实行免费或低价,超算行业还需要并行科技、阿里云超算这类企业吗?
樊春认为,还是需要的。
“这个行业虽然不如传统云计算获利空间大,但也的确有赚钱空间。”他建议,“超算云公司应该提升技术以及管理能力,努力提供更加便宜的资源、更优秀的服务吸引用户,拓展整个高性能计算行业。”