Post Jobs

有些人做神经网络训练,Stuhlinger很快给Jucunda修女回了信

图片 3

“这绝对不是好的趋势,我们应该用更有创意,而不是纯粹‘加算力’的方式去做研究。”

图片 1

图片 2

大数据文摘出品

“有些人做神经网络训练,完全不计代价,太不负责任了!”

作者:曹培信

小张是一名硅谷大公司的深度学习研究员,安坐在开着冷气的房间里写代码、调参、训练再训练。

1970年,赞比亚修女Mary
Jucunda给NASAMarshall太空航行中心的科学副总监Ernst
Stuhlinger博士写了一封信。信中,Mary
Jucunda修女问道:目前地球上还有这么多小孩子吃不上饭,他怎么能舍得为远在火星的项目花费数十亿美元。

经过数月不懈的努力,新模型终于完成了,得到了一个3%提升的
state-of-the-art
结果。不仅公司的产品将因为这一进步获得巨大的性能提升,数以百万的用户因为这一改进而受益,小张的新论文也有着落了。

Stuhlinger很快给Jucunda修女回了信,他这封真挚的回信随后由NASA以《为什么要探索宇宙》为标题发表。

数据制表填好,小张把论文发给了正等着写博客宣告这一好消息的市场部同事,满意地关掉了虚拟机,开着特斯拉回家了,感觉今天又为人类做了一件微不足道的好事。

这封信中有这样一句话:“通往火星的航行并不能直接提供食物解决饥荒问题。然而,它所带来大量的新技术和新方法可以用在火星项目之外,这将产生数倍于原始花费的收益。”

小张不知道的是,数百吨二氧化碳就这样散布到了大气当中。

如今,随着许多航天技术迁徙到其他方面并对人类生活产生了巨大的影响,很少有人再去质疑航空航天是否有必要。

根据一份提交到自然语言处理顶会 ACL 2019
的论文,三位来自马萨诸塞大学安姆斯特分校的研究者分析了一些主流 NLP
模型训练的碳排放水平。

同样,作为目前最前沿的计研究领域之一,人工智能近日也受到了环保方面的质疑。

他们发现,像 Transformer、GPT-2 等时下最火的深度神经网络技术,为 NLP
带来的长足的进展,同时却产生了大量的温室气体排放。

人工智能背后的碳排放引发关注

论文的第一作者,马萨诸塞大学安姆斯特分校博士生艾玛·斯特贝尔 (Emma
Strubell) 接受了硅星人的中文独家采访。

根据一份提交到自然语言处理顶会ACL
2019的论文,三位来自马萨诸塞大学安姆斯特分校的研究人员对几种常见的NLP模型进行碳排放评估。

谈到为什么要做这项研究,斯特贝尔透露,由于学术圈论文通常发布在学术会议上,这篇论文灵感,就是来自于同僚关于坐飞机参加学术会议对环境影响的讨论。

他们发现,像Transformer、GPT-2等流行的深度神经网络,他们的训练过程可以排放超过62.6万磅的二氧化碳当量,几乎是美国汽车平均寿命期内排放量的五倍。

“既然都扯到坐飞机跑会了,为什么不先来探讨一下深度学习训练本身对环境的影响?”斯特贝尔告诉硅星人。

比如Google AI今年发布的一篇新论文The Evolved
Transformer提出的神经网络架构搜索技术,用于英语到德语翻译的BLEU分数提高了0.1,却花费了3.2万TPU小时。

而这次研究的结果让她自己都吓了一跳:其实,深度学习训练的碳排放远超跨国飞行。

尽管这篇论文并没有提供准确的基于TPU的模型训练能耗和碳排放的数据,但是根据美国环保署统计,数据中心耗电占全球3%,且耗电量正在以每四年翻一番的速度增长;同时,数据中心的温室气体排放占到全球的2%,碳足迹已经追上民航业。

图片 3

尽管目前数据中心大多还是在进行处理客户信息等传统工作,但是基于深度学习的人工智能正成为全球数据中心业务增长的最大驱动力。

论文作者与同事合照 Image Credit: UMass IESL

来自网友的讨论

论文作者首先确定了 NLP 模型训练能耗的量化方式。

这篇论文一进入大众视野,便引起了广泛讨论,业内人人士更多是持一种辩证的态度,表示虽然用于训练所产生的碳排放是客观存在的,但是并没有文章中所说的那么夸张。

然后,他们通过硬件厂商提供的工具 (Nvidia-smi、Intel RAPL 等) 提取
CPU、内存和 GPU
的能耗数值,计算训练的耗电总和,再乘以美国环保署提供的二氧化碳排放量均值(每度电0.954磅,约合433克),就得到了主流
NLP 模型训练的计算成本和环境影响数据:

Reddit有网友评论:

表格显示了 NLP
领域内最顶尖模型的训练用时、能耗效率和碳排放。一个最直观的结果就是:某些新的模型/训练方式取得了最优结果,但是进展微小,副作用却是不成比例的计算量/碳排放增加。

在8个GPU上训练12小时6500万参数的一般网络总计消耗27千瓦时,并且排出26磅二氧化碳,计算成本为41-140美元。这是论文中耗能最小的例子,但其实与大多数人做的训练相比,它也算是规模比较大了。

比如 Google AI 今年发布的一篇新论文 The Evolved Transformer
提出的神经网络架构搜索技术,用于英语德语翻译的 BLEU 分数提高了
0.1,却花费了3.2万 TPU 小时,云计算费高达15万美元。

而更大的BERT
model,在64个GPU上训练110万个参数,耗时80小时,消耗了1507千瓦时的能量,排放了1438磅二氧化碳,计算成本为3751-12571美元。但这是一个相当大的ML项目,比大多数人运行过的规模都更大,很少有个人或者组织能够做这种项目。

如果把 TPU 换成八块 P100 GPU,用同样的方式训练同一个 Transformer
达到同样的成绩,将会产生惊人的62.6万磅二氧化碳。

论文中比较有意义的是神经结构搜索消耗的能量和排放的二氧化碳。这是有道理的,因为搜索过程可能意味着运行几个大数量级的训练步骤。

相比较来看,一辆美国的中型汽车,或者中国的 B
级车,从生产到报废的整个寿命周期二氧化碳排放才只有12.6万磅;一个人一生的二氧化碳排放大约是1.1万磅;往返纽约旧金山的民航飞机碳排放均摊到人头约为1984磅,平均每班次200人。

而值得指出的是,该论文所阐述的一个例子:把TPU换成八块P100GPU,用同样的方式训练同一个Transformer达到同样的成绩,将会产生惊人的62.6万磅二氧化碳。这个结果虽然很震撼,但实际没有人会这样去做。

也就是说,用神经网络架构搜索训练一个两亿参数量的
Transformer,碳排放相当于生产五辆汽车再开十年,或者17个人活了一辈子,或者一架波音757从旧金山飞到纽约再返程一半航程的水平。

而Slashdot上则有网友用新能源汽车举例:

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图