用户登录

你在这里

2022年5月期刊俱乐部:力学中的机器学习:管理数据集和定义挑战问题

elejeune的照片

在过去的几年里,机器学习(ML)应用于力学问题的普及程度大大提高。这是我在2020年初制作的一张幻灯片中的一个数字,引用了文献中的几个例子——这张幻灯片已经过时了!所有这些作者(以及许多其他人)都发表了关于这个主题的新论文。

随着越来越多的研究人员将机器学习方法应用于力学问题,我认为两个方法学问题变得越来越重要:

1 .特定机制的挑战何时能够激发新的ML方法开发?即,机械数据有何特殊之处?

2我们应该如何存储和传播来自实验和模拟的精心策划的机械数据集?

在这个期刊俱乐部里,我将主要关注主题二。我真诚地希望,不仅能激发对这些主题的讨论,而且还能通过众包的方式将例子添加到我们一直在研究的开放获取力学数据集的非正式列表中(https://elejeune11.github.io/)。如果你知道一个适合这个列表的数据集,请使用这篇文章的评论部分让我知道,我会添加它。此外,围绕文献中的共同主题,为研究和教育提供新的基准数据集的想法也将是一个受欢迎的贡献。

1.最近机器学习在力学中的应用的背景材料和例子

如果你是机器学习主题的新手,并且有力学背景,也许最好的起点是Miguel Bessa在2020年2月的Journal Club帖子标题“力学中的机器学习:简单的资源,例子和机会”(https://万博manbetx平台m.limpotrade.com/node/23957)。米格尔去年还做了一个精彩的演讲,介绍了他对机器学习/力学界面研究的一些贡献,目前可以在YouTube上找到(https://www.youtube.com/watch?v=GWpeGFFXZSM),其中包括几个鼓舞人心的例子,说明ML如何在该领域产生影响。2021年11月,高伟还在Journal Club发表了一篇非常有趣且内容丰富的文章,专注于将机器学习应用于原子材料建模(https://万博manbetx平台m.limpotrade.com/node/25544)。

最近有很多关于机器学习和机制界面的研究活动,所以我将它们放在这篇博文之外进行总结。然而,从一个非常普遍的角度来看,我想强调几个共同的主题:

*多尺度建模、设计、逆向分析、优化和/或不确定性量化的监督学习(https://doi.org/10.1007/s00158-001-0160-4https://doi.org/10.1021/acsnano.1c06340, https://doi.org/10.1039/C8MH00653Ahttps://doi.org/10.1016/j.matdes.2020.108509https://doi.org/10.1016/j.cma.2020.113362https://doi.org/10.1137/20M1354210https://doi.org/10.1039/D0ME00020E

*基于ml的本构建模(https://doi.org/10.1061/(第3期)0733 - 9399 (1991)117:1 (132)https://doi.org/10.1016/j.cma.2018.11.026https://doi.org/10.1115/1.4052684https://doi.org/10.1016/j.cma.2021.114217https://doi.org/10.1038/s41524-022-00752-4

*物理学为神经网络(pinn)提供正向和反向问题(https://doi.org/10.1016/j.jcp.2018.10.045https://doi.org/10.1038/s42254-021-00314-5

*机器学习辅助材料表征和发现(https://doi.org/10.1016/j.matchar.2019.109984https://arxiv.org/abs/2111.05949

在这些主题中,机器学习方法已应用于生物力学(https://doi.org/10.1038/s41746-019-0193-yhttps://doi.org/10.1007/s10237-019-01190-whttps://doi.org/10.1007/s10237-018-1061-4https://doi.org/10.1016/j.cma.2022.114871https://doi.org/10.1016/j.jbiomech.2020.110124)、增材制造(https://doi.org/10.1038/s41524-021-00548-yhttps://arxiv.org/abs/2204.05152),以及机械设计(https://arxiv.org/abs/2202.09427https://doi.org/10.1002/adfm.202111610https://doi.org/10.1016/j.cma.2020.113377https://doi.org/10.1016/j.jmatprotec.2022.117497)。同样,这里引用的论文是文献的一小部分。我强烈鼓励任何有特别相关论文或其他主题的人在评论中分享!

1-REMARK。当前的数据管理和传播实践

目前,大多数将机器学习方法应用于力学问题的论文都将这些方法展示在独特的和私有的数据集上。一方面,这是一种合乎逻辑的方法,因为力学领域是如此多样化,每个人都在研究一个利基领域,可能与其他最近发表的工作没有实质性的科学重叠。另一方面,这种方法可能是有限的,因为它很难定量地比较不同的方法并获得集体知识。例如,什么类型的机器学习模型和机器学习模型架构/超参数是基于机械数据进行预测的最佳起点并不一定清楚。

通过定义用于ML/力学界面研究的基准数据集和基准问题来解决这个问题的兴趣越来越大。例如,在2019年美国国家科学基金会计算力学视觉研讨会上,这个话题被多次提出(见报告:https://micde.umich.edu/nsf-compmech-workshop-2019/)。也有许多相关的努力,包括材料基因组计划(https://www.mgi.gov/)、物料计划(https://materialsproject.org/)、NanoMine (https://materialsmine.org/wi/home)、DIC挑战赛(https://idics.org/challenge/)、美国空军研究实验室增材制造建模挑战系列(https://materials-data-facility.github.io/MID3AS-AM-Challenge/),以及Sandia压裂挑战赛(https://doi.org/10.1007/s10704-019-00361-1)。这些努力帮助研究界组织数据,并确定有效的方法来应对来自多个候选可能性的挑战。至关重要的是,资助机构也对数据管理和传播产生了兴趣(例如,在美国,NSF最近的一封致同事信中提到了这一点)https://www.nsf.gov/pubs/2019/nsf19069/nsf19069.jsp)。而且,最近有一些启动的项目来解决缺乏基于开放获取机制的数据集(例如,https://pamspublic.science.energy.gov/WebPAMSExternal/Interface/Common/ViewPublicAbstract.aspx?rv=f364982b-b455-4161-83e2-ef1cb1846f93&rtc=24&PRoleId=10)。这篇Journal Club文章的目的是促进对这个话题的进一步讨论。

2.基准数据集的影响和其他领域的挑战问题

目前在力学研究中流行的许多机器学习算法(例如,卷积神经网络)的发展在很大程度上是由计算机视觉中的问题所驱动的。(然而,作为一个简短的旁注:流行的主成分分析算法是受到力学中类似问题的启发!https://en.wikipedia.org/wiki/Principal_component_analysis#History)。计算机视觉一直是ML方法的主要应用的原因之一是,有多个现成的基准数据集专注于计算机视觉中的问题。例如:

* MNIST (https://en.wikipedia.org/wiki/MNIST_database)是70K (60K训练,10K测试)标记的手写数字的集合,从0到9,每个数字被描述为一个28x28的输入位图。这个数据集足够小,可以在标准的笔记本电脑上下载和分析,并且经常用作ML教程中的示例数据集。

* ImageNet (https://en.wikipedia.org/wiki/ImageNet)是超过1400万标签图像的集合,根据类别定义具有1K-20K类别。值得注意的是,该数据集是“ImageNet大规模视觉识别挑战赛”(https://www.image-net.org/challenges/LSVRC/),这标志着机器学习模型的预测能力取得了重大突破。尽管超出了本期刊俱乐部的范围,但这个庞大数据集的发展历史相当有趣(https://www.historyofdatascience.com/imagenet-a-pioneering-vision-for-computers/)。

除了这两个可能是最广为人知的例子之外,还有许多人努力为不同类别的ML相关挑战定义基准问题。例如:

*场景流基准数据集:https://lmb.informatik.uni-freiburg.de/resources/datasets/SceneFlowDatasets.en.html

*数据分布转移基准数据集:https://wilds.stanford.edu/datasets/

*还有许多其他的:https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

总的来说,这些数据集的可访问性极大地促进了研究和教育。例如,如果您想学习如何实现卷积神经网络,您可以下载带有一行代码的MNIST,并在几分钟内学习如何在数据集上训练已建立的ML模型。另外,如果您对ML算法有一个新的想法,您可以很容易地将您的方法与文献中定义的其他方法进行比较。这有点类似于在流行的基准问题上评估新的机械模拟方法(例如,Cook 's Membrane, Lee's Frame, Patch test)。

2-REMARK。依赖基准数据集的局限性

当然,除了开放访问基准数据集的好处之外,过度依赖它们也有许多潜在的限制。首先,与现实世界的挑战相比,基准数据集可能“容易”,因此如果算法在这些数据上表现良好,可能会给研究人员带来一种虚假的成就感。为了解决这个问题,已经有了多种努力来管理和传播更具挑战性的数据集。例如,Fashion MNIST数据集(https://github.com/zalandoresearch/fashion-mnist)是作为一个更具挑战性的替代MNIST而创建的。此外,ImageNet大规模视觉识别挑战赛于2017年退役,以促进3D图像分析等更具挑战性的问题。其次,基准数据集可能包含奇怪的怪癖和/或严重的偏差,然后由ML模型学习。例如,如果在面部识别基准数据集中某些人口统计数据的比例很低,那么所得到的ML模型随后可能会表现出有偏见的预测。在力学数据集的背景下,获取偏差也是一个重要的问题,特别是对于有很多机会无意中添加虚假特征的实验数据(例如,全场图像的可变照明条件)。总的来说,重要的是要认识到,在解决现实世界挑战的背景下,对单个基准任务的高精度仍然需要进行严格的评估。

3.挑战与机遇:处理力学问题的数据集

如前一节所述,基准数据集在其他领域实现了重大的方法进步。现成的基准数据集能否在预测机械行为方面实现方法上的进步?在这个Journal Club中,我还想借此机会思考更大的问题:精心策划和可访问的力学数据集能否带来前所未有的发现?

3 a。用于展示和评估计算方法的基准数据集

尽管力学和机器学习界面的研究越来越受欢迎,但对于哪种机器学习方法在力学问题上表现最好,还没有一个清晰的图景。由于大多数研究人员报告的是他们在私有数据集上的调查结果,因此很难(1)在调试ML模型实现时直接重现结果,以及(2)直接比较不同方法的性能,因为误差指标将在不同的数据集上报告。这限制了那些想要开发新方法并证明他们提出的方法超过了最先进水平的研究人员。而且,对于那些方法不可知的研究人员来说,它是有限的,他们只是想使用最好的可用工具来解决一个特定的问题。

在我们的研究小组中,我们最近在解决缺乏基准数据的问题上迈出了一小步。具体来说,我们基于精心策划的有限元模拟数据创建了多个开放获取数据集,并在知识共享署名-相似方式共享4.0许可下将这些数据集发布在网上,以便其他人可以免费下载并用于自己的研究。在我们的第一个数据集集合中,我们直接从上面描述的MNIST数据集中获得灵感,并创建了“机械MNIST”集合。在建立这个数据集集合时,我们的目标是利用著名的MNIST数据集的优势(小到足以在标准计算机上管理,大到足以有意义地训练神经网络),并创建一个与力学研究相关的玩具问题。因此,我们的初始数据集涉及将28x28 MNIST输入位图处理为异质材料块(硬嵌入数字,软背景矩阵),并根据不同的边界条件变形这些域。在我们最初策划的数据集中,每个输入位图都映射到多个输出:全场位移,应变能变化和反作用力。从那时起,我们对这些主题进行了扩展,包括:多个仿真保真度,时尚MNIST输入位图模式,具有相场断裂的模拟和Cahn-Hilliard输入位图模式。

迄今为止,该数据集包括:

*机械MNIST -单轴扩展https://open.bu.edu/handle/2144/38693

*机械MNIST -等双轴延伸https://open.bu.edu/handle/2144/39428

*机械MNIST -剪切https://open.bu.edu/handle/2144/39429

机械MNIST -受限压缩https://open.bu.edu/handle/2144/39427

*机械MNIST -多保真度https://open.bu.edu/handle/2144/41357

*机械MNIST -时尚https://open.bu.edu/handle/2144/41450

*机械MNIST -裂纹路径https://open.bu.edu/handle/2144/42757

*机械MNIST - Cahn-Hilliardhttps://open.bu.edu/handle/2144/43971

在发布这些数据集的同时,我们还探索了不同的机器学习方法来预测异构域的机械行为。例如,我们将迁移学习视为一种利用低保真度模拟数据的方法(https://doi.org/10.1016/j.jmbbm.2020.104276),我们设计了一个神经网络架构,专门用于预测感兴趣的全场量,如全场位移、应变和损伤场(https://doi.org/10.1016/j.eml.2021.101566),我们已经探索了生成对抗网络(Generative Adversarial Networks)在增强小型训练数据集(https://arxiv.org/abs/2203.04183)。对于所有的努力,我们将我们的方法结果简单地视为基线-我们预计在未来几年将引入新的ML算法,可以超越这些方法的性能。除了机械MNIST收集之外,我们还发布了两个专注于不同问题的数据集:

*屈曲失稳分类(BIC) -https://open.bu.edu/handle/2144/40085-一个简单的基于力学的分类数据集,我们预计它将是一个最相关的教育例子(https://doi.org/10.1016/j.cad.2020.102948)。

*不对称屈曲柱(ABC)https://open.bu.edu/handle/2144/43730-另一个具有复杂几何列的分类数据集,我们使用它来探索基于图形神经网络的方法来预测机械行为(https://arxiv.org/abs/2202.01380)。

尽管这些数据集的多样性,我们敏锐地意识到,这些例子只涵盖了力学研究人员感兴趣的问题的一小部分(例如,在我们的数据集中没有耦合问题的当前例子,我们还没有创建任何这些数据集的实验版本)。为此,我们也一直致力于一个非正式的开放获取力学数据集列表(https://elejeune11.github.io/总结了我们和其他人在这一领域的工作。到目前为止,同事们已经分享了用于软组织本构模型的实验数据示例(见:https://doi.org/10.1016/j.actbio.2020.12.006https://doi.org/10.1016/j.jmbbm.2020.104216,https://doi.org/10.1016/j.actbio.2019.10.020),以及通过高通量实验粉碎增材制造的不同几何形状的十字桶(https://doi.org/10.1126/sciadv.aaz1708)。如前所述,我们很乐意在此列表中添加其他数据集-如果您知道未包含的相关数据集,请将其添加到本文的评论中或通过电子邮件与我们联系。

3 b。为机械发现策划的数据集

正如Journal Club最近发表的文章所示,游戏机制中不乏有趣且未解决的问题。不仅有许多新型材料和结构,而且还有具有可变力学行为的材料,在它们被认为是很好的理解之前,需要进行广泛的研究(例如,增材制造材料,复杂复合材料,生物组织)。而且,结构级非线性力学响应的许多方面仍然知之甚少或尚未被发现。同时,我们已经达到了实验和计算技术能够为单个研究生成大量数据的地步(例如,实验设置中的全场变形,计算设置中的高保真有限元模型)。而且,研究人员已经开发出了令人印象深刻的框架,用于进行产生大量数据集的高通量实验(https://doi.org/10.1126/sciadv.aaz1708https://doi.org/10.1016/j.matt.2021.12.017)。

在前一节中,我介绍了将精心策划的数据集传播到ML模型的基准测试。然而,机械数据管理和开放获取传播的真正潜力远远不止于此。机器学习方法可以用来发现数据集内部或跨数据集的模式吗?机器学习方法可以用来创建具有不同输入数据流的预测模型吗?我们已经看到了使用无监督机器学习方法来识别已实现数据模式的一些潜力(例如,https://doi.org/10.1016/j.matchar.2019.109984https://doi.org/10.1016/j.cma.2016.04.004)。而且,我们已经看到了令人印象深刻的结果,研究人员已经开发了系统行为的多尺度和多保真度预测框架(例如,https://doi.org/10.1002/aenm.202003908https://doi.org/10.1016/j.jmatprotec.2021.117485)。如果更多精心整理的机械数据可以广泛获得,那将会发生什么?除了机器学习应用之外,访问各种机械数据集是否有助于验证或伪造机械行为的理论预测?机械数据集的开放会为超材料设计带来新的方向吗?在许多系统中,力学与其他领域相耦合,或者力学行为随时间变化,人们对这些系统的理解仍然很差。开放访问不同条件下的机械数据集是否能够实现前所未有的预测建模?

4.讨论问题

这个Journal Club的目标是促进关于为ML应用程序和其他应用程序策划基于机制的数据集的讨论。以下是一些额外的讨论问题:

*哪些资源或即将召开的会议是其他人了解更多主题的好机会?

*对于那些对机器学习在解决机械问题上的效用持怀疑态度的人(例如:https://arxiv.org/abs/2112.12054),什么会让你印象深刻?你能设计一个数据集、问题陈述或基准挑战问题,在这些问题中,基于ML的预测将会有影响吗?

*对于每个人,你希望在未来看到什么类型的基准数据集?新的基准数据集和相关的挑战问题应该包含什么?

*管理数据集是时间、劳动和资源密集型的(例如,参见FAIR指南)https://www.go-fair.org/fair-principles/https://sites.bu.edu/lejeunelab/files/2022/04/Lejeune_Data_Management_Plan.pdf有限的资源(例如,时间,金钱,存储空间)应该分配给这些努力吗?

*对机械数据进行格式化最有用的方法是什么?每个数据集应该附带哪些必要的元数据?

*什么时候对数据进行管理和保存是有意义的,什么时候是不必要的(例如,单个FEA模拟可以产生GB的数据)?

*是否有其他领域的数据存储库的例子,可以适应/模拟力学问题?例如,材料基因组计划(https://www.mgi.gov/)。

*你认为基准数据集在力学教育中的作用是什么?例如,对于对力学/机器学习界面研究感兴趣的一年级研究生来说,基准数据集是一个很好的资源吗?教育基准数据集应该包含哪些内容?

*您是否有一个公开可用的数据集,我们可以添加到这个非正式的机械数据列表中(https://elejeune11.github.io/)?如果有的话,我很乐意把它包括进去!

作为一个简短的说明,同事Juner Zhu, M. Khalid Jawed, Hongyi Xu和我正在SES 2022上组织一个关于“复杂多物理场系统,结构和材料的数据驱动方法”的小型研讨会。摘要提交现已开放,请考虑加入我们的SES,继续讨论力学/ML接口的研究(专题讨论会3.3)https://na.eventscloud.com/eSites/658176/Homepage)。

最后,请随时分享其他论文,感兴趣的方法和其他即将发生的事件。这个领域发展如此之快,有很多精彩的例子需要强调,我在上面没有包括。

以下是对2022年5月期间本杂志俱乐部所提供的一些额外资源的快速总结-感谢所有参与的人!

*我们将数据集8-13添加到非正式列表(https://elejeune11.github.io/) -感谢大家的建议+请继续联系,如果你有更多的例子,将是合适的!

* Ajay提到DesignSafe数据仓库(https://www.designsafe-ci.org/data/browser/public/),这是自然灾害相关数据集的绝佳资源。他在2022年6月的Journal Club文章中也进一步讨论了这个话题(https://万博manbetx平台m.limpotrade.com/node/26009)。

* Steve链接了几个社区相关的社区资源:(1)IACM机械机器学习和数字孪生会议(https://mmldt.eng.ucsd.edu/home)、(2)短期力学机器学习课程(https://mmldtshortcourse.weebly.com/lecture-notes.html), (3) LLNL关于数据驱动物理模拟的系列研讨会(https://data-science.llnl.gov/latest/news/virtual-seminar-series-explores-data-driven-physical-simulations

*总的来说,许多人都在评论中表达了他们是如何与机制数据集互动的!请查看它们,并在适当的时候继续贡献。

评论

马库斯·j·比勒的照片

感谢艾玛的深思熟虑和信息丰富的帖子!我认为你很好地总结了挑战和机遇。在我看来,这可能会在即将到来的SES会议上引发一场激烈的讨论。另一个合作领域可能是为G级甚至UG级学生开发课程——特别是因为我们的许多学生将来会接触到这些工具。明年我将在麻省理工学院开设一门课程,我很乐意与你们讨论和交换笔记。

elejeune的照片

感谢Markus的评论!在即将举行的会议上进一步讨论ML/力学课程的这些挑战和方面将是非常棒的-我期待听到你在麻省理工学院的计划!

Ajay B Harish的照片

非常感谢你在这里发起的精彩讨论,艾玛。你问了一些关于数据可用性和共享的非常合理的问题。最近几天,我们在美国对此进行了很多讨论,包括共享模拟数据的最佳实践和旨在重现性。只是想分享一下我的一些想法。

1.我研究的领域之一是自然灾害建模。由美国国家科学基金会资助的“设计安全”(https://www.designsafe-ci.org/data/browser/public/)开发了一个专门用于共享数据集的数据门户。我认为DesignSafe已经存在了6-7年,并且相当成功。您可以看到正在共享的数据量。这是非常了不起的。也许你可以给这个加个链接。

2.我们一直在讨论的与数据共享和管理数据库相关的另一个障碍是许多教师这样做的“动机”。共享一个可以使用的数据集需要相当多的工作来组织和记录它们。管理一个高质量的数据集所需要的努力几乎和发表一篇期刊论文一样多。几乎一直以来,出版物都是衡量的标准,而随之而来的问题是分享这些数据的动机。我想你提出了同样的观点,这些都是劳动密集型的任务。大多数PI希望他们的学生/博士后专注于出版物/专利,而不是管理数据集。这是可以理解的,我们需要问一下,如果我们让这些年轻的研究人员花时间在这些问题上,他们是否会受益。我想这是一些很难回答的问题。

3.这在可重复性方面也很重要。有些论文甚至来自知名的团队,但往往不容易复制,因为我们可能没有与之相关的代码或他们使用的数据。今天,许多ASCE期刊要求作者提供他们论文中使用的数据集。我们最近遇到了这样的情况:一篇论文的作者多次要求我们提供数据和代码来与我们的工作进行比较,但他始终没有回应。我坚持每周写一次。我最终找到了编辑,他也写了几次,但没有任何用处。如果作者不回应,仅仅写一行我们将在合理的要求下提供,就显得有些无用。我想知道在这种情况下,编辑是否可以提前一步删除那些缺乏合规性的论文?或者,我们可以说作者必须在发布之前将数据放在像Zenodo这样的存储库中。 This way, it can only be updated but not deleted.

4.我认为基准数据集非常重要。但即使是机制社区本身也是如此之大,我想知道这样一个存储库是否可能?一些甚至可能与iMechanica计划有关的东西?万博manbetx平台但问题又来了,谁来控制质量?如果它是一个没有同行评审的开放回购,那么你可以添加任何东西。但如果是同行评议,如何才能有效地做到这一点?

5.我确实认为这也会对教育产生重大影响。学生可以找到很好的资源来比较他们的工作,并相信这是一个存储库。但就像第4章一样,创造这些可能是下一个难题。

elejeune的照片

谢谢Ajay这篇非常有见地的文章!我很高兴听到其他人一直在讨论这个话题。针对您的评论:

1.谢谢分享这个链接!在浏览可用的数据集时,看起来“设计安全- ci:自然灾害工程研究基础设施(NHERI)”和“力学”之间有一个很好的交叉!除了许多自然灾害侦察数据的例子外,乍一看(我只滚动了2022-2021),我可以找到:

* uwa - uw钢筋混凝土墙数据库:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2430

*渥太华F50和F65砂的直接单剪试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2911

*轴向荷载桩液化下拉离心试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2828

*七层钢筋混凝土结构抗扭不规则振动台试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-1903

*层间细砂、粉砂和粘土的液化评价:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-1844

*斜向钢筋混凝土连接梁数据库:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3053

*LEAP-2020:在GWU进行的循环三轴和直接简单剪切试验;https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2557

*奥克兰大学:预制混凝土墙试验-灌浆连接:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2575

*基于可压缩性的锥贯仪校准室试验解释及相应的边界效应:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3475

*通过深度学习实现基于摄像头的建筑结构实时损伤识别:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3446

*合作研究:模拟超低周疲劳和地震及其他灾害的低三轴载荷下钢结构的裂纹扩展;https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3394

2.我认为你的分析是正确的——正如我小组的学生所证明的那样,准备一个数据集的过程是相当耗时的!然而,我确实认为这是值得花费的时间,因为在此过程中可以学到许多技能(例如,批判性地思考什么是重要的存储,文件应该如何格式化以提高效率,练习编写bash脚本,等等)。当然,我的学生可能不同意我的观点:)而且,对于那些不直接从事ML工作的人来说,在这样做时获得的技能可能不值得投入所需的时间。

3.听起来很令人沮丧!在过去两年发布这些数据集的过程中,有一件事让我越来越欣赏,那就是我自己的团队往往是我们之前数据管理努力的主要受益者。例如,如果一个新学生加入我们的小组,并想要在我们的数据上尝试ML方法,他们可以简单地去一个网站,发现它已经很好地为他们格式化,而不必追踪旧的存储驱动器:)。另外,谢谢你提到zenodo (https://zenodo.org/),这是一个很棒的数据共享资源!

4.这是一个很好的问题!一种解决方案可能是,如果数据集与手稿相关,则同行评审这些数据集作为出版过程的一部分。然而,更多的同行评议责任可能是现在任何人都不想要的。

5.我同意!这又回到了你最初的观点,即数据管理的时间和资源密集性。

Ajay B Harish的照片

我很高兴知道你发现DesignSafe数据库很有用。是的,它有很多来自土木、结构和海岸工程师的数据。这包括与实验和计算有关的数据。这些是你已经确定的一些很好的,我很高兴看到还有一个来自奥克兰的人的贡献!

在创建这些数据集时,您是否有要求学生遵循的模板?特别重要的是,要有一个标准的方法来做这些事情,以确保它们之间的一致性。

elejeune的照片

是的!再次感谢你的分享——它与这个话题非常相关!

关于遵循模板,我有四点意见:

1.因为我们位于波士顿大学,所以我们一直在使用OpenBU机构存储库(https://open.bu.edu/)。对于每次提交,我们都遵循OpenBU模板,其中包括缩略图,摘要,数据权限,数据集“集合”的层次结构以及相关代码的链接等组件(见附图)。

2.总的来说,我们一直遵循公平原则(https://www.go-fair.org/fair-principles/)。

3.到目前为止,我们的工作范围相对较小(即,我们共享中等大小的计算生成的数据集,研究人员可以快速下载输入文件和输出文件以用于训练ML模型)。因此,与广泛定义的力学数据相比,格式化这些特定数据集的难度要小得多。

4.对于我们最近的一个数据集(机械MNIST裂纹路径),我们实际上最终发布了两个版本的数据集:一个“精简”版本(https://open.bu.edu/handle/2144/42757),与机械MNIST收集的其他数据集的格式相匹配,以及“扩展”版本(https://datadryad.org/stash/dataset/doi:10.5061/dryad.rv15dv486),它提供了更多的灵活性,但代价是入门门槛略高。

你知道在这个方向上还有什么有用的资源吗?此外,我也很好奇您(或其他人)是否对上面提到的数据管理中的可访问性和灵活性权衡有什么想法。

谢谢你,艾玛。这是一个很棒的资源。这不是秘密,我是你的工作的超级粉丝,因为它一直是严谨的,因为它一直是创造性的。事实上,是你首先激励了我和我的实验室,让我保证未来所有的数据和代码都可以公开使用。在您的帮助下,我们已经制作了几套丰富的力学数据集,(生物)力学社区有望使用这些数据集向前发展。具体来说,我们提供了简单、纯粹的血凝块和右心室心肌剪切检测数据,任何人都可以免费下载和使用。收集干净准确的数据是困难的,需要投入大量的金钱和时间。因此,我们的希望是双重的:(i)我们希望人们可以直接使用我们的数据来告知医学模拟的本构模型,(ii)我们希望人们可以使用我们的数据作为基准,例如训练和验证新的机器学习算法。如果您对我们的工作感到好奇,请查看以下出版物以及我们的数据存储库,在那里您可以下载所有您想要的测试数据!!(非常感谢我的研究生Sotiris Kakaletsis和Gabriella Sugerman,他们收集并分析了这些数据):

总而言之,你的工作,包括这个期刊俱乐部,让我真正认识到共享数据的重要性,并帮助我认识到数据共享在确保我们工作的长期和更广泛的影响方面的关键作用。干得好,非常感谢你以身作则的领导。

elejeune的照片

非常感谢曼纽尔的溢美之词!感谢你分享你在实验室里做的关于开放获取力学数据集的精彩工作。三个简短的后续问题:

1.我想再次强调你的观点,即收集这些实验数据集所投入的金钱和时间——即使是像你分享的那些“大型”实验数据集,与其他领域的“大数据”相比,也相对较小。总的来说,我认为能够利用这些小型高质量数据集的ML方法(可能与标准模拟方法相结合)与力学领域非常相关。

2.我还认为,除了提供这些数据之外,您和您的团队还投入了大量额外的努力,使其他人可以通过文档(例如,https://dataverse.tdl.org/file.xhtml?fileId=105543&version=1.0)。

3.最后,我想指出的是,您通过“德克萨斯数据存储库”(https://dataverse.tdl.org/)。这似乎是一个很好的资源,对于那些与大学有联系的人来说德州数字图书馆(TDL)成员机构(https://dataverse.tdl.org/)。

jessicaz@andrew.cmu.edu的照片

感谢艾玛在这个令人兴奋的新研究课题上发表了如此有见地的讨论!许多研究人员开始在他们的研究中使用机器学习,但新的挑战问题和机遇是什么?你的文章非常全面地概述了机器学习在机制中的应用,特别是在数据集管理方面,同时也回答了这些问题。对于想要进入这个新兴研究领域的年轻人来说,这是一个很好的资源,有很多细节。我会把你的帖子分享给我实验室的学生和我在卡内基梅隆大学的教学班级。

elejeune的照片

杰西卡,谢谢你的评论。我希望你的学生也觉得这篇文章有帮助!有很多令人兴奋的研究正在进行,将机器学习应用于机制,人们有很多机会贡献新想法!

谢谢艾玛这篇非常有见地的文章!

我同意你的观点,仅仅发布这些数据集就能促进发现。只要看一下数据集的描述,我们就可以想出新的机器学习技术来解决这个特殊的问题。

我还想指出,这些数据集的可用性为来自资源较少的大学的研究人员提供了公平的竞争环境,这些大学可能无法使用超级计算机来运行数千个模拟或精确的实验设置。这样的举措可能会增加对力学和机器学习交叉感兴趣的研究人员的数量,这对该领域只会有益。

最后,我想提到一个来自不同成像方式的心脏应变估计领域的基准数据集:https://doi.org/10.1016/j.media.2013.03.008。该基准已被许多其他研究人员使用,并已成为比较心脏图像配准算法的金标准数据集。尽管许多应用与成像直接相关,但在成像+机器学习+力学的交叉点上有令人难以置信的机会,其中一些我们正在努力!

elejeune的照片

谢谢Francisco的观点!在回应:

1.是的!我期待着看到未来有创造性的方法,也许是更广泛地访问基于力学的数据集所带来的更普遍的见解。希望数据共享可以增加不同专业知识的研究人员之间的协同作用。

2.特别感谢你提出这一点!我完全同意——有很多不同的和创新的方法来利用对机制的基本理解和创造性的想法来修改开源ML软件,这些软件的实施成本比最初的数据生成步骤要低。

3.感谢分享这个基准数据集!对于其他可能感兴趣的人,数据集是通过“心脏图谱项目”托管的。http://www.cardiacatlas.org/它有一个特殊的“运动追踪挑战”http://www.cardiacatlas.org/challenges/motion-tracking-challenge/

最后,我非常期待看到你们小组在成像+机器学习+力学交叉领域的更多研究成果!

孙外庆的照片

嗨,Emma,感谢您分享您对这个重要主题的看法,并感谢您花费自己的时间和精力率先提供基准数据。

你关于共享数据和使用相同数据进行基准测试的评论是正确的。如果没有基准数据库,几乎不可能对不同的ML模型进行公平和有意义的比较。当我们写论文时,我们倾向于关注所提出方法的优点和承诺,而不是使工作可重复性和健壮性,这一点听起来并不总是令人兴奋,但实际上非常重要,这使得这一点变得复杂。

我认为用开源数据建立一组基准问题以进行验证和测试是解决这个问题的一步。我还认为,开源模型或至少报告重现出版物中报告的确切结果所需的所有详细设置,对于确保所提议方法的可重复性、可解释性、透明度和最终的可信度非常重要。如果没有这些积极的措施,通常很难判断一个模型是真的做得非常好,还是(有意/无意)挑选的产物。

我也试图就你列出的问题提供我的想法,以防有用。

*哪些资源或即将召开的会议是其他人了解更多主题的好机会?

IACM现在推出了一个关于机械机器学习和数字孪生的新会议。第一次是去年在圣地亚哥https://mmldt.eng.ucsd.edu/home。明年还会有第二场。

在教育资源方面,在NSF的支持下,我和JS Chen教授开设了一门关于力学中最基础的机器学习的课程。视频、讲座、幻灯片、Jupyter笔记本都可以免费下载。

https://mmldtshortcourse.weebly.com/lecture-notes.html

还有其他来自计算机科学和力学社区的同事也发布了很棒的材料。例如,利弗莫尔DDPS研讨会:

https://data-science.llnl.gov/latest/news/virtual-seminar-series-explores-data-driven-physical-simulations

*对于那些对机器学习在解决机械问题上的效用持怀疑态度的人(例如:https://arxiv.org/abs/2112.12054),什么会让你印象深刻?你能设计一个数据集、问题陈述或基准挑战问题,在这些问题中,基于ML的预测将会有影响吗?

我认为这两种方式都很容易被过度概括。从证据或个人经验的小样本推断,肯定有炒作和悲观。

例如,在蛋白质折叠方面已经有了成功的案例。似乎困难不在于到处展示一些成功的故事,而在于建立普遍接受的度量标准,以便比较不同的模型/方法/范例,并在建模者/用户/涉众之间建立信任。

在本构模型领域,我们已经做了一个小小的尝试,通过使用人工智能来建立信任,利用强化学习来暴露给定模型的潜在弱点(见下文)。我们的想法是引入一个对抗代理来探索加载路径,并使用强化学习来确定模型倾向于表现不佳的加载类型。然后,这些信息可以用于重新培训,以便可以(潜在地)解决弱点。

https://www.sciencedirect.com/science/article/pii/S004578252030699X?dgcid=rss_sd_all

我认为这可能有助于提高模型的透明度,并避免通过第三方验证来挑选。然而,我认为让社区使用相同的基准数据集(如Sandia挑战)可能是一种更好的前进方式。

*对于每个人,你希望在未来看到什么类型的基准数据集?新的基准数据集和相关的挑战问题应该包含什么?

我认为你提供的数据集很棒。我希望看到高质量的数据超越弹性,比如那些涉及断裂、损伤、孪生和可塑性的数据。涉及逆向设计的数据(参见Kumar, Tan, Zheng和Kochmann 2020)https://www.nature.com/articles/s41524-020-0341-6而那些有趣的微观结构也很棒。

*管理数据集是时间、劳动和资源密集型的(例如,参见FAIR指南)https://www.go-fair.org/fair-principles/https://sites.bu.edu/lejeunelab/files/2022/04/Lejeune_Data_Management_Plan.pdf有限的资源(例如,时间,金钱,存储空间)应该分配给这些努力吗?

是的。我认为这是必要的。

*对机械数据进行格式化最有用的方法是什么?每个数据集应该附带哪些必要的元数据?

出于实际原因,以表格式存储的数据易于使用和共享。

*什么时候对数据进行管理和保存是有意义的,什么时候是不必要的(例如,单个FEA模拟可以产生GB的数据)?

是否保留数据取决于机会成本以及它对工作流的重要性。然而,我认为在大多数情况下,也有必要保留训练好的模型,以便在将来需要时对其进行验证。

*你认为基准数据集在力学教育中的作用是什么?例如,对于对力学/机器学习界面研究感兴趣的一年级研究生来说,基准数据集是一个很好的资源吗?教育基准数据集应该包含哪些内容?

绝对的。困难在于生成数据本身是非常机械的,一年级学生可能会被课程作业和学习如何做研究压垮。

*您是否有一个公开可用的数据集,我们可以添加到这个非正式的机械数据列表中(https://elejeune11.github.io/)?如果有的话,我很乐意把它包括进去!

我们在研究组的网页和Mendeley网站上发布了一些数据和代码。

https://www.poromechanics.org/software--data.html

elejeune的照片

史蒂夫,谢谢你非常全面和周到的帖子!现在我们已经跨过了一个门槛,在评论区有比原始博客条目更多的信息:)作为对你的一些观点的回应:

1.感谢您分享关于未来MMLDT会议的信息-我去年秋天参加了MMLDT- cset 2021,这是一个了解该领域更多信息的绝佳机会!我也很高兴看到短期课程的笔记是免费下载的——这是一个非常宝贵的资源。分享利弗莫尔DDPS研讨会的录音也提醒了我,你和克里希纳组织的2020年“科学与工程机械轨道中的机器学习”的录音也可以在YouTube上找到:https://www.youtube.com/channel/UCCiwSYhLPtUU3schrt4xviA

2.你关于炒作vs.悲观的观点表述得很好,我认为你分享的文章“一个非合作的元建模游戏,用于自动第三方校准,验证和伪造并行对抗性攻击的本构律”确实强调了挑战我们的建模框架的重要性——无论是基于ML还是基于非ML的模型。我强烈建议大家都去看看!

3.我同意这一点——如果能看到未来的基准数据集集中在多种类型的非线性力学行为和具有挑战性的微观结构上,那就太好了。我认为,如果ML方法在简单的力学问题(如机械MNSIT)上表现良好,那么更多地访问这些相当复杂的数据将有助于推动“特定于力学”的ML方法的发展。

4.谢谢你提出的关于存储训练过的ML模型的观点!除了对未来的验证有用之外,训练好的ML模型也可能对以下方面有用转移学习,尽管在许多机械数据的情况下,这可能并不简单。

5.最后,感谢您分享您实验室软件+数据的链接!刚才,我添加了离散元素牵引分离数据的集合https://data.mendeley.com/datasets/n5v7hyny8n/1(手稿:https://doi.org/10.1016/j.cma.2018.11.026)加入非正式名单!

订阅“2022年5月期刊俱乐部:力学中的机器学习:管理数据集和定义挑战问题”的评论

最近的评论

更多的评论

辛迪加

认购辛迪加