用户登录

你在这里

2022年5月期刊俱乐部:力学中的机器学习:管理数据集和定义挑战问题

elejeune的照片

在过去的几年里,机器学习(ML)应用于力学问题已经得到了广泛的普及。以下是我在2020年初制作的幻灯片中的一个数字,参考了文献中的一些例子——这张幻灯片已经感觉过时了!所有这些作者(以及许多其他作者)都发表了关于这个主题的新论文。

随着越来越多的研究人员将ML方法应用于力学问题,我认为有两个方法学问题变得越来越重要:

I.什么时候针对机制的挑战会激励新的ML方法开发?也就是说,机械数据有什么特殊之处?

而且

2我们应该如何存储和传播来自实验和模拟的机械数据集?

在这个日记俱乐部,我将主要关注主题二。我真诚地希望,不仅能激发对这些主题的讨论,而且还能众包示例,以添加到我们一直在研究的开放获取机制数据集的非正式列表中(https://elejeune11.github.io/).如果你知道适合这个列表的数据集,请在这篇文章的评论部分告诉我,我会添加它。此外,围绕文献中的共同主题,为研究和教育提供新的基准数据集的想法也将是一个受欢迎的贡献。

1.背景材料和最近ml在力学中的应用实例

如果你是ML主题的新手,并且有力学背景,也许最好的起点是Miguel Bessa 2020年2月期刊俱乐部的帖子标题“力学中的机器学习:简单的资源,例子和机会”(https://万博manbetx平台m.limpotrade.com/node/23957).Miguel去年也做了一个很棒的演讲,关于他在ML/Mechanics界面研究方面的一些贡献,目前可以在YouTube上看到(https://www.youtube.com/watch?v=GWpeGFFXZSM),其中包括几个鼓舞人心的例子,说明ML如何在该领域产生影响。在2021年11月,Wei Gao还在Journal Club发表了一篇非常有趣且信息丰富的文章,专注于将ML应用于原子材料建模(https://万博manbetx平台m.limpotrade.com/node/25544).

最近在机器学习和机制的界面上有太多的研究活动,所以我把它们都放在了这篇文章的范围之外。然而,从一个非常普遍的角度来看,我想强调几个共同的主题:

*用于多尺度建模、设计、逆向分析、优化和/或不确定性量化的监督学习(https://doi.org/10.1007/s00158-001-0160-4https://doi.org/10.1021/acsnano.1c06340, https://doi.org/10.1039/C8MH00653Ahttps://doi.org/10.1016/j.matdes.2020.108509https://doi.org/10.1016/j.cma.2020.113362https://doi.org/10.1137/20M1354210https://doi.org/10.1039/D0ME00020E

*基于ml的本构模型(https://doi.org/10.1061/(第3期)0733 - 9399 (1991)117:1 (132)https://doi.org/10.1016/j.cma.2018.11.026https://doi.org/10.1115/1.4052684https://doi.org/10.1016/j.cma.2021.114217https://doi.org/10.1038/s41524-022-00752-4

*物理通知神经网络(PINNs)的正向和反向问题(https://doi.org/10.1016/j.jcp.2018.10.045https://doi.org/10.1038/s42254-021-00314-5

* ml辅助材料表征和发现(https://doi.org/10.1016/j.matchar.2019.109984https://arxiv.org/abs/2111.05949

在这些主题中,ML方法已应用于生物力学(https://doi.org/10.1038/s41746-019-0193-yhttps://doi.org/10.1007/s10237-019-01190-whttps://doi.org/10.1007/s10237-018-1061-4https://doi.org/10.1016/j.cma.2022.114871https://doi.org/10.1016/j.jbiomech.2020.110124)、增材制造(https://doi.org/10.1038/s41524-021-00548-yhttps://arxiv.org/abs/2204.05152)、机械设计(https://arxiv.org/abs/2202.09427https://doi.org/10.1002/adfm.202111610https://doi.org/10.1016/j.cma.2020.113377https://doi.org/10.1016/j.jmatprotec.2022.117497).再次强调,这里引用的论文只是文献中的一小部分。我强烈鼓励任何有特别相关的论文或其他主题的人在评论中分享!

1-REMARK。当前数据管理和传播实践

目前,大多数将机器学习方法应用于力学问题的论文都在独特的私有数据集上展示了这些方法。一方面,这是一种合理的方法,因为力学领域是如此多样化,每个人都在一个利基领域工作,可能与其他最近发表的工作没有实质性的科学重叠。另一方面,这种方法可能有局限性,因为它很难定量地比较不同的方法并获得集体知识。例如,并不一定清楚哪种类型的ML模型和ML模型架构/超参数是基于力学数据进行预测的最佳起点。

通过定义基准数据集和ML/机制接口研究的基准问题,人们对解决这一问题越来越感兴趣。例如,在2019年美国国家科学基金会计算力学视觉研讨会上,这个主题被多次提出(见报告:https://micde.umich.edu/nsf-compmech-workshop-2019/).还有许多相关的努力,包括材料基因组计划(https://www.mgi.gov/)、物料计划(https://materialsproject.org/)、NanoMine (https://materialsmine.org/wi/home)、DIC挑战赛(https://idics.org/challenge/)、空军研究实验室增材制造建模挑战赛系列(https://materials-data-facility.github.io/MID3AS-AM-Challenge/),以及桑迪亚骨折挑战赛(https://doi.org/10.1007/s10704-019-00361-1).这些努力帮助研究界组织数据,并确定有效的方法来应对来自多个候选可能性的挑战。关键的是,资助机构也对数据管理和传播产生了兴趣(例如,在美国,NSF在最近的一封亲爱的同事信中提到了这一点https://www.nsf.gov/pubs/2019/nsf19069/nsf19069.jsp).而且,最近已经有一些启动的项目来解决基于开放访问机制的数据集的缺乏(例如,https://pamspublic.science.energy.gov/WebPAMSExternal/Interface/Common/ViewPublicAbstract.aspx?rv=f364982b-b455-4161-83e2-ef1cb1846f93&rtc=24&PRoleId=10).这篇杂志俱乐部文章的目的是促进关于这个话题的进一步讨论。

2.基准数据集的影响和其他领域的挑战问题

目前在力学研究中流行的许多ML算法(例如,卷积神经网络)的发展在很大程度上是由计算机视觉问题所驱动的。(然而,作为一个简短的边注:流行的主成分分析算法是受到力学中类似问题的启发!https://en.wikipedia.org/wiki/Principal_component_analysis#History).计算机视觉一直是ML方法的主要应用的原因之一是,有多个现成的基准数据集专注于计算机视觉中的问题。例如:

* MNIST (https://en.wikipedia.org/wiki/MNIST_database)是一个70K (60K训练,10K测试)标记的手写数字的集合,从0到9,每个都被描述为一个28x28输入位图。这个数据集足够小,可以在标准笔记本电脑上下载和分析,并且经常被用作ML教程中的示例数据集。

* ImageNet (https://en.wikipedia.org/wiki/ImageNet)是一个包含超过1400万张标签图像的集合,根据类别定义,分类为1K-20K。值得注意的是,该数据集是“ImageNet大规模视觉识别挑战”(https://www.image-net.org/challenges/LSVRC/),这标志着ML模型预测能力的巨大突破。虽然超出了本期刊俱乐部的范围,但这个庞大数据集的发展历史是相当有趣的(https://www.historyofdatascience.com/imagenet-a-pioneering-vision-for-computers/).

除了这两个可能是最广为人知的例子之外,还有许多人努力为不同类别的ML相关挑战定义基准测试问题。例如:

*场景流程基准数据集:https://lmb.informatik.uni-freiburg.de/resources/datasets/SceneFlowDatasets.en.html

*数据分布偏移基准数据集:https://wilds.stanford.edu/datasets/

*还有很多很多其他的:https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research

总的来说,这些数据集的可访问性极大地促进了研究和教育。例如,如果你想学习如何实现卷积神经网络,你可以用一行代码下载MNIST,并在几分钟内学习如何在数据集上训练一个已建立的ML模型。或者,如果您有一个关于ML算法的新想法,您可以很容易地将您的方法与文献中定义的其他方法进行比较。这有点类似于在流行的基准问题上评估新颖的力学模拟方法(例如,Cook 's Membrane, Lee's Frame, Patch test)。

2-REMARK。依赖基准数据集的局限性

当然,除了开放访问基准数据集的好处之外,过度依赖基准数据集也有许多潜在的限制。首先,与现实世界的挑战相比,基准数据集可能“容易”,因此如果算法在这些数据上表现良好,可能会给研究人员提供一种虚假的成就感。为了解决这个问题,已经进行了多项努力来策划和传播更具挑战性的数据集。例如,Fashion MNIST数据集(https://github.com/zalandoresearch/fashion-mnist)是作为MNIST更具挑战性的临时替代品而创建的。此外,ImageNet大规模视觉识别挑战赛于2017年退役,转而推广更具挑战性的问题,如3D图像分析。其次,基准数据集可能包含奇怪的怪癖和/或严重的偏差,然后由ML模型学习。例如,如果在面部识别基准数据集中,某些人口统计数据的比例很低,那么所得到的ML模型随后可能会显示出有偏见的预测。在力学数据集的背景下,获取偏差也是一个重要的问题,特别是对于实验数据,其中有许多机会无意中添加虚假特征(例如,全场图像的可变光照条件)。总的来说,重要的是要承认,在解决现实世界挑战的背景下,单个基准任务的高准确性仍然需要严格的评估。

3.挑战与机遇:针对力学问题的策划数据集

如前一节所述,基准数据集使其他领域的方法取得了重大进展。容易获得的基准数据集是否能够促进预测机械行为的方法进步?在这个Journal Club中,我也想借此机会思考更大的问题:精心策划和可访问的机制数据集能否带来前所未有的发现?

3 a。用于展示和评估计算方法的基准数据集

尽管力学和机器学习之间的研究越来越受欢迎,但尚不清楚哪种机器学习方法在力学问题上表现最好。由于大多数研究人员在私人持有的数据集上报告他们的调查结果,在调试ML模型实现时,很难(1)直接重现结果,(2)直接比较不同方法的性能,因为错误度量将在不同的数据集上报告。这限制了那些想要开发新方法并证明他们提出的方法超过了目前技术水平的研究人员。而且,对于那些方法不可知论者,只想使用最好的工具来解决特定问题的研究人员来说,这是有限制的。

在我们的研究小组中,我们最近采取了一小步来解决缺乏基准数据的问题。具体来说,我们基于精心策划的有限元模拟数据创建了多个开放获取数据集,并在知识共享署名sharealike 4.0许可下在线发布这些数据集,以便其他人可以自由下载并用于自己的追求。在我们的第一个数据集集合中,我们直接从上面描述的MNIST数据集中获得灵感,并创建了“Mechanical MNIST”集合。在建立这个数据集集合时,我们的目标是利用众所周知的MNIST数据集的好处(小到足以在标准计算机上管理,大到足以有意义地训练神经网络),并创建一个与力学研究相关的玩具问题。因此,我们最初的数据集涉及将28x28 MNIST输入位图处理为异质材料块(刚性嵌入数字,软背景矩阵),并根据不同的边界条件变形这些域。在我们最初的数据集中,每个输入位图都映射到多个输出:全场位移、应变能变化和反作用力。从那时起,我们已经扩展了这些主题,包括:多重模拟逼真度,时尚MNIST输入位图模式,相场断裂模拟和Cahn-Hilliard输入位图模式。

到目前为止,这个数据集包括:

*机械MNIST -单轴延伸https://open.bu.edu/handle/2144/38693

*机械MNIST -等双轴延伸https://open.bu.edu/handle/2144/39428

*机械MNIST -剪切https://open.bu.edu/handle/2144/39429

机械MNIST -受限压缩https://open.bu.edu/handle/2144/39427

*机械MNIST -多保真https://open.bu.edu/handle/2144/41357

*机械MNIST -时尚https://open.bu.edu/handle/2144/41450

*机械MNIST -裂纹路径https://open.bu.edu/handle/2144/42757

*机械MNIST - Cahn-Hilliardhttps://open.bu.edu/handle/2144/43971

在发布这些数据集的同时,我们还探索了不同的ML方法来预测异构结构域的力学行为。例如,我们已经将迁移学习作为一种利用低保真模拟数据的方法(https://doi.org/10.1016/j.jmbbm.2020.104276),我们设计了一个神经网络架构,专门用于预测感兴趣的全场量,如全场位移、应变和损伤场(https://doi.org/10.1016/j.eml.2021.101566),我们已经探索了生成对抗网络用于增强小型训练数据集(https://arxiv.org/abs/2203.04183).对于所有的努力,我们将我们的方法结果简单地视为基线-我们预计在未来几年将引入新的ML算法,这些算法的性能将超过这些方法。除了Mechanical MNIST集合,我们还发布了两个专注于不同问题的数据集:

*失稳等级(BIC) -https://open.bu.edu/handle/2144/40085-一个简单的基于力学的分类数据集,我们预计将是最相关的教育示例(https://doi.org/10.1016/j.cad.2020.102948).

*不对称屈曲柱(ABC) -https://open.bu.edu/handle/2144/43730-另一个具有复杂几何列的分类数据集,我们使用它来探索基于图神经网络的预测机械行为的方法(https://arxiv.org/abs/2202.01380).

尽管这些数据集的多样性,我们敏锐地意识到这些例子只涵盖了力学研究人员感兴趣的问题的一小部分(例如,在我们的数据集中没有耦合问题的例子,我们还没有创建任何这些数据集的实验版本)。为此,我们也一直致力于一个非正式的开放获取机制数据集列表(https://elejeune11.github.io/),总结了我们和其他人在这一领域的工作。到目前为止,同事们已经分享了用于软组织本构模型的实验数据的例子(见:https://doi.org/10.1016/j.actbio.2020.12.006https://doi.org/10.1016/j.jmbbm.2020.104216,https://doi.org/10.1016/j.actbio.2019.10.020),以及不同几何形状的增材制造交叉桶的高通量实验(https://doi.org/10.1126/sciadv.aaz1708).如前所述,我们很乐意在此列表中添加其他数据集-如果您知道没有包括的相关数据集,请将其添加到本文的评论中或通过电子邮件与我们联系。

3 b。用于机械发现的策划数据集

正如Journal Club最近的文章所表明的那样,力学中不乏有趣且未解决的问题。不仅有许多新型材料和结构,而且还有具有可变力学行为的材料,在被充分理解之前需要进行广泛的研究(例如,增材制造材料,复杂复合材料,生物组织)。而且,结构级非线性力学响应的许多方面仍然知之甚少或尚未被发现。同时,我们已经达到了实验和计算技术都能够为单一调查生成大量数据的地步(例如,实验设置中的全场变形,计算设置中的高保真有限元模型)。并且,研究人员已经开发了令人印象深刻的框架,用于进行生成大量数据集的高通量实验(https://doi.org/10.1126/sciadv.aaz1708而且https://doi.org/10.1016/j.matt.2021.12.017).

在前一节中,我介绍了传播精选数据集以对ML模型进行基准测试的情况。然而,机械数据管理和开放获取传播的真正潜力远远不止于此。ML方法是否可以用于在数据集内部或跨数据集发现模式?ML方法可以用来创建具有不同输入数据流的预测模型吗?我们已经看到了使用无监督ML方法来识别实现数据中的模式(例如,https://doi.org/10.1016/j.matchar.2019.109984而且https://doi.org/10.1016/j.cma.2016.04.004).而且,我们已经从研究人员那里看到了令人印象深刻的结果,他们已经开发了系统行为的多尺度和多保真预测框架(例如,https://doi.org/10.1002/aenm.202003908https://doi.org/10.1016/j.jmatprotec.2021.117485).如果有更多的机械数据可供广泛使用,会有什么可能呢?除了ML应用之外,访问不同的力学数据集是否有助于验证或证伪力学行为的理论预测?开放对机械数据集的访问会为超材料设计带来新的方向吗?许多力学与其他领域耦合的系统和/或力学行为随时间变化的系统仍然知之甚少。对不同条件下的机械数据集开放访问是否会实现前所未有的预测建模?

4.讨论问题

本期刊俱乐部的目标是促进关于ML应用程序和其他应用程序的基于数据集的管理机制的讨论。以下是一些额外的讨论问题:

*哪些资源或即将举行的会议是其他人了解该主题的好机会?

*对于那些怀疑ML在力学问题中的效用的人(例如,https://arxiv.org/abs/2112.12054),什么会让你印象深刻?你能设计一个数据集、问题陈述或基准测试挑战问题,其中基于ML的预测将是有影响力的吗?

*对于每个人来说,你希望在未来看到什么类型的基准数据集?新的基准数据集和相关的挑战问题应该包含什么?

*管理数据集是时间、劳动和资源密集型的(例如,参见FAIR指南https://www.go-fair.org/fair-principles/https://sites.bu.edu/lejeunelab/files/2022/04/Lejeune_Data_Management_Plan.pdf) -是否应该将有限的资源(即时间、金钱、存储空间)分配给这些努力?

*机械数据格式化最有用的方法是什么?每个数据集应该包含哪些必要的元数据?

*什么时候管理和保存数据是有意义的,什么时候是不必要的(例如,一个FEA模拟可以产生GB的数据)?

*是否有其他领域的数据存储库的例子,可以适应/模拟力学问题?例如,材料基因组计划(https://www.mgi.gov/).

*你认为基准数据集在力学教育中有作用吗?例如,对于一个对力学/ML接口研究感兴趣的一年级研究生来说,基准数据集是一个很好的资源吗?教育基准数据集应该包含什么?

*你是否有一个公开可用的数据集,我们可以添加到这个非正式的机械数据列表中(https://elejeune11.github.io/) ?如果是这样,我很想把它包括在内!

简要说明一下,我和同事Juner Zhu、M. Khalid Jawed、徐宏毅(Hongyi Xu)将在SES 2022组织一个关于“复杂多物理系统、结构和材料的数据驱动方法”的小型研讨会。摘要提交现已开放,所以请考虑加入我们在SES继续讨论力学/ML接口的研究(专题会议3.3https://na.eventscloud.com/eSites/658176/Homepage).

最后,请随时分享其他论文、感兴趣的方法和其他即将举行的活动。这个领域发展得如此之快,有很多我上面没有提到的例子值得强调。

以下是本次期刊俱乐部在2022年5月期间获得的一些额外资源的简要总结——感谢所有参与的人!

*我们将数据集8-13添加到非正式列表中(https://elejeune11.github.io/) -谢谢大家的建议+如果你有更多合适的例子,请继续与我们联系!

* Ajay提到DesignSafe Data Depot (https://www.designsafe-ci.org/data/browser/public/),是自然灾害相关数据集的绝佳资源。这个话题也在他2022年6月的期刊俱乐部帖子(https://万博manbetx平台m.limpotrade.com/node/26009).

* Steve链接到几个社区相关的社区资源:(1)机械机器学习和数字双胞胎的icacm会议(https://mmldt.eng.ucsd.edu/home)、(2)机械学ML短期课程(https://mmldtshortcourse.weebly.com/lecture-notes.html)、(3)LLNL数据驱动物理模拟系列研讨会(https://data-science.llnl.gov/latest/news/virtual-seminar-series-explores-data-driven-physical-simulations

*总的来说,很多人都发表了非常有思想的帖子来评论他们是如何与机制数据集互动的!请查看它们,并继续作出适当的贡献。

评论

马库斯·j·比勒的照片

感谢艾玛的体贴和信息丰富的帖子!我认为你很好地总结了挑战和机遇。在我看来,这可能会在即将到来的SES会议上引发一场大讨论。合作的另一个领域可能是为G甚至UG学生开发课程——特别是因为我们的许多学生在未来将接触到这些工具。明年我将在麻省理工学院开设一门课程,我很乐意与你们讨论并交换意见。

elejeune的照片

感谢Markus的评论!在即将到来的会议上进一步讨论ML/力学课程的这些挑战和方面将是非常棒的-我期待听到您在麻省理工学院的计划!

Ajay B Harish的照片

艾玛,非常感谢你在这里发起的这场精彩的讨论。你问了一些关于数据可用性和共享的非常合理的问题。最近几天,我们在这方面进行了很多讨论,包括共享模拟数据的最佳实践和可重复性。只是想分享一些我的想法。

1.我研究的一个领域是自然灾害建模。国家科学基金会资助的“设计安全”(https://www.designsafe-ci.org/data/browser/public/)开发了一个专门用于共享数据集的数据门户。我认为DesignSafe已经存在了6-7年,并且相当成功。您可以看到正在共享的数据量。这是非常了不起的。也许你可以给这个加个链接。

2.我们一直在讨论的与数据共享和管理此类数据库相关的另一个障碍是许多教师这样做的“动机”。要共享一个可用的数据集,需要相当多的工作来组织和记录它们。策划一个高质量的数据集所需要的努力几乎和发表一篇期刊论文一样多。几乎一直以来,出版物都是衡量的标准,随之而来的问题是共享这些数据的动机。我想你也提出了同样的观点这些都是劳动密集型的任务。大多数PI都希望他们的学生/博士后专注于出版物/专利,而不是管理数据集。这是可以理解的,我们需要问问这些年轻的研究人员,如果我们让他们花时间在这些研究上,他们是否会受益。我想这些问题很难回答。

3.这也是在可重复性的方向上。甚至有一些知名小组的论文往往不容易被复制,因为我们可能没有相关的代码或他们使用的数据。今天,许多ASCE期刊都要求作者提供他们论文中使用的数据集。我们最近经历了这样一件事:一篇论文的作者在反复要求我们提供数据和代码以与我们的工作进行比较时,从未做出回应。我坚持每周写作。我最终说服了编辑,他也写了几次,但没有任何用处。如果作者没有回应,那么仅仅写一行,我们将根据合理的要求提供它,感觉有点没用。我想知道编辑是否可以提前一步删除这些论文,因为在这种情况下不合规?或者,我们可以说作者必须在发布之前将数据放到像Zenodo这样的存储库中。 This way, it can only be updated but not deleted.

4.我认为基准数据集非常重要。但即使是机制社区本身也非常大,我想知道是否可能存在这样的存储库?甚至可能与iMechanica计划有关的东西?万博manbetx平台但问题又来了,谁来控制质量?如果它是一个没有同行评审的开放回购,那么人们可以添加任何东西。但如果是同行评议,如何才能高效地完成?

5.我确实认为这也会对教育产生重大影响。学生可以找到好的资源来比较他们的工作,并相信这是一个资源库。但像Pt. 4一样,创造这些可能是下一个难题。

elejeune的照片

感谢Ajay这篇非常有见地的文章!我很高兴听到其他人一直在讨论这个话题。针对你的评论:

1.谢谢你分享这个链接!在浏览可用的数据集时,看起来在“DesignSafe-CI:一个自然灾害工程研究基础设施(NHERI)”和“力学”之间有一个很好的交叉!除了许多自然灾害侦察数据的例子外,乍一看(我只滚动了2022-2021年),我可以发现:

*UoA-UW钢筋混凝土墙数据库:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2430

*渥太华F50和F65砂的直接单剪试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2911

轴向荷载桩液化下阻力离心试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2828

七层钢筋混凝土结构抗扭振动台试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-1903

*细密夹层砂、粉砂和粘土的液化评价:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-1844

*对角钢筋混凝土连接梁数据库:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3053

*LEAP-2020:在GWU进行的循环三轴和直接单剪试验:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2557

奥克兰大学:预制混凝土墙测试-灌浆连接:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-2575

基于压缩性的锥贯度仪校准室试验解释及相应的边界效应:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3475

*基于摄像头的建筑结构深度学习实时损伤识别:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3446

*合作研究:模拟地震和其他危害下钢结构在超低周疲劳和低三轴载荷下的裂纹扩展:https://www.designsafe-ci.org/data/browser/public/designsafe.storage.published/PRJ-3394

2.我认为你在这里的分析是正确的——因为我组的学生将证明准备数据集的过程是相当耗时的!然而,我确实认为花时间是值得的,因为在这个过程中学习了许多技能(例如,批判性地思考什么是重要的存储,如何格式化文件以提高效率,练习编写bash脚本,等等)。当然,我的学生可能不同意我的观点:)而且,对于不直接从事ML工作的人来说,在做这件事时获得的技能可能不值得所需要的时间投资。

3.这听起来令人沮丧!在过去两年发布这些数据集的过程中,我逐渐体会到的一件事是,我自己的团队经常是我们以前数据管理工作的主要受益者。例如,如果一个新学生加入了我们的小组,并想要在我们的数据上尝试ML方法,他们可以简单地访问一个网站,并找到它已经很好地格式化了,而不必追踪旧的存储驱动器:)。另外,谢谢你提到zenodo (https://zenodo.org/)这是一个分享数据的好资源!

4.这是个好问题!一种解决方案可能是同行评审这些数据集作为出版过程的一部分,如果数据集与手稿有关。然而,更多的同行评审责任可能是现在所有人最不想做的事情:)

5.我同意!这又回到了您最初的观点,即数据管理的时间和资源密集型本质。

Ajay B Harish的照片

我很高兴知道你觉得DesignSafe数据库很有用。是的,它有很多来自土木、结构和海岸工程师的数据。这包括与实验和计算相关的数据。这些都是你已经确定的一些不错的作品,我很高兴看到还有来自奥克兰的人的贡献!

在创建这些数据集时,你有没有让学生遵循的模板?特别重要的是,要有一个标准的方法来做这些工作,以确保它们的一致性。

elejeune的照片

是的!再次感谢你的分享,这与这个话题非常相关!

关于遵循模板,我有四点意见:

1.因为我们的总部设在波士顿大学,所以我们一直在使用OpenBU机构存储库(https://open.bu.edu/).对于每次提交,我们都遵循OpenBU模板,该模板包括缩略图、摘要、数据权限、数据集“集合”层次结构和相关代码链接等组件(见所附图)。

2.总的来说,我们一直努力遵守公平原则(https://www.go-fair.org/fair-principles/).

3.到目前为止,我们的工作范围相对较小(即,我们共享中等大小的计算生成的数据集,研究人员可以快速下载输入文件和输出文件,用于训练ML模型)。因此,格式化这些特定的数据集的挑战远远小于广泛定义的力学数据。

4.对于我们最近的一个数据集(Mechanical MNIST Crack Path),我们实际上最终发布了两个版本的数据集:一个“精简”版本(https://open.bu.edu/handle/2144/42757),以匹配Mechanical MNIST集合中其他数据集的格式,以及一个“扩展”版本(https://datadryad.org/stash/dataset/doi:10.5061/dryad.rv15dv486)提供了更大的灵活性,但代价是入门障碍略高。

你知道在这方面还有其他有用的资源吗?此外,我也很好奇你(或其他人!)是否对上面提到的数据管理中的可访问性和灵活性的权衡有什么想法。

谢谢你,艾玛。这是一个极好的资源。众所周知,我非常喜欢你的工作,因为你的工作既严谨又富有创造性。事实上,是您第一次激励我和我的实验室承诺公开我未来的所有数据和代码。在您的帮助下,我们已经提供了几组丰富的力学数据,(生物)力学社区有望使用这些数据向前发展。具体来说,我们提供了简单纯粹的血凝块和右心室心肌剪切试验数据,任何人都可以免费下载和使用。收集干净准确的数据是困难的,需要大量的金钱和时间投资。因此,我们的希望是双重的:(i)我们希望人们可以直接使用我们的数据来为医疗模拟的本构模型提供信息,(ii)我们希望人们可以使用我们的数据作为基准,例如,训练和验证新的机器学习算法。如果您对我们的工作感到好奇,请查看以下出版物以及我们的数据存储库,在那里您可以下载所有您想要的测试数据!!(非常感谢我的研究生Sotiris Kakaletsis和Gabriella Sugerman收集和分析了这些数据):

总之,你的工作,包括这个期刊俱乐部,让我真正认识到共享数据的重要性,并帮助我认识到数据共享在确保我们工作的长寿和更广泛影响方面的关键作用。做得好,非常感谢你以身作则的领导。

elejeune的照片

非常感谢曼纽尔的夸奖!感谢你分享了你在实验室里所做的关于开放获取机制数据集的出色工作。三个简短的跟进:

1.我想再次强调一下您关于投入金钱和时间来收集这些实验数据集的观点——即使是像您分享的那些“大型”实验数据集,与其他领域的“大数据”相比,也相对较小。总的来说,我认为能够利用这些小型高质量数据集的ML方法(可能与标准模拟方法相结合)与力学领域非常相关。

2.我还认为,除了提供这些数据之外,您和您的团队还投入了大量额外的努力,通过文档(例如,https://dataverse.tdl.org/file.xhtml?fileId=105543&version=1.0).

3.最后,我想指出的是,您通过“Texas data Repository”(https://dataverse.tdl.org/).这似乎是一个伟大的资源,为其他谁附属于大学德州数码图书馆(TDL)成员机构(https://dataverse.tdl.org/).

jessicaz@andrew.cmu.edu的照片

感谢艾玛就这个新的、令人兴奋的研究主题发表了如此有见地的讨论!许多研究人员开始在他们的研究中使用ML,但新的挑战问题和机遇是什么?你的文章提供了一个非常全面的ML力学概述,特别是集中于策展数据集,并回答了这些问题。对于想要进入这一新兴研究领域的年轻人来说,这是一个很好的资源,有许多细节。我会把你的帖子分享给我实验室的学生和我在卡内基梅隆大学的课堂上的学生。

elejeune的照片

谢谢杰西卡的评论。我希望你的学生也觉得这篇文章有帮助!有很多令人兴奋的研究正在进行,将ML应用到机制中,人们有很多机会贡献新想法!

感谢Emma非常有见地的帖子!

我同意你的观点,仅仅发布这些数据集就能促进发现。只要看看数据集的描述,我们就可以提出新的机器学习技术来解决这个特定的问题。

我还想指出,这些数据集的可用性为来自资源较少的大学的研究人员创造了公平的竞争环境,这些大学可能无法使用超级计算机来运行数千次模拟或精确的实验设置。像这样的举措可能会增加对力学和机器学习交叉感兴趣的研究人员的数量,这只会对该领域有益。

最后,我想提到一个来自不同成像方式的心脏应变估计领域的基准数据集:https://doi.org/10.1016/j.media.2013.03.008.这个基准已经被许多其他研究人员使用,并已成为比较心脏图像配准算法的金标准数据集。尽管许多应用都与成像直接相关,但在成像+机器学习+力学的交叉点上存在着不可思议的机会,其中一些我们正在研究!

elejeune的照片

谢谢弗朗西斯科的贴心意见!在回应:

1.是的!我期待看到未来的创造性方法,以及更广泛地访问基于机制的数据集所实现的更普遍的见解。希望数据共享可以增加不同专业的研究人员之间的协同作用。

2.特别感谢你提出这一点!我完全同意——有很多不同的和创新的方法来利用对机制的基本理解和修改开源ML软件的创造性想法,这些方法的实现成本比最初的数据生成步骤要低。

3.感谢分享这个基准数据集!对于其他可能感兴趣的人,数据集通过“心脏地图集项目”托管,http://www.cardiacatlas.org/它有一个特殊的“运动跟踪挑战”http://www.cardiacatlas.org/challenges/motion-tracking-challenge/

最后,我非常期待看到您的团队在成像+机器学习+力学的交叉研究方面的更多工作!

孙怀志的照片

嗨,Emma,谢谢你在这个重要的话题上分享你的观点,并率先用你自己的时间和精力提供基准数据。

你关于共享数据和使用相同数据进行基准测试的评论是正确的。如果没有基准数据库,几乎不可能对不同的ML模型进行公平而有意义的比较。当我们写一篇论文时,我们倾向于关注所提出的方法的优势和承诺,而不太关注如何使工作具有可重复性和鲁棒性,这听起来并不总是令人兴奋,但实际上非常重要。

我认为建立一套使用开源数据进行验证和测试的基准问题可以向前迈出一步,以解决这个问题。我还认为,开源模型或至少报告再现出版物中报告的准确结果所需的所有详细设置,对于确保所提出方法的可重复性、可解释性、透明度和最终的可信度非常重要。如果没有这些积极的措施,通常很难判断一个模型是真的做得特别好,还是(有意/无意)挑选的产物。

我也试图就你列出的问题提供我的想法,以防有用。

*哪些资源或即将举行的会议是其他人了解该主题的好机会?

IACM现在为机械机器学习和数字双胞胎引入了一个新的会议。第一次是去年在圣地亚哥https://mmldt.eng.ucsd.edu/home.明年还会有第二届。

在教育资源方面,感谢NSF的支持,我和JS Chen教授提供了一门关于力学中非常基础的机器学习课程。视频、讲座、幻灯片、Jupyter笔记本都可以免费下载。

https://mmldtshortcourse.weebly.com/lecture-notes.html

还有其他来自计算机科学和力学社区的同事发布了很棒的材料。例如,利弗莫尔DDPS研讨会:

https://data-science.llnl.gov/latest/news/virtual-seminar-series-explores-data-driven-physical-simulations

*对于那些怀疑ML在力学问题中的效用的人(例如,https://arxiv.org/abs/2112.12054),什么会让你印象深刻?你能设计一个数据集、问题陈述或基准测试挑战问题,其中基于ML的预测将是有影响力的吗?

我认为这两种方式都很容易被过度概括。从小样本的证据或个人经验中推断出的悲观情绪肯定也有炒作。

已经有一些成功的例子,比如蛋白质折叠。似乎困难不在于展示一些成功的故事,而在于建立普遍接受的度量标准,可以比较不同的模型/方法/范例,并在建模者/用户/涉众之间建立信任。

在本构模型领域,我们已经做了一个小的尝试,通过使用AI来暴露给定模型的潜在弱点,使用强化学习(见下文)来建立信任。其思想是引入一个对抗代理来探索加载路径,并使用强化学习来确定模型往往表现不佳的加载类型。然后,这些信息可以用于重新训练,这样弱点就可以(潜在地)得到解决。

https://www.sciencedirect.com/science/article/pii/S004578252030699X?dgcid=rss_sd_all

我认为这可能有助于提高模型的透明度,并避免通过第三方验证进行筛选。然而,我认为让社区使用相同的基准数据集(如Sandia挑战)可能是更好的前进方式。

*对于每个人来说,你希望在未来看到什么类型的基准数据集?新的基准数据集和相关的挑战问题应该包含什么?

我认为你提供的数据集很棒。我希望看到超越弹性的高质量数据,例如那些涉及断裂、损伤、孪生、塑性的数据。涉及逆向设计的数据(见Kumar, Tan, Zheng和Kochmann 2020)https://www.nature.com/articles/s41524-020-0341-6相反,那些有趣的微观结构也很好。

*管理数据集是时间、劳动和资源密集型的(例如,参见FAIR指南https://www.go-fair.org/fair-principles/https://sites.bu.edu/lejeunelab/files/2022/04/Lejeune_Data_Management_Plan.pdf) -是否应该将有限的资源(即时间、金钱、存储空间)分配给这些努力?

是的。我认为这是必要的。

*机械数据格式化最有用的方法是什么?每个数据集应该包含哪些必要的元数据?

出于实际原因,以表格格式存储的数据易于使用和共享。

*什么时候管理和保存数据是有意义的,什么时候是不必要的(例如,一个FEA模拟可以产生GB的数据)?

是否保存数据取决于机会成本以及它对工作流的重要性。然而,我认为在大多数情况下,也有必要保留训练过的模型,以便在未来需要时进行验证。

*你认为基准数据集在力学教育中有作用吗?例如,对于一个对力学/ML接口研究感兴趣的一年级研究生来说,基准数据集是一个很好的资源吗?教育基准数据集应该包含什么?

绝对的。困难在于,生成数据本身是非常机械的,大一学生可能会被课程作业和学习如何做研究搞得不知所措。

*你是否有一个公开可用的数据集,我们可以添加到这个非正式的机械数据列表中(https://elejeune11.github.io/) ?如果是这样,我很想把它包括在内!

我们把我们的一些数据和代码发布在我们的研究小组的网页上,也在Mendeley。

https://www.poromechanics.org/software--data.html

elejeune的照片

感谢史蒂夫你非常全面和周到的帖子!现在我们已经越过了一个门槛,评论区比原来的博客条目中有更多的信息:)针对你的一些观点:

1.感谢您分享关于未来MMLDT会议的信息-我去年秋天实际上参加了MMLDT- cset 2021,这是一个了解更多关于该领域的绝佳机会!我也很高兴地看到,短期课程的笔记是免费下载的,这是一个非常有价值的资源。分享利弗莫尔DDPS研讨会的录音也提醒了我,你和克里希纳组织的2020年“科学与工程机械轨道中的机器学习”的录音也可以在YouTube上找到:https://www.youtube.com/channel/UCCiwSYhLPtUU3schrt4xviA

2.你关于炒作vs.悲观的观点说得很好,我认为你分享的文章“一个非合作元建模游戏,用于自动第三方校准,验证和伪造并行对抗攻击的本构定律”真正强调了挑战我们的建模框架的重要性——无论是基于ML还是基于非ML的模型。我强烈建议每个人都去看看!

3.我同意——如果未来的基准数据集中在多种类型的非线性力学行为和具有挑战性的微观结构上,那就太好了。我认为,如果/当ML方法在简单的力学问题上(例如,机械MNSIT)失败时,更多地访问这些相当复杂的数据类型将有助于推进“特定于力学的”ML方法的发展。

4.感谢您提出关于存储训练过的ML模型的问题!除了对未来的验证有用外,训练过的ML模型也可能对转移学习,虽然在许多情况下,对于机械数据,这可能不是直接的。

5.最后,感谢您分享实验室软件+数据的链接!刚才我添加了离散元素牵引分离数据的集合https://data.mendeley.com/datasets/n5v7hyny8n/1(手稿:https://doi.org/10.1016/j.cma.2018.11.026)到非正式名单!

订阅“2022年5月期刊俱乐部:力学中的机器学习:管理数据集和定义挑战问题”的评论

最近的评论

更多的评论

辛迪加

订阅辛迪加