Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

839次阅读
没有评论

Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制


关键词:微型机器人,生物医学工程,强化学习


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

论文题目:Autonomous 3D positional control of a magnetic microrobot using reinforcement learning论文期刊:Nature Machine Intelligence论文地址:https://www.nature.com/articles/s42256-023-00779-2
微型机器人的小尺寸使得它们可以进入身体的所有部位,促进有针对性的治疗和诊断,最近的研究揭示了微型机器人在生物医学工程和生物医学领域的巨大潜力。然而,微型机器人的小尺寸对于内置电子设备造成了限制,只有通过光学、化学或磁性手段进行无线操作是可行的。而考虑到高渗透能力、生物相容性和良好的自由度控制能力,磁性驱动是首选方法。该研究采用强化学习实现磁性微型机器人的自主三维定位控制。
磁性微型机器人在生物医学工程领域显示出了潜力,可以促进精确药物递送、无创诊断和基于细胞的治疗。目前控制这类微型机器人运动的技术依赖于均匀磁场假设,并且受到微型机器人的特性和周围环境的显著影响。这些策略在改变环境或微型机器人时缺乏普遍性和适应性,并且由于电磁驱动系统和微型机器人位置的独立控制而出现适度延迟。
为了解决这些问题,该研究提出了一种基于机器学习的通过电磁线圈产生的梯度场来控制磁性微型机器人位置的方法。该研究使用强化学习和渐进训练方法通过直接管理线圈电流来控制微型机器人在定义的工作区域内的三维位置。研究开发了一个模拟环境进行初步探索,以减少整体训练时间。在模拟训练之后,学习过程被转移到反映真实世界复杂性的物理电磁驱动系统上。该研究提出的方法相较于传统的比例-积分-微分控制(PID control, proportional-integral-derivative control)更准确和高效。该方法还结合了路径规划算法,实现了全自主控制。并且,这种方法是对微型机器人设计、环境和磁性系统的非线性都非常敏感的复杂数学模型的一种替代方案。
Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图1 a、基于强化学习的磁性微型机器人导航。该研究开发了一种使用强化学习控制外部激励系统(EAS)在复杂环境中导航微型机器人的自主方法。b、RL 代理通过改变 EAS 线圈电流来精确控制 MR 的位置 PMR。MR 按照策略π(神经网络, RL 代理的一部分)以最少的步数达到目标位置 PT,同时必须保持在定义的工作区感兴趣区域 (ROI, region of interest) 内。c、该研究采用了一个四步的训练过程,以减少代理的训练时间并提高准确性。这有助于初始探索并逐渐增加复杂性,确保准确的导航。


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图2 在仿真环境中的评估和训练结果。a、在Unity 3D中开发的一个仿真环境,用于具有八个线圈的EAS和一个磁性微型机器人(一个带有南向北磁化方向的永磁体,如白色箭头所示)浸泡在350cSt硅油中,NdFeB代表钕铁硼材料。b、环境评估。c、训练过程的第一步中强化学习代理模型的训练结果,以随时间步骤变化的平均奖励值表示。d、距离误差(从微型机器人到目标点的距离)随着强化学习代理在不同训练步骤中导航的变化。e、整个工作区的距离误差热力图。


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图3 使用EAS(真实环境)重新训练强化学习代理模型。a、使用EAS对RL代理进行了2×106个时间步长的重新训练,并在每个饱和点(步骤2-4)后更改了训练条件。b、距离误差(从微型机器人到目标点的距离)随着强化学习代理在各种训练间隔中导航MR而变化。c、整个工作区域的距离误差热力图。d、给予强化学习代理的螺旋轨迹用于导航微型机器人。该任务涉及到三个轴的变化,验证了代理的性能。e、在xy平面上,将MR沿S形轨迹导航;z轴被固定。这种方法验证了强化学习代理的悬停能力。f、在流体流动条件下对RL代理进行了重新训练,涉及到流体速度分别为1 mm/s和1.5 mm/s 的300,000和200,000个时间步长。g、在动态流体环境中重新训练时,两种不同速度的距离误差。h、对抗流体流向(1 mm/s)进行导航。i、顺着流体流向(1 mm/s)进行导航。


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图4 该方法与使用PID控制器进行闭环控制的对比。a、使用这两种方法,通过在当前MR位置创建一个距离目标点4mm的目标点来评估到达目标点所需的时间。b、通过将MR导航到随机目标点并记录与目标点的最小距离,比较了准确性。c、用于比较(固定z轴)的悬停性能的轨迹。d、用于评估(固定y轴)在重力下的性能的轨迹。


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图5 在脑血管仿真模型中导航MR。a、缩小比例的MCA截面的复制品作为脑血管仿真模型,用于评估RL代理作为潜在医疗应用的性能。b、RL代理从指定的起点导航到目标点,即仿真模型内的动脉瘤。


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制

图6 在不同环境下对MR进行完全自主控制。a、RL代理用于生成三维闭环位置控制的最优电流(假设非线性系统和非线性环境)的”大脑”(导航轨迹是由人类选择的)。RL代理与路径规划算法合并,生成通向目标的轨迹;这构成了完全自主控制。b、c、使用A*生成的轨迹的两个不同的MR导航场景:第一个包含虚拟障碍物(两个圆柱体)(b),第二个包含一个三维虚拟通道(c)。d、使用图像处理检测障碍物和开放空间,然后进行环境映射。使用带有障碍物的立方体通道来测试路径规划和导航。e、路径规划的结果。f、在带有物理障碍物的通道中导航。g、h、i、MR导航中遇到单个动态障碍物(g)、两个动态障碍物(h)和两个动态障碍物加一个静态障碍物(i)。


使用深度强化学习结合神经网络策略可以建模复杂问题,该研究使用了无模型的强化学习方法来控制磁性MR的导航。强化学习能够探索超出专家理解范围的问题并有效解决问题。研究者提出了提出了逐步训练过程解决了在物理环境中使用强化学习进行训练时遇到的需要手动干预的长时间的训练和系统不可逆状态的主要问题,不仅减少了总体训练时间,而且提高了准确性。由此,强化学习主体学会了控制MR的位置,在工作区内将其导航到定义的目标。同时,使用蠕动泵在流体通道内产生的流量进行训练,该方法在动态流体环境中的潜力也得到了测试,这意味着训练有素的策略可以作为导航梯度型MR的通用策略,允许重新训练强化学习主体以适应各种MR。相较于PID控制器,该方法实现了显著更高的准确性和更短的达到目标时间。此外,该方法实现静态和动态障碍物的完全自主导航。
在未来,研究者认为该方法有潜力帮助控制旋转和振荡磁场中3D动态环境中的MR的位置、方向和速度。该技术还可以用于通过专注于远离中心的非均匀磁场上的MR训练来增加现有EAS的工作区大小。该方法可以与各种成像和磁性驱动系统以及促进3D路径规划和导航的算法相结合。这种结合将扩展该方法到实际医学成像应用和实验。

编译|余孟君

大语言模型与多智能体系统读书会


Nat. Mach. Intell. 速递:强化学习实现磁性微型机器人的自主三维定位控制


详情请见:大语言模型与多智能体系统读书会:大模型赋能机器人涌现群体智能



推荐阅读1. 可重构微型集群机器人,点亮未来医疗与环境修复2. 用细胞制造的生物混合机器人——机器人领域的下一个前沿3. 长文综述:集群机器人的过去、现在与未来4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程5加入集智学园VIP,一次性获取集智平台所有内容资源6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy