- 自适应和反应式机器人控制:动态系统法
- (瑞士)奥德·比拉德 (瑞士)辛纳·米拉扎维 (美)纳迪亚·菲格罗亚
- 5154字
- 2024-11-28 16:26:58
图1.8 学习支持向量回归(图a)或神经网络(图b)等机器学习技术的估计控制律,可以确保与数据紧密拟合,但不能保证它在吸引子处收敛。训练数据以红色线表示。学习过的轨迹以灰线表示。粉色轨迹说明了从一个训练点开始时的预测模型。在这两种情况下,轨迹一旦到达吸引子位置就会漂移
图1.11 标称线性动态系统的调制可以避开障碍物,同时保持吸引子处的稳定性[57](图a),或通过从橙色区域中提供的数据点学习局部旋转来生成极限环[85](图b)
图1.18 闭环关节运动发生器架构,包括关节控制(图a)、笛卡儿路径控制(图b)和直接扭矩控制(图c)。机器人的预期运动是根据机器人当前的状态产生的。红色线显示的信道延迟可能造成不稳定或性能恶化。因此,在研究动态系统运动发生器的稳定性时,必须考虑整个控制回路的稳定性
图2.8 a)通过动态系统表示击球的轨迹。b)从球到洞的相对位置的动力学表示,可以很好地概括朝向球的方向,无须进一步演示
图3.1 使用标准回归算法图b~图d和3.3节中介绍的稳定动态系统学习方案(图d)进行动态系统学习的二维参考轨迹(图a)。红色轨迹是演示,黑色轨迹是在演示的初始状态下学习到的动态系统的再现。注意,对于所有标准回归技术,动态系统都有伪吸引子和发散区域
图3.8 LASA手写数据集上动态系统的稳定估计(似然估计)的性能(运动1~15)
图3.9 LASA手写数据集上动态系统的稳定估计(均方误差)的性能(运动1~15)
图3.10 LASA手写数据集上动态系统的稳定估计(似然估计)的性能(运动16~30)
图3.11 LASA手写数据集上动态系统的稳定估计(均方误差)的性能(运动16~30)
图3.14 对任务2和任务3运行中目标位置变化的动态适应[72]
图3.26 检查任务。a)实验设备示意图。机器人的任务是把彩色盒子从桌子最左边的盒子放到桌子最右边的盒子上。它的名义动态系统沿直线运动。示教者提供演示,教机器人通过中间的矩形盒子形成的狭窄通道。b)红色轨迹为演示轨迹,黑色轨迹由学习到的动态系统的稳定估计模型(见3.3节)从用于学习的初始位置生成,蓝色轨迹由学习到的动态系统的稳定估计模型从用于学习的初始位置的体积(蓝色标记)中采样的新初始位置生成。c)从运动示教中采集的三维轨迹,椭球代表物理一致性高斯混合模型算法拟合的高斯函数。d)学习到的线性变参-动态系统的三维演示和执行,轨迹颜色遵循与动态系统的稳定估计执行相同的约定
图3.27 标记任务。a)图3.26中的任务变体。机器人必须通过位于中间蓝盒子中的一个特定点。b)红色轨迹为示教轨迹,黑色轨迹由学习到的动态系统的稳定估计的模型(见3.3节)从用于学习的初始位置生成,蓝色轨迹由学习到的动态系统的稳定估计的模型从用于学习的初始位置的体积(蓝色标记)中采样的新初始位置生成。c)从拖动演示中采集的三维轨迹,椭球代表物理一致性高斯混合模型算法拟合的高斯函数。d)学习到的线性变参-动态系统的三维示教和执行,轨迹颜色遵循与动态系统稳定估计执行相同的约定
图3.28 货架排列任务。a)示教让机器人把书从最上面的架子移动到中间的架子上,每本书都有一个专门的位置。b)红色轨迹为示教,黑色轨迹由学习到的动态系统的稳定估计模型(见3.3节)从用于学习的初始位置生成,蓝色轨迹由学习到的动态系统的稳定估计模型从用于学习的初始位置的体积(蓝色标记)中采样的新初始位置生成。c)从拖动示教中收集的三维轨迹,椭球代表物理一致性高斯混合模型算法拟合的高斯函数。d)学习到的线性变参-动态系统的三维示教和执行,轨迹颜色遵循与动态系统的稳定估计执行相同的约定
图3.28 货架排列任务。a)示教让机器人把书从最上面的架子移动到中间的架子上,每本书都有一个专门的位置。b)红色轨迹为示教,黑色轨迹由学习到的动态系统的稳定估计模型(见3.3节)从用于学习的初始位置生成,蓝色轨迹由学习到的动态系统的稳定估计模型从用于学习的初始位置的体积(蓝色标记)中采样的新初始位置生成。c)从拖动示教中收集的三维轨迹,椭球代表物理一致性高斯混合模型算法拟合的高斯函数。d)学习到的线性变参-动态系统的三维示教和执行,轨迹颜色遵循与动态系统的稳定估计执行相同的约定(续)
图3.30 iCub导航/绕墙协同操作。a)在Gazebo中远程操作的矩形物体的二维轨迹,用红色矩形表示该物体的位置和方向。b)二维演示轨迹(红色矩形)和使用学习过的动态系统(深灰色矩形)执行。c)一组使用线性变参-动态系统模型执行学习任务的iCub
图3.30 iCub导航/绕墙协同操作。a)在Gazebo中远程操作的矩形物体的二维轨迹,用红色矩形表示该物体的位置和方向。b)二维演示轨迹(红色矩形)和使用学习过的动态系统(深灰色矩形)执行。c)一组使用线性变参-动态系统模型执行学习任务的iCub(续)
图4.11 旋转和优化结果的高斯模型示例[69]
图4.12 从拖动示教中学习动态系统[69]
图4.14 一个机器人任务的例子。在线性二阶动态系统(黑色)和分岔动态系统(红/蓝线)之间有硬切换,用于擦拭两个不同方向和直径的物体的表面。通过改变ρ0、x0和θ0在极限环和吸引子内发生切换[69]
图5.1 机器人由第3章介绍的一阶非线性动态系统引导的示例。尽管机器人在受到扰动后到达目标,但它不能遵循用于学习动态系统的参考轨迹(红色)。黑色轨迹表示模拟机器人末端执行器的轨迹
图5.3 一个2自由度机械臂被一个局部活动全局稳定动态系统引导的说明性例子,它不仅对称地收敛到参考轨迹(红色),而且到达目标
图5.14 末端执行器执行角形的轨迹。红色轨迹为示教,蓝色和绿色轨迹为执行
图5.15 末端执行器执行Khamesh形的轨迹。红色轨迹为示教,蓝色和绿色轨迹为执行
图5.16 场景1:使用一个iCub的受限导航。a)定义任务的模拟场景。b)从红色突出显示的示教轨迹中学习的全局动态系统与局部活动全局稳定动态系统的向量场,黑色轨迹是通过积分动态系统生成的开环轨迹,不同颜色的轨迹是模拟在不同外部扰动下机器人协作任务的轨迹。c)具有类似外部扰动的模拟场景的视频截图。可以看出,局部活动全局稳定动态系统能够在受到外部扰动后恢复并完成任务,而全局动态系统则会陷入困境
图5.17 场景2:使用两个iCub的物体协同操作。a)定义任务的模拟场景。b)从红色突出显示的示教轨迹中学习的全局动态系统与局部活动全局稳定动态系统的向量场,黑色轨迹是通过积分动态系统生成的开环轨迹,不同颜色的轨迹是机器人在不同外部扰动下模拟任务时的协同操作。c)具有类似外部扰动的模拟场景的视频截图。可以看出,局部活动全局稳定动态系统能够在外部扰动后恢复并完成任务,而全局动态系统试图达到目标,但遵循了导致任务失败的路径
图5.18 无论是吸引子x*已知还是吸引子x*未知,对动态系统的稳定估计和线性变参-期望最大化的LASA手写数据集的结果。图a和图b分别显示了所有四种情况下的预测均方根误差和训练时间与混合分量数目的函数关系。图c显示了在吸引子未知的情况下的吸引子估计误差
图5.19 LASA手写数据集的动态系统的稳定估计(第一行)和线性变参-期望最大化(第二行)的四个二维记录的结果流线和吸引子,具有未知的吸引子x*和K=7分量。红点表示训练样本,蓝色标记表示估计的吸引子。数据集假设吸引子在[0,0]
图5.20 隐马尔可夫模型-线性变参模型的结果子任务和模拟轨迹,有四个子任务,有七个高斯混合模型分量,每个分量用于用鼠标捕获的两组典型的人类示教。黑色轨迹代表训练样本,粉红色星号表示初始位置。前两行描述了每个子任务的线性变参的参数、它们的终止策略和它们的责任(最有可能属于子任务的训练样本)。最后一行显示了几个由绿色实线描绘的模拟轨迹,这些线是根据式(5.61)生成的,从每个初始点开始。两个模型的子任务从左到右的序列为a)-b)-c)-d)。图a和图c显示了没有扰动的模拟轨迹,而图b和图d显示了当系统每秒受到扰动时产生的轨迹。每次扰动发生时,都观察到与主轨迹的小偏差
图6.6 a)记录扰动下人类行为的实验装置。屏幕上的目标选择器用于创建要到达目标位置时的突然变化。b)从100帧/秒的高速摄像机中近距离观察手指运动,记录从受到扰动开始时关节角度的下降值(手指重新打开)
图6.8 a)从人类受扰动示教中记录的数据。在扰动下的适应行为与未受扰动行为中的手部位置和手指之间的关联保持一致。b)处理扰动的区域用红色表示并放大,其中显示了来自同一对象的三个示教(红色、蓝色和紫色)
图6.13 执行抓握任务时,有显式耦合和隐式耦合两种方式。显式耦合的执行(图b)可以防止手指过早闭合,确保给定任何数量的扰动抓握的形成都能被阻止,直到确认安全为止。在隐式耦合执行(图a)中,手指提前闭合抓握失败。图c显示了扰动后隐式(左)和显式(右)耦合情况下手部运动的特写
图7.3 用4个动态系统到达固定目标(x*=0)
图7.5 一维动态系统的行为受ρ和的影响。图a中。图b和图c中分别显示了为常数或随时间变化时对于一维系统的行为。图d和图e分别表示ρ在图b和图c上的行为。在图c中,通过随时间优化的ρ值来满足虚拟工作空间的约束
图7.5 一维动态系统的行为受ρ和的影响。图a中。图b和图c中分别显示了为常数或随时间变化时对于一维系统的行为。图d和图e分别表示ρ在图b和图c上的行为。在图c中,通过随时间优化的ρ值来满足虚拟工作空间的约束(续)
图7.9 两个智能体到达并拦截一个移动物体。a)ρ=0.1,b)ρ=0.9。,,∀j∈{1,2},并且,。两个机器人都到达虚拟物体并且在协调和同步中收敛到真实物体的运动
图7.11 机械臂与移动/旋转物体之间的协调能力的视频截图。真实物体在机器人的工作空间内。因此,协调参数ρ接近于1,这有利于机械臂和物体之间的协调。左上角的图片展示了机器人的实时可视化,以及虚拟(绿色)和真实(蓝色)的物体
图7.13 动态系统(式(7.25))生成的末端执行器位置的示例。只给出了沿y轴的轨迹。所示的物体轨迹是未捕获物体的预测轨迹。对箱子轨迹的预测需要一些数据进行初始化,并且使用x轴上几乎所有的前0.2m进行预测。正如预期那样,式(7.25)的输出值在ρ很小的情况下首先收敛于期望的拦截点。并且它柔和地拦截物体的轨迹并跟踪物体的运动。如果物体不移动或手指闭合,机器人就会停止
图8.3 a)在三维系统中重塑动态系统的例子。彩色流带代表了重塑动态系统的轨迹例子。黑色的流带表示不通过状态空间重塑区域的轨迹,因此保留了线性系统的直线特性,这里用作标称动态系统。绿色流带是人工生成的数据,代表一个不断扩张的螺旋。紫色的点代表这些数据的子集(对应高斯过程中预测方差的水平集)。彩色流带是通过重塑区域的轨迹示例。b)和图a相同,但是放大了,影响面被切割以提高训练点和轨迹的可见度
图8.6 图a和图b展示了Barrett WAM 7自由度机械臂执行堆叠盘子的任务。由一组起始点(图c)产生的标称动态系统轨迹会由于缺乏正确的方向而导致故障。轨迹开始接近盘子架往往会与它碰撞。通过机器人物理引导提供的校正训练数据以绿色显示。d)生成的重构后的系统。灰色阴影区域说明高斯过程的影响区域,并计算为预测方差的水平集。e)从不同的角度重塑系统。请注意训练数据的稀疏选择
图8.9 左边和右边的红、绿、蓝色坐标系分别对应于起点和目标。从上面看,绿色部分是动态系统的轨迹。a)初始和调制动力学。b)不同激活水平下的动力学结果。当hs=0.50时,动力学曲线呈直线
图8.12 机器人的任务是在表面上快速滑动。为了确保接触是稳定的,我们引入了一种调制,通过一个距离函数Γ(x)来减慢机器人接近表面的速度。远离表面,函数为零,没有影响
图9.9 Γ(qij)函数用于二维平面问题。假设有两个具有1自由度的机器人,每个机器人对应每个轴(即)。绿色数据点表示无碰撞机器人构型(y=+1),红色数据点表示碰撞机器人构型(y=-1)。背景颜色代表Γ(qij)的值,请参阅颜色条以获取确切值,其中蓝色区域对应无碰撞机器人构型(Γ(qij)>1),红色区域对应碰撞构型(Γ(qij)<1)。无碰撞区域内的箭头表示∇Γ(qij)
图10.2 图a表示了连接到x*点的质量-弹簧-阻尼系统式(10.2)。质量状态由x表示。在图b和图c中,举例说明了当m=1,x*=0和x0=1时,系统的四个阻尼系数的行为。从图c中可以看出,阻尼系数对系统的响应具有显著影响。系统可以是过阻尼(紫色)或无损(蓝色)的
图10.3 图a表示在外力f下的质量-弹簧-阻尼系统。质量的状态由x表示。图b表示质量(m=1)、刚度系数(k=25)和阻尼(d=10)分量以及质量-弹簧-阻尼系统(具有相同的系数)的频率响应。图c表示质量-弹簧-阻尼系统在不同阻抗(m=1,d∈{25,125}和k∈{1,625})下的行为。阻抗值相似的系统(图10.3c中的红色和紫色线)的响应几乎相同
图10.3 图a表示在外力f下的质量-弹簧-阻尼系统。质量的状态由x表示。图b表示质量(m=1)、刚度系数(k=25)和阻尼(d=10)分量以及质量-弹簧-阻尼系统(具有相同的系数)的频率响应。图c表示质量-弹簧-阻尼系统在不同阻抗(m=1,d∈{25,125}和k∈{1,625})下的行为。阻抗值相似的系统(图10.3c中的红色和紫色线)的响应几乎相同(续)
图D.1 在正半平面或负半平面内的障碍物外部开始的任何轨迹最终都会在红色、蓝色或紫色不变锥区域中结束