GPS轨迹聚类算法TRACLUS介绍（三）

GPS 轨迹聚类算法TRACLUS 介绍（三）

韩国女主播不雅

前两篇博客对TRACLUS算法进⾏了综述和概要说明了该框架有两个阶段，分段和归组。这篇博客将详细对轨迹分段这⼀阶段进⾏说明。轨迹分段TRAJECTORY PARTITIONING

1、相关属性

轨迹分段的⾸要⽬标是到轨迹⾏为迅速变化的点（直观地说，就是⾓度变化⼤的点），称之为特征点。从轨迹中确定了⼀组特征点。然后，轨迹被每个特征点分段，每

个分段⽤两个连续特征点之间的⼀条线段表⽰。也就是说，被划分为⼀组个线段。把这样

的线段称为轨迹分段。下图显⽰了⼀个轨迹及其轨迹分段的⽰例。

⼀个轨迹的最优分段要具有两个属性：准确性和简洁性。

准确性是指轨迹与其⼀组轨迹分段之间的差异应该尽可能⼩，这就要求特征点不能太少。ずっと好きだった迅雷资源

简洁性是指轨迹分段的数量应该尽可能少。

这两个属性在确定特征点数⽬时相互⽭盾的，这就需要调整算法以达到平衡。

2、最⼩描述长度原则（Minimum Description Length ，MDL ）

TR =

i p p p ⋯p ⋯p 123j len i {p ,p ,p ,⋯,p }(c <c 1c 2c 3c pari 1c <2c <3⋯<c )par i TR i TR i (par −i 1){p p ,p p ,⋯,p p }c 1c 2c 2c 3c pari −1c pari

在确定轨迹特征点时，提出了⼀种寻精确和简洁之间最优权衡的⽅法，在信息论中⼴泛使⽤的最⼩描述长度(MDL)原理。

最⼩描述长度( MDL) 原理是 Rissane 在研究通⽤编码时提出的。其基本原理是对于⼀组给定的实例数据 D ，如果要对其进⾏保存，为了节省存储空间，⼀般采⽤某种模型对其进⾏编码压缩，然后再保

存压缩后的数据。同时，为了以后正确恢复这些实例数据，将所⽤的模型也保存起来。所以需要保存的数据长度( ⽐特数) 等于这些实例数据进⾏编码压缩后的长度加上保存模型所需的数据长度，将该数据长度称为总描述长度。最⼩描述长度( MDL) 原理就是要求选择总描述长度最⼩的模型。

MDL的代价有两部分：和。这⾥，代表压缩模型，代表数据。这两个代价的表述如下：是描述压缩模型（或编码⽅式）所需要的长度，以位表⽰；是描述利⽤压缩模型所编码的数据所需要的长度，以位表⽰。

在轨迹分段问题中，⼀个压缩模型对应于⼀组特定的轨迹分段。因此，到最优分段可以转化为使⽤MDL原则到最佳假设。

上图表⽰了两个代价和的公式。假定有⼀个轨迹，和⼀组特征点。那么，

可表⽰为淡淡然掠过神秘又美丽是什么歌>王祖蓝身高

其中，表⽰⼀个线段的长度，即两点的欧式距离。因此表⽰所有轨迹分段长度的总和。

另⼀⽅⾯，

可表⽰为

表⽰⼀条轨迹和它的⼀组轨迹分段的差值之和。对每⼀个轨迹分段，将这条轨迹分段与其包含的线段的差值进⾏累加。对于这个差值的计算，使⽤垂直距离和⾓度距离的和。因为这条轨迹包含轨迹分段，所以不考虑平⾏距离。衡量的是简洁性，它随着轨迹分段数量的增加⽽增加；衡量的是准确性，它随着⼀组轨迹分段偏离轨迹的偏离度增加⽽增加。

一寸光阴一寸心

因此，要得到最优的分段策略，那就是要最⼩化，这能够准确平衡简洁性和准确性。但是因为要考虑到轨迹点的每⼀个⼦集，那计算量是⾮常⼤，所以下⾯要介绍⼀个近似计算的⽅法。

3、近似计算⽅法

爱情睡醒了片尾曲

L (H )L (D ∣H )H D L (H )L (D ∣H )L (H )L (D ∣H )TR =i p p p ⋯p ⋯p 123j len i {p ,p ,p ,⋯,p }c 1c 2c 3par i L (H )len (p p )c j c j +1p p c j c j +1L (H )L (D ∣H )L (D ∣H )p p c j c j +1p p (c ≤k k +1j k ≤c −1)j +1L (H )L (D ∣H )L (H )+L (D ∣H )

近似⽅法的关键思想是将局部最优的集合视为全局最优。代表和只是特征点时⼆者之间轨迹的代价。代表和之间没有特征点时的代价，即保留原始轨迹。中的是零。那么局部最优解就是当满⾜对于任意都有时最长的轨迹。如果前者⼩于后者，可以知道选择作为特征点的代价要⽐不作为特征点时更⼩。更进⼀步的说，为了简洁起见，我们尽可能地增加了这个轨迹分段

的长度。

上图表达了轨迹分段的近似算法。计算⼀条轨迹上每⼀个点的和(5~6⾏)。如果前者更⼤，则⽴即将上⼀个点插⼊到特征点的集合（8⾏）。然后将从这个点开始重复上述步骤（9⾏）。否则，增加候选轨迹分段的长度（11⾏）。当然，该算法可能⽆法到最优的分段。在下图中举⼀个简单的例⼦。假设代价最⼩的最优分段为。该算法⽆法到精确的解，因为在处，⼤于，因此会停⽌扫描。然⽽，该算法的精度却相当⾼。我们的经验表明，其精度平均约为80%，

这意味着80%的近似解也出现在精确解中。MDL (p ,p )par i j p i p j MDL (=L (H )+L (D ∣H ))MDL (p ,p )nopar i j p i p j MDL MDL (p ,p )nopar i j L (D ∣H ))k (i <k ≤j )MDL (p ,p )≤par i k MDL (p ,p )nopar i k p p i j p k MDL MDL par MDL nopar p currIndex −1CP i MDL {p p }15p 4MDL par MDL nopar

GPS轨迹聚类算法TRACLUS介绍（三）

发布评论取消回复

最近发表

热门文章

标签列表