3.10基于目标的地址编码与拟合
在前面一些章节中,我们发现地址编码是一件非常具有挑战性的事情,只有将犯罪数据进行高质量的编码才能使数据有着很好的应用,但也并不一定要把所有的犯罪数据都按照严格的要求进行地址编码。比如,在分析犯罪空间分布形态过程中花费大量时问和精力将犯罪地点定位到米这一量级实际是没有太大的必要。因此,在警察局或者监狱这样的区域范围内进行犯罪分布形态的地址编码就不需要太过复杂。
目标性的数据编码就是要在不同要求之间达到一个平衡:
·精确性:将数据编码到非常精确的程度。
·准确性:精确性经常和准确性混淆,精确性描述的一个犯罪记录的空间尺度以及相关的表达准确程度,即标记地点的数值是不是正确的。
·一致性:一致性要保证编码后的地址要与标准化要求保持一致。
·完整性:完整性保证的是犯罪记录的内容要充分。
·可靠性:用于犯罪情报分析的数据的可靠性是至关重要的,只有数据的充分可靠才能使结果解释有一定的可信度,进而才能用于决策服务。
任何一个从事犯罪数据地址编码工作的人都希望数据能够100%的精确、准确、完整、可靠。但实际工作中这是不可能完全做到的。所以我们提出了一种基于目标的地址编码与拟合。
1.可靠性。大多数场合我们都要求数据是可靠的,可靠性的水平又是根据数据来决定的。如果数据只是用来粗略估计,那么编码的可靠性就要有所降低。但是如果根据数据编码的分析结果来申请警察机构的资助规划就要求具有很高的可靠性才行。在这种情况下,可靠性就是最为重要的方面了。
2.完整性。一个犯罪记录的内容可以是比较全面的,但是如果无法满足目的的话就不能称之为完整了。相反,如果记录的内容虽然不全面但能够满足编码的需要就可以称之为完整。完整性是受到一致性的影响的,但其也决定了编码的精确性和准确性。完整性也是比较主观的,对分析任务的依赖性比较大。对一个任务来说,可能犯罪记录是比较完整的,但对另一个任务可能就不是完整的。
3.一致性。准确性和精确性都无法决定一致性,但一致性反映了可靠性。一致性是由犯罪数据地址编码过程所决定的。例如,如果一个犯罪记录只能被编码到一条街道上,其地理分布就需要和整个研究区域完全一致。
4.准确性。数据可以是不精确的,同样也有可能是不准确的。准确性可以决定可靠性,尤其是在与地理尺度相关方面进行分析时准确性是非常重要的。例如,如果犯罪数据在警察巡逻区域这一层面上是比较准确的,那么在这一水平上进行住房和社区内的犯罪情报分析就不是可靠的,因为警察巡逻辖区粒度过大会无法显示小区域内的分布形态。
5.精确性。数据是需要精确的,但不精确的数据也可以经过处理使其具有一定可靠性。通常将犯罪数据的精确性标记出来是很有用的,因为这对于基于数据所进行的分析、确定出可以纠正的错误以及地址编码过程的效率提高都很有帮助。衡量精确性需要对数据进.行评估来确定应用的编码过程是不是正确的。
3.11编码精确度的确定
确定编码后的犯罪数据的空问精确度可以通过下列一个有代表性的案例所展示的简单分析过程来实现。该案例的代表性所基于的是在结果中所体现的置信水平。实际上在生活中就有大量的互联网站点可以作为指南来确定样本的规模(在搜索引擎当中输入样本规模计算器就可以很容易确定)。例如,一个用于估计样本规模的在线工具在对一个大约1000个犯罪记录的犯罪数据进行评估的时候就需要一个95%的置信水平来确保结果的可信度。
确定地址编码的精确度一般需要如下一些步骤:
1.确定样本规模并随机选择一个编码记录来作为示例。
2.以详细的基础图层和地址参考文件为背景,将样本数据投影到底层图层上。
3.在CIS中确定样本点的位置。
4.观察投影后的样本点位置。
5.将犯罪活动的位置和犯罪记录中所储存的地址信息、基础地理信息和参考文件中的地址信息相比较。
……
展开