多维度因素对犯罪率的影响:基于数据网络分析和机器学习模型的研究

期刊: 环球科学 DOI: PDF下载

刘洪瑜 薛煜孑 樊乐孺

电气工程学院 新疆大学 乌鲁木齐市 830017

摘要

该研究探讨了犯罪率在社会层面的影响因素,并基于多维度数据库建立和多维度犯罪数据网络分析,揭示了失业率、最低生活保障人数、人均可支配收入和教育水平等因素对犯罪率的影响。通过随机森林和决策树算法的优化与裁剪,研究建立了模型用于评估地区犯罪风险高低,并通过权重占比图展示了不同因素的重要性。结果表明模型具有较高的准确性和预测能力,在犯罪率预测和社会问题分析中具有广泛应用潜力。


关键词

犯罪率、数据网络分析、机器学习模型

正文


1. 引言

犯罪率对社会稳定与发展具有重要影响,而了解其在社会层面的形成因素成为当今研究与管理的重点之一。随着大数据与人工智能技术的不断发展,我们能够从更广阔的视角审视犯罪现象。根据最高检发布的数据显示,严重暴力犯罪在近几十年中呈下降趋势,而轻罪案件呈现上升态势,凸显出犯罪形式的演变。同时,经济犯罪所导致的经济损失巨大,引发了社会对犯罪经济影响的担忧。探讨这些现象背后的因素和机制,深入解析犯罪率的涨跌与社会层面条件之间的联系,对于制定更加有针对性的犯罪预防策略具有重要意义[1-2]

本研究旨在通过多维度数据库的建立与分析,系统性探究犯罪率的高低受多方面因素综合影响的背景。从经济、教育、保障等多个维度切入,我们构建了原始数据库,并通过各种数据处理与统计手段,对犯罪率的关联因素进行全面而深入的研究。通过具体省份的犯罪率差异分析,我们选择代表性的地区展开研究,通过多维度分析方法构建犯罪率影响因素的排列,旨在揭示这些关键因素对社会犯罪率的潜在影响路径与机制。

本研究将通过深入剖析犯罪率形成的多层次数据网络,借助随机森林和决策树等分析工具,重点研究失业率、教育水平、最低生活保障以及人均可支配收入等因素在社会中的作用机制及相互关系。通过对犯罪率高低因素权值的评估,我们旨在提供一个全面而科学的犯罪率研究框架,帮助深化对社会犯罪现象的理解,并为未来犯罪预防与干预提供重要参考依据[3]。

 

2. 多维度数据库建立

对于数据库的多维度建立,我们基于大数据和人工智能技术,采用卷积神经网络进行筛查。我们将数据分为经济、教育和保障三个主要板块,并在此基础上建立原始数据库。条件分类假设包括经济、教育和保障对犯罪率的重要性。经济状况、失业率、和贫困可能导致犯罪率上升,教育水平和社会保障与犯罪率呈负相关。我们选择高中为分界线划分高等教育和非高等教育。在数据处理和统计方面,我们采用了数据归一化方法将数据压缩到0到1之间,并进行正态标准化,使数据处于标准正态分布状态。通过计算各地区的犯罪率方差,我们发现了犯罪率波动最大的省份。区域划分基于得到的数据,将其划分为四个区间等级,以0.25为增长率,表示相关性强弱不同。结合数据得出的犯罪率散点图,我们发现某些区间样本数量较少,因此采用SMOTE模型处理数据,增加少数类样本以实现样本类别均衡。

3. 多维度犯罪数据网络及结果显现解

3.1 随机森林与决策树

通过原始数据库和可视化分析,我们利用随机森林和决策树对数据进行优化,进一步完善了信息,得到了优化数据库,从而评估了地区的犯罪风险。随机森林和决策树基于信息论原理进行操作。信息数据在通信系统中经常会发生误差,导致信息损失,这种信息传递过程涉及信源、信道和信宿,其中信道模型的条件概率对信息传递至关重要。C5.0算法通过信息增益率选择最佳分组变量和分割点,防止过拟合现象。采用后修剪方法进行误差估计和修剪,利用训练集和测试集评估结果,我们的模型在训练集表现完美,测试集得分为75%,显示了在大数据与人工智能领域的广泛适用性。

训练集结果为100%,测试集合结果为75%,说明了我们的模型具有良好的可应用型与检验性,可以在大数据与人工智能背景下进行很好的推广。

3.2 网络结果显现

如下图3所示,模型通过样本中四个因素(失业率,最低生活保障人数,拟合可支配收入,每十万人中的高等教育人数)的数值大小逐步进行划分,最终决定该样本属于上述的哪个等级的犯罪率区间。

 

 

3 决策树流程图

3.3 结果显现

首先,通过随机森林与决策树构建库函数,C5.0算法进行裁枝,减小了过拟合现象的发生。然后通过数据检验与误差分析,可以得出失业率,最低生活保障人数,拟合人均可支配收入,每十万人口中平均高等教育人数可以以不同权重的决定犯罪率的高低[8]。最后通过混淆矩阵可以得到该模型的精确率与f1-score的数值。条件:令混淆矩阵为(在矩阵中表示第i等级,表示第j类事实;i,j=1,2,3,4)。标准:当‘混淆矩阵’时,右下三角对角线的值越大越好,其表示预测值和真实值完全一致。模型预测良好有很强的可适用性与预测能力。即犯罪率的高低在社会层面由失业率,最低生活保障人数,拟合人均可支配收入,每十万人口中平均高等教育人数四个因素决定。

4. 结论

通过对犯罪现象的多维度分析,我们发现失业率、最低生活保障人数、人均可支配收入和教育水平等因素对犯罪率有着重要影响。随机森林和决策树的原理基于信息论,通过信息增益率选取重要变量,有效避免过拟合问题。优化后的模型在训练集上表现出色,测试集得分为75%,验证了其可靠性和适用性。网络结果显示通过不同因素的权重划分,我们可推断失业率、最低生活保障人数、人均可支配收入和教育水平对犯罪率的影响程度。

参考文献

[1]张博为.大数据背景下互联网非法集资犯罪的预警与治理[J].辽东学院学报(社会科学版),2023,25(04):69-74.

[2]刘雨微.扫盲项目降低澳大利亚原住民犯罪率[N].中国社会科学报,2022-12-16(003).

[3]李丽,靳煜昕,鹿一鸣.大数据下山西省预防青少年违法犯罪现代化体系构建研究[J].山西警察学院学报,2024,32(02):68-75.

刘洪瑜  2003年7月 重庆市南岸区 本科生 电气工程及其自动化 新疆大学 830017


...


阅读全文