目录

安全中心建设关键技术之机器学习

目录

安全中心建设关键技术之机器学习

1.1.1 功能要求

针对目前广为流行的网银、掌上银行撞库行为,需要围绕撞库防护建立针对性的发现、预警、拦截体系。在本课题在大量数据中自动分析获得规律,并利用规律对未知数据进行预测。通过机器学习重点解决目前无法在识别撞库攻击源IP地址的基础上,进一步识别出被撞库成功的账号。

由于机器学习算法需要从数据中自动分析获得规律,所以必须要有历史数据。在针对撞库攻击行为分析的场景中,首先需要获取手机银行和网上银行的登录历史数据,其中需要包含如下信息:账号、登录时间、登录IP地址、登录是否成功。利用机器学习离线分析算法自动分析这些历史数据,从中找到撞库攻击行为的规律,将撞库攻击行为的规律保存为攻击模型。然后将今后的登录行为与攻击模型进行匹配判别,根据攻击模型判断是否发生了撞库攻击行为。

1.1.2 技术要求

1、离线分析数据是之前发生过撞库攻击行为的历史数据,该历史数据已经由负载均衡器写入日志。其中包括但不限于:源IP地址、请求时间、操作请求类型、请求结果;

2、支持导出的登录日志经过脱敏之后提供给离线分析使用;

3、支持通过特征构建、特征提取、特征选择三个步骤,提取出最为有用的特征,以供机器学习算法建立模型。

4、将原始日志按照时间窗口简单统计和处理,获得为样本数据,样本数据包括:源IP地址、登录账号数、登陆成功账号数、登录失败账号数;

5、每一个时间窗口一条记录;

6、特征选择是剔除不相关或者冗余的特征,减少有效特征的个数,减少模型训练的时间,提高模型的精确度;

7、依靠统计学方法或者于机器学习模型本身的特征选择(排序)功能实现降维;

8、特征选择支持模型验证;

9、历史登录日志经过特征工程后,采用K-Means算法,将生成的样本数据进行聚类训练,将样本数据自动的分为K类,经过人工分析,将其中的一类(假设为N类)数据定义为撞库行为。