实验要求说明
【项目名称】基于有监督学习算法的鸢尾蝶数据分析与实践
【项目背景】了解数据库理论和目前大数据主流技术的结合,利用数据库作为存储媒介,结合锦城BI读取数据表,构建机器学习模型,进行有监督学习算法的分析挖掘,从而科学有效的识别鸢尾蝶花的类型。
项目使用的数据集为鸢尾蝶数据集,该数据集合为标准的机器学习数据,为了增加实验的挑战性,引入了部分噪声、冗余及脏数据,数据集的规模为150*5,其中样本数为150,列数为5分别为鸢尾蝶化的花瓣的长宽、花萼的长宽、及3类鸢尾蝶花的种类。
【实践目标】通过配置链接数据库服务器的数据源,结合SQL语句完成字段类型长度、精度等相关配置,实现关系型数据的分析数据源获取,即数据抽取的过程。接下来利用有锦城BI大数据分析平台构建机器学习算法模型,进而利用鸢尾蝶花的特征,来识别鸢尾蝶花的不同类型。
【实践环境】关系数据库,BI大数据分析平台
【实践流程】
步骤一:利用关系型数据库实现数据抽取。在BI大数据分析平台,配置链接PostgreSQL数据库,URL链接、用户名、密码根据实际环境情况进行配置,
项目的相关配置信息如下:
URL链接:jdbc:postgresql://10.7.120.5:5432/tipdm_pb
用户名 :postgres
密码 :postgres
在配置数据库连接后,根据项目需要配置SQL语句、创建数据源表、配置数据类型长度精度、测试连通性并实现数据同步。
步骤二:利用BI大数据分析平台进行数据的探索及预处理。在构建模型前,数据探索预处理是一个非常重要的环节,直接决定模型的质量和整体工程效果。
此处结合数据特点,探索分析适当的预处理环节,如数据清洗、数据集成、数据变换、数据规约等,使得数据源经过此环节清洗为可供模型使用的数据源。
步骤三:模型的构建和评估。为了使得模型具有较好的泛化能力,需要对清洁数据源选择合适的分割比例进行数据的分割,一部分用于模型构建(训练集),一部分用于模型评估(测试集)。针对训练集选择适当的有监督学习算法,进行规则学习,针对测试集,进行模型识别效果评估
【预期结果】本实践的产出结果为工程项目,包括BI大数据分析平台上的工程项目模型(全流程)及模型效果分析报告。

