数据集
留学生数据库代写 数据集(book.txt)
说明如下:
第一列:book_id:图书编号
第四列:books_count:图书数量
第八列:authors:作者
第九列:original_publication_year:出版日期
第十一列:title:书本名称
用到的数据: 留学生数据库代写
数据集(book.txt)
说明如下:
第一列:book_id:图书编号
第四列:books_count:图书数量
第八列:authors:作者
第九列:original_publication_year:出版日期
第十一列:title:书本名称
第十三列:average_rating:平均评分
(其他列数据不用做本次报告)
数据集(book_tags.txt)说明如下: 留学生数据库代写
第二列:tag_id:图书编号
第三列:count:图书数量
(其他列数据不用做本次报告)
数据集(rating.txt)说明如下:
第二列:book_id:图书编号
第三列:rating:评分
(其他列数据不用做本次报告)
需要的分析 留学生数据库代写
1、分类模型,预测已知的结果(平均评分average_rating 4.2分及以上为优,以下为中),畅销书的评分)
第一步:读入数据和数据准备
将数据集book.txt读到一个框架(Data-frame)变量,然后去除缺失值和不需要的数据(譬如第二列的数据 goodreads_book_id),并将数据以 70% 和 30% 的比例分割成训练组(Train Partition)和测试组(Testing Partition);
第二步:建立模型并输出决策树
第三步:結果分析图书评分 留学生数据库代写
需要产生训练组和测试组的混淆矩阵,以及计算预测的正确率。最后输出训练组和测试组的混淆矩阵和正确率分析结果
2、交叉验证及模型部署