数据集

留学生数据库代写 数据集(book.txt)

说明如下:

第一列:book_id:图书编号

第四列:books_count:图书数量

第八列:authors:作者

第九列:original_publication_year:出版日期

第十一列:title:书本名称

用到的数据: 留学生数据库代写

数据集(book.txt)

说明如下:

第一列:book_id:图书编号

第四列:books_count:图书数量

第八列:authors:作者

第九列:original_publication_year:出版日期

第十一列:title:书本名称

第十三列:average_rating:平均评分

(其他列数据不用做本次报告)

 

数据集(book_tags.txt)说明如下: 留学生数据库代写

第二列:tag_id:图书编号

第三列:count:图书数量

(其他列数据不用做本次报告)

 

数据集(rating.txt)说明如下:

第二列:book_id:图书编号

第三列:rating:评分

(其他列数据不用做本次报告)

留学生数据库代写
留学生数据库代写

需要的分析 留学生数据库代写

 

1、分类模型,预测已知的结果(平均评分average_rating 4.2分及以上为优,以下为中),畅销书的评分)

 

第一步:读入数据和数据准备

将数据集book.txt读到一个框架(Data-frame)变量,然后去除缺失值和不需要的数据(譬如第二列的数据 goodreads_book_id),并将数据以 70% 和 30% 的比例分割成训练组(Train Partition)和测试组(Testing Partition);

 

第二步:建立模型并输出决策树

 

第三步:結果分析图书评分 留学生数据库代写

 

需要产生训练组和测试组的混淆矩阵,以及计算预测的正确率。最后输出训练组和测试组的混淆矩阵和正确率分析结果

 

2、交叉验证及模型部署