# blog_analysis **Repository Path**: f5gua/blog_analysis ## Basic Information - **Project Name**: blog_analysis - **Description**: 对伟大的稀土掘金博客进行数据爬取,数据分析。 并以数据可视化看板展示分析结果。 分析大方向上的创作热点趋势、分析总体用户的创作时间偏好,分析掘金的用户技术偏好 分析个人用户的内容活跃趋势(点赞收藏评论)、分析个人用户的创作时间偏好、分析个人用户的技术偏好 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2023-12-09 - **Last Updated**: 2023-12-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 这是一个什么项目 做什么: > 对伟大的稀土掘金博客进行数据爬取(仅供学习使用),数据分析,并以数据可视化看板展示分析结果。 > 分析大方向上的创作热点趋势、分析总体用户的创作时间偏好,分析掘金的用户技术偏好 > 分析个人用户的内容活跃趋势(点赞收藏评论)、分析个人用户的创作时间偏好、分析个人用户的技术偏好 ## 数据分析-思路方向 - 热榜文章的主题分布:你可以使用词云或柱状图等可视化工具,对热榜文章的标题进行分词和统计,看看哪些主题最受关注。例如,你可以发现,人工智能、SpringBoot、SpringCloud等技术主题比较热门。 - 热榜文章的作者特征:你可以对热榜文章的作者进行分析,看看他们的用户名、头像、粉丝数、文章数等信息,看看是否有一些共同的特征。例如,你可以发现,热榜文章的作者大多使用真实的人物头像,而不是动漫或其他形象,这可能说明他们比较注重个人形象和信誉。 - 热榜文章的互动情况:你可以对热榜文章的阅读量、评论数、收藏数、热度等指标进行分析,看看哪些文章最受欢迎,以及这些指标之间的相关性。例如,你可以发现,阅读量和热度之间有较强的正相关,说明阅读量是影响热度的重要因素。 - 热榜文章的时间分布:你可以对热榜文章的爬取日期进行分析,看看哪些日期的文章最多,以及是否有一些周期性的规律。例如,你可以发现,周一到周五的文章比周末的文章多,说明工作日的博客活跃度比较高。 😊 # 可爬取页面 ## 首页 https://juejin.cn 综合数据可无限滚动获取数据,达成一万条数据 数据: 点赞数、查看数 (有缺省值) - url - title - brief - author - likes - watchs - cover - category 重点还是url,具体让单条文章去做表 ## 单条文章 粒度更细 - url(自己补上) - title - time - watchs - readDuration - column - likes - comments - stars - author - author_url - author_lever - author_articles - author_watchs - author_fans - category - topic ## 用户相关 - avatar - author - author_lever - friend_lever - achieves - focuse - be_focuse - badge - join_time 用户文章: - url - title - brief - vague_time - author - watchs - likes - comments - cover - category 重点还是url,具体让单条文章去做表