# webminning_finally **Repository Path**: NFUNM062/webminning_finally ## Basic Information - **Project Name**: webminning_finally - **Description**: No description available - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-07-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # WEBMinning_WXapp ## 项目介绍 - 本项目使用python语言与scrapy框架,从小程序社区爬取用户需要的文章标题和文章内容存储于wxapp.json文件中,并部署于scrapyhub。 - [scrapyhub部署](https://app.scrapinghub.com/datasets/6V04xqqJXsM)(登录后查看) - [EXCEL表格](https://gitee.com/NFUNM062/webminning_finally/blob/master/items_wxapp_spider_1.csv) - [py文件](https://gitee.com/NFUNM062/webminning_finally/tree/master/py%E6%96%87%E4%BB%B6) ## 名称 - 小程序文章内容scrapy框架爬虫 ## 数据信息 - json数据 - 数据页数:100页 - 数据维度:title、 author、 pub_time、 content ## 数据加值宣言 - 本项目产出以小程序社区中用户选择的文章标题,文章作者,文章发布时间,文章内容这四方面作为数据维度,并使数据便于根据文章标题与文章内容吻合程度判断是否为标题党。 ## 数据最小可用产品 - 数据维度: title:文章标题 author:文章作者 pub_time:文章发布时间 content:文章内容 - 解决的问题: 1.利用title和content双维度判定文章是否为标题党,提高文章审核效率,下架低质量文章。 2.利用author与title双维度对作者名下文章进行热度排序,按阅读量进行排序,或按pub_time进行排序。 3.利用pub_time和title判断某个关键词是否为时下热门关键词,排行榜关键词热度排序。 4.建立主题文本模型,对文章内容进行分析。 ## 挖掘Query参数 - page:页数 ## 思路方法及执行 1.在Anaconda中安装和配置scrapy框架环境以及scrapy所依赖的包。 ``` conda install scrapy ``` ``` conda install service_identity ``` 2、创建scrapy项目wxapp ``` scrapy startproject wxapp ``` 3、创建spider文件 ``` cd wxapp ``` ``` scrapy genspider wxapp_spider ``` 4、设置好爬虫名、域名与及入口url,然后在框架parse函数部分写入爬虫的解析方法,利用xpath对网页的信息进行抓取 ``` start_urls = ['http://wxapp-union.com/portal.php?mod=list&catid=1&page=1'] ``` 5、最后在items.py进行一个单元的输出设置。 ``` ## 文章标题 title = scrapy.Field() ## 作者 author = scrapy.Field() ## 发布时间 pub_time = scrapy.Field() ## 文章文本内容 content = scrapy.Field() ``` ## 心得总结及感谢 - 对于此次数据挖掘,初期的xpath爬取、以及如今的scrapy框架,都是十分便于用户使用而发明出来,初期在老师代码的帮助下,发现抓取网页数据并不难,但到自己实践的时候,总会因为各种报错而将数据挖掘的难度一而再的降低,减少维度,查询资料是解决问题方法之一二。但归根结底的原因是要自己掌握和熟悉使用代码,这样才不会因为挖掘内容的变动自己变得被动。也十分感谢智超老师和廖老师在课程上关于代码的讲解,课后大部分的不解问题大多通过csdn上的帖子进行解惑。