# webminning_finally

**Repository Path**: NFUNM062/webminning_finally

## Basic Information

- **Project Name**: webminning_finally
- **Description**: No description available
- **Primary Language**: Python
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-07-18
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# WEBMinning_WXapp

## 项目介绍

- 本项目使用python语言与scrapy框架，从小程序社区爬取用户需要的文章标题和文章内容存储于wxapp.json文件中，并部署于scrapyhub。
- [scrapyhub部署](https://app.scrapinghub.com/datasets/6V04xqqJXsM)（登录后查看）
- [EXCEL表格](https://gitee.com/NFUNM062/webminning_finally/blob/master/items_wxapp_spider_1.csv)
- [py文件](https://gitee.com/NFUNM062/webminning_finally/tree/master/py%E6%96%87%E4%BB%B6)
## 名称

- 小程序文章内容scrapy框架爬虫

## 数据信息

- json数据
- 数据页数：100页
- 数据维度：title、 author、 pub_time、 content

## 数据加值宣言

- 本项目产出以小程序社区中用户选择的文章标题，文章作者，文章发布时间，文章内容这四方面作为数据维度，并使数据便于根据文章标题与文章内容吻合程度判断是否为标题党。

## 数据最小可用产品

- 数据维度：

title：文章标题

author:文章作者

pub_time：文章发布时间

content：文章内容

- 解决的问题：

1.利用title和content双维度判定文章是否为标题党，提高文章审核效率，下架低质量文章。

2.利用author与title双维度对作者名下文章进行热度排序，按阅读量进行排序，或按pub_time进行排序。

3.利用pub_time和title判断某个关键词是否为时下热门关键词，排行榜关键词热度排序。

4.建立主题文本模型，对文章内容进行分析。

## 挖掘Query参数

- page：页数

## 思路方法及执行

1.在Anaconda中安装和配置scrapy框架环境以及scrapy所依赖的包。

```
conda install scrapy
```

```
conda install service_identity
```

2、创建scrapy项目wxapp

```
scrapy startproject wxapp
```

3、创建spider文件

```
cd wxapp
```

```
scrapy genspider wxapp_spider
```

4、设置好爬虫名、域名与及入口url，然后在框架parse函数部分写入爬虫的解析方法，利用xpath对网页的信息进行抓取

```
start_urls = ['http://wxapp-union.com/portal.php?mod=list&catid=1&page=1']
```

5、最后在items.py进行一个单元的输出设置。

```
    ## 文章标题
    title = scrapy.Field()
    ## 作者
    author = scrapy.Field()
    ## 发布时间
    pub_time = scrapy.Field()
    ## 文章文本内容
    content = scrapy.Field()
```

## 心得总结及感谢
- 对于此次数据挖掘，初期的xpath爬取、以及如今的scrapy框架，都是十分便于用户使用而发明出来，初期在老师代码的帮助下，发现抓取网页数据并不难，但到自己实践的时候，总会因为各种报错而将数据挖掘的难度一而再的降低，减少维度，查询资料是解决问题方法之一二。但归根结底的原因是要自己掌握和熟悉使用代码，这样才不会因为挖掘内容的变动自己变得被动。也十分感谢智超老师和廖老师在课程上关于代码的讲解，课后大部分的不解问题大多通过csdn上的帖子进行解惑。