# 大数据备考 **Repository Path**: lucccc/big-data-preparation ## Basic Information - **Project Name**: 大数据备考 - **Description**: 大数据备考收集的资料 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-01-14 - **Last Updated**: 2025-02-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 大数据备考 #### 介绍 大数据备考收集的资料 #### 软件架构 软件架构说明 #### 两颗星重点 #### 第二篇 计算机专业基础知识 #### (三) 操作系统 9. ★★磁盘阵列的主要实现方式 磁盘阵列(Redundant Arrays of Independent Disks,RAID),磁盘阵列是由很多块独立的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。利用这项技术,将数据切割成许多区段,分别存放在各个硬盘上。 RAID通过在多个磁盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量(Throughput)。在RAID中,可以让很多磁盘驱动器同时传输数据,而这些磁盘驱动器在逻辑上又是一个磁盘驱动器,所以使用RAID可以达到单个磁盘驱动器几倍、几十倍甚至上百倍的速率。这也是RAID最初想要解决的问题。因为当时CPU的速度增长很快,而磁盘驱动器的数据传输速率无法大幅提高,所以需要有一种方案解决二者之间的矛盾。RAID最后成功了。 RAID磁盘阵列的原理与搭建: https://zhuanlan.zhihu.com/p/356299159 10. ★★Linux基础 (1)基础命令(2)根目录结构 Linux常用命令大全,一篇搞定:https://zhuanlan.zhihu.com/p/578724015 (3)进程管理 01-Linux进程管理: https://zhuanlan.zhihu.com/p/636074315 (4)UID和GID 在Linux系统中,每个用户和组都有一个唯一的数字标识符,分别称为UID(用户ID)和GID(组ID)。这些标识符用于在系统级别上对用户和组进行身份验证和授权,并且在文件所有权和权限方面起着至关重要的作用。本文将介绍Linux系统中的UID和GID的概念、语法、实操以及各种方法之间的区别。 Linux系统中UID和GID详解: https://blog.csdn.net/m0_67268191/article/details/130772655 (5)权限设置 Linux权限管理(超详解哦):https://blog.csdn.net/weixin_73450183/article/details/131147693 (6)procfs文件系统 Linux系统上的/proc目录是一种文件系统,即proc文件系统。 /与其它常见的文件系统不同的是,/proc是一种伪文件系统(也即虚拟文件系统),它不包含任何磁盘上的文件,而是由内核在运行时动态生成的文件和目录。 在Linux中存在着一类特殊的伪文件系统,用于使用与文件接口统一的操作来完成各种功能,例如ptyfs、devfs、sysfs和procfs。而procfs就是其中应用最广泛的一种伪文件系统。 procfs是Linux内核信息的抽象文件接口,大量内核中的信息以及可调参数都被作为常规文件映射到一个目录树中,这样我们就可以简单直接的通过echo或cat这样的文件操作命令对系统信息进行查取和调整了。同时procfs也提供了一个接口,使得我们自己的内核模块或用户态程序可以通过procfs进行参数的传递。在当今的Linux系统中,大量的系统工具也通过procfs获取内核参数,例如ps、lspci等等,没有procfs它们将可能不能正常工作。 而在 /proc 目录中,每个文件和目录都代表着一个系统内核的运行时状态。 这些文件和目录可以用来查询和修改系统的各种参数和配置信息,如进程信息、内存使用情况、系统负载、网络状态等等。通过 /proc 文件系统,用户和程序可以直接访问和操作内核的运行时数据,而无需编写专门的内核模块或系统调用。 /proc 文件系统是一个只读文件系统,其中的大多数文件都是只读的,因为它们反映了内核的运行时状态。但是,有些文件可以被修改以改变内核的配置。例如,可以通过修改 /proc/sys/kernel/hostname 文件来更改系统的主机名。 总的来说,/proc 文件系统为系统管理员和开发人员提供了一种方便的方式来查询和调试系统的状态和性能。 (7)文件管理 Linux之用户管理: https://www.cnblogs.com/qinghuani/p/15025976.html (8)引导和启动 Linux系统启动过程:https://cloud.tencent.com/developer/article/2048993 Linux系统引导与启动:https://www.cnblogs.com/daiwei-123/p/16973655.html (9)基于关键词或者属性条件对文件进行过滤,基于字符串或正则表达式对文件内容进行数据搜索 快速掌握grep命令及正则表达式:https://www.linuxprobe.com/quickly-grasp-grep-command-and-regular-expression.html linux中find命令、正则表达式、三剑客之grep基本使用:https://www.cnblogs.com/semwu/p/15713323.html 11. ★★Windows基础 #### 第三编 数据科学基础知识 #### (五)★★Python编程基础 #### (七)★数据库管理与SQL 4. ★★使用 SQL 语言完成对数据库的查询、插入、删除、更新操作,可以用SQL语言正确完成复杂查询操作。 (1)查询多个列 (2)查询去重 (3)SQL聚合函数 (4)SQL 字符串函数 (5)SQL数值函数 (6)SQL⽇期和时间函数 (7)SQL数据分组 5. ★★常见数据库的备份操作 6. ★★通过数据库日志恢复数据 8. ★★能够在MySQL、SQLite上通过编程的方式开发应用程序,完成对数据库的各种操作;能够使用 ODBC、JDBC进行数据库应用程序的设计。 #### (八)数据处理 6. ★★使用EXCEL或者WPS进行数据分析 (1)单元格格式调整方法 Ctrl+1 组合键 (2)数据查找和替换方法 Ctrl+f 组合键 (3)外部数据导入导出方法 (4)数据有效性检查方法 第一步:依次点击【数据】-【数据验证】-在弹出数据验证设置框点击【设置】进行设置选中的区域的数据格式。 第二步:在数据验证设置框上点击出错警告可以设置数据校验出错的时候提示标题及内容 (5)日期和时间格式的处理方法 1、打开包含日期的Excel表格,选择包含日期的单元格或整列。在Excel的顶部菜单栏中,找到“开始”选项卡,在“数字”组下拉菜单中,选择“日期”选项。 2、在日期选项中,选择您想要的日期格式,例如“年-月-日”或“月/日/年”。所选单元格的日期将立即按照新的格式显示。 表格日期格式怎么设置?多种方法设置日期格式,超简单!:https://baijiahao.baidu.com/s?id=1784464381727845848&wfr=spider&for=pc (6)数据筛选和排序 (7)数据分类汇总 (8)数据透视表、图的使用,包括分类汇总、取平均、最大最小值、自动排序、自动筛选、自动分组;可分析占比、同比、环比、定比 多练练吧:https://support.microsoft.com/zh-cn/office/%E5%88%9B%E5%BB%BA%E6%95%B0%E6%8D%AE%E9%80%8F%E8%A7%86%E5%9B%BE-c1b1e057-6990-4c38-b52b-8255538e7b1c?ui=zh-cn&rs=zh-cn&ad=cn (9)EXCEL两表数据比对方法 http://www.360doc.com/content/23/0204/22/72182290_1066225681.shtml (10)EXCEL常用统计公式使用 Excel中最实用的15个统计公式,值得收藏!:https://zhuanlan.zhihu.com/p/344995415 (11)日期函数:day,month,year,date,today,weekday,weeknum 21个Excel日期函数公式大全!终于整理全了,收藏备用:https://baijiahao.baidu.com/s?id=1714682158902556648&wfr=spider&for=pc (12)数学函数:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct Excel中常用的数学函数:https://zhuanlan.zhihu.com/p/488303300 (13)统计函数:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif (14)查找和引用函数:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata (15)文本函数:find,search,text,value,concatenate,left,right,mid,len (16)逻辑函数:and,or,false,true,if,iferror 7. ★★文本编辑器数据处理 (1)列编辑模式的使用 (2)各类编码字符的搜索和替换 (3)正则搜索语法 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)