ubuntu 23.10 解压 7z 压缩文件
安装 7z 压缩解压包1sudo apt install -y p7zip-full
解压 7z 文件17z x 数据源.7z -r -o./data/
说明:
7z:是解压缩命令;
x:是解压的意思;
-r:表示递归解压缩所有的子文件夹;
-o:表示将文件解压缩到指定的目录,需要注意的是,-o 后面没有空格,紧跟路径;
压缩17z a -t7z filename.yz ./dir/*
数据分析 016-新零售案例分析
源数据源数据在私有 gitlab 对应的 019-20231121-RFM 模型目录下
源数据说明数据表:action.csv
user_id:用户ID;
sku_id:商品ID;
time:行为(浏览、下单、加入购物车、删除、购买等行为的)时间;
model_id:模型ID;
type:行为ID;
cate:品类(服装、护肤品、生鲜等等分类);
brand:品牌
数据表:user.csv
user_id:用户ID;
age:用户年龄(-1 代表该用户没有设置年龄段,6 代表50~60 岁的样子);
sex:用户性别(0
user_lv_cd:用户等级;
browse_num:用户浏览记录次数;
addcart_num:用户加入购物车的数量;
delcart_num:用户删除购物车的数量;
buy_num:用户购买次数统计;
favor_num:用户收藏记录;
click_num:用户点击次数;
数据读取分析源数据读取123456789101112131415161718192021222324252627282930313233343536373839import pand ...
数据分析 014-特征工程
什么是特征工程?特征工程是指在机器学习和数据挖掘中,对原始数据进行处理和转换,以便更好地表示数据特征,提取出有用的信息,从而提高模型的性能。特征工程包括数据清洗、特征选择、特征变换等步骤,旨在减少数据噪声、消除冗余特征、提取有意义的特征,并为模型提供更有信息量的输入。通过合理的特征工程,可以改善模型的准确性、稳定性和泛化能力。特征工程在机器学习中起着至关重要的作用,对于构建高效的预测模型至关重要。
docker 之服务部署-onlyoffice workplace
官方文档:https://helpcenter.onlyoffice.com/installation/workspace-install-docker-integrated.aspx
系统环境:
系统版本:ubuntu 23.10 (Mantic Minotaur)
内核版本:6.5.0-10-generic #10-Ubuntu SMP PREEMPT_DYNAMIC Fri Oct 13 13:49:38 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
Dokcer:Docker version 24.0.7, build afdd53b
物理机IP:192.168.3.120
onlyoffice workspace 部署步骤:部署前的准备:1.创建挂载目录:
123456789101112131415161718192021# MySQL 挂载目录:mkdir /data/docker/onlyoffice/mysql/conf.d -pmkdir /data/docker/onlyoffice/mysql/data -pmkdir ...
数据分析 013-描述统计
频数与频率频数和频率是统计学中常用的概念,用于描述数据中不同取值或组别出现的次数。
频数(Frequency)指的是某个取值或组别在数据中出现的次数。例如,假设有一个班级的学生身高数据,频数可以表示某个身高值在数据中出现的次数。频数可以用来描述数据的分布情况,帮助我们了解数据中各个取值的重要性或出现的频率。
频率(Frequency)指的是某个取值或组别在数据中出现的相对比例或百分比。频率可以通过将频数除以总样本数来计算得到。频率可以帮助我们比较不同取值或组别之间的相对重要性或出现的相对频率。
举例来说,假设有一个调查问卷,其中包含了对不同年龄段的人口数量进行统计。我们可以计算每个年龄段的频数,即各个年龄段在样本中出现的次数。然后,通过将频数除以总样本数,得到每个年龄段的频率,即各个年龄段在样本中的相对比例。
总结起来,频数是指某个取值或组别在数据中出现的次数,而频率是指某个取值或组别在数据中出现的相对比例或百分比。它们是统计学中用于描述数据分布和比较不同取值或组别之间重要性的重要概念。
课堂练习假设校领导关注与某班级学生的期末考试成绩,我们会怎样进行回报? (C)
A 某班成 ...
数据分析 012-线性回归模型
模型的概念在 Python 中,模型是指用来表示和处理数据的抽象概念。模型可以是数学模型、统计模型、机器学习模型等,用于描述数据之间的关系、预测未知数据或进行决策。
在机器学习中,模型是通过训练算法从数据中学习得到的。它可以是分类模型、回归模型、聚类模型等,用于对未知数据进行分类、预测或者分组。模型可以由各种算法实现,如线性回归、决策树、支持向量机、神经网络等。
在使用模型时,通常需要进行训练和评估。训练是指使用已知数据来调整模型的参数或权重,使其能够更好地拟合数据。评估是指使用测试数据来评估模型的性能和准确度。
Python 中有许多流行的机器学习库和框架,如scikit-learn、TensorFlow、PyTorch等,它们提供了丰富的模型实现和工具,方便用户在Python中构建和使用各种类型的模型。
线性关系两个变量之间存在一次方函数关系,就称它们之间存在线性关系。更通俗一点讲,如果把这两个变量分别作为点的横坐标与纵坐标,其图像是平面上的一条直线,则这两个变量之间的关系就是线性关系。
下面哪个是线性关系?(C)A: $y= e^x + 8x$B: $y ...
数据分析 011-pyecharts 绘图.md
点击本文中的链接,如果图片加载不成来或者是一片空白,请重新刷新下网页
pyecharts 简介pyecharts 是一个基于 Python 的数据可视化库,它提供了丰富的图表类型和交互功能,可以帮助用户快速地创建高质量的数据可视化图表。pyecharts 采用了 echarts.js 作为底层图表库,因此具有 echarts.js 的优秀特性,如丰富的图表类型、灵活的配置项、强大的数据处理能力等。同时,pyecharts 也提供了 Pythonic 的 API 接口,使得用户可以使用 Python 的方式来创建图表,非常方便易用。
pyecharts 绘图分为2个方向,分别为:直角坐标系图和非直角坐标系图
pyecharts 安装打开命令行终端,直接执行安装命令:
1pip install pyecharts
pyecharts 使用导入必要的库1234from pyecharts import options as optsfrom pyecharts.charts import *import randomimport numpy as np
绘图直角坐标图有以下类型柱状图 ...
数据分析 009-MatPlotlib 进阶
相关模块安装:1pip install scikit-learn seaborn
模块导入123456import matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport randomimport seaborn as snsfrom sklearn.datasets import load_iris
matplotilib 绘图:条形图:bar() 的用法柱状图是用来对数据进行对比
语法:plt.bar(left, height, width=0.8, bottom=None, **kwargs)
参数说明
left:为分类数量一致的数值序列,序列里的数值数量决定了柱子的个数,数值大小决定了距离 0 点的位置
height:为分类变量的数值大小,决定了柱子的高度;
width:决定了柱子的宽度,仅代表形状宽度而已;
bottom:决定了柱子距离 x 轴的高度,默认为 None ,即表示与 x 轴距离为 0;
垂直条形图源数据:
12CITY = ['北京', ...
数据分析 010-plotly
Plotly 简介Plotly 是一个交互式的数据可视化库,用于创建高质量的图表和可视化。它支持多种编程语言,包括 Python、R、JavaScript等。
Plotly 提供了丰富的图表类型,包括折线图、散点图、柱状图、饼图、热力图、地图等等。这些图表可以通过交互方式进行探索和操作,例如缩放、平移、悬停显示数据信息等。
使用 Plotly,您可以创建漂亮且具有交互性的图表,并将其嵌入到网页、Jupyter Notebook、Dash应用程序等中。它还支持生成静态图像文件,如PNG、JPEG等。
Plotly 提供了一个面向对象的接口,使得用户可以对图表进行高度定制。您可以设置标题、轴标签、图例、颜色、线型等属性,以及添加注释、标记点、网格线等元素,以满足特定的可视化需求。
此外,Plotly 还提供了在线的可视化工具和社区,您可以在 Plotly 的网站上保存和共享您的图表,与他人进行协作和交流。
Plotly 安装1pip install plotly
Plotly 使用导入模块12345678910import osimport numpy as npimport ...
数据分析 008-MatPlotlib 之初体验
MatPlotlib 简介Matplotlib 是一个用于创建数据可视化的Python库。它提供了广泛的绘图选项,可以用于生成各种类型的图表,包括线图、散点图、柱状图、饼图等等。
Matplotlib 的设计灵感来自于 MATLAB,因此其使用方式和 MATLAB 相似。它是一个功能强大且灵活的库,可以满足从简单的绘图需求到复杂的数据可视化任务。
Matplotlib 提供了一个面向对象的接口,使得用户可以对图形进行精细的控制。同时,它也提供了一个简单的 pyplot 接口,方便快速绘制简单的图表。
使用 Matplotlib,您可以自定义图表的各种属性,包括标题、标签、线型、颜色等。您还可以添加图例、网格线、注释等元素,以增强图表的可读性。
除了基本的绘图功能,Matplotlib 还支持多个子图、3D 图形、动画等高级功能。此外,它还可以与其他科学计算库(如 NumPy 和 Pandas)无缝集成,方便地处理和可视化数据。
matplotlib 安装12import matplotlib.pyplot as pltimport random
导入所需的库123impor ...