isodata的matlab代码博客-Titanic_data:泰坦尼克号_data

  • o3_584723
    了解作者
  • 38.4MB
    文件大小
  • zip
    文件格式
  • 0
    收藏次数
  • VIP专享
    资源类型
  • 0
    下载次数
  • 2022-05-08 07:32
    上传日期
isodata的matlab代码博客 人工智能概述 使用机器模仿人类学习和其他方面的智能 图灵测试 测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。 多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。 主要分支 计算机视觉(图像形成,图像处理,图像提取,图像三维推理) 自然语言处理(文本挖掘与分类,机器翻译,语音识别) 机器人 三要素 数据 算法 计算力 机器学习库 Numpy 了解Numpy运算速度上的优势 知道数组的属性,形状、类型 应用Numpy实现数组的基本操作 应用随机数组的创建实现正态分布应用 应用Numpy实现数组的逻辑运算 应用Numpy实现数组的统计运算 应用Numpy实现数组之间的运算 ndarray到底跟原生python列表有什么不同呢 ndarray在存储数据的时候,数据与数据的地址都是连续的,这样就给使得批量操作数组元素时速度更快。 这是因为ndarray中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以nda
Titanic_data-dev.zip
内容介绍
### 人工智能概述 使用机器模仿人类学习和其他方面的智能 - 图灵测试 测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。 多次测试(一般为**5min**之内),如果有超过**30%**的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有**人类智能**。 - 主要分支 - 计算机视觉(图像形成,图像处理,图像提取,图像三维推理) - 自然语言处理(文本挖掘与分类,机器翻译,语音识别) - 机器人 - 三要素 - 数据 - 算法 - 计算力 ### 机器学习库 #### Numpy - 了解Numpy运算速度上的优势 - 知道数组的属性,形状、类型 - 应用Numpy实现数组的基本操作 - 应用随机数组的创建实现正态分布应用 - 应用Numpy实现数组的逻辑运算 - 应用Numpy实现数组的统计运算 - 应用Numpy实现数组之间的运算 ##### ndarray到底跟原生python列表有什么不同呢 ndarray在存储数据的时候,数据与数据的地址都是连续的,这样就给使得批量操作数组元素时速度更快。 这是因为ndarray中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以ndarray在存储元素时内存可以连续,而python原生list就只能通过寻址方式找到下一个元素,这虽然也导致了在通用性能方面Numpy的ndarray不及Python原生list,但在科学计算中,Numpy的ndarray就可以省掉很多循环语句,代码使用方面比Python原生list简单的多。 数据类型必须相同 ##### ndarray的属性 数组属性反映了数组本身固有的信息。 | 属性名字 | 属性解释 | | ---------------- | -------------------------- | | ndarray.shape | 数组维度的元组 | | ndarray.ndim | 数组维数 | | ndarray.size | 数组中的元素数量 | | ndarray.itemsize | 一个数组元素的长度(字节) | | ndarray.dtype | 数组元素的类型 | #### Pandas - 了解Numpy与Pandas的不同 - 说明Pandas的Series与Dataframe两种结构的区别 - 了解Pandas的MultiIndex与panel结构 - 应用Pandas实现基本数据操作 - 应用Pandas实现数据的统计分析 - 应用Pandas实现数据的逻辑筛选 - 应用Pandas实现数据的算数运算 - 应用Pandas实现数据的缺失值处理 - 应用Pandas实现数据的离散化处理 - 应用Pandas实现数据的合并 - 应用crosstab和pivot_table实现交叉表与透视表 - 应用groupby和聚合函数实现数据的分组与聚合 - 了解Pandas的plot画图功能 - 应用Pandas实现数据的读取和存储 ##### Dataframe常用操作 df.info() 打印二维数组的信息 df.describe() 查看数据值列的汇总统计 可返回变量和观测的数量、缺失值和唯一值的数目、平均值、分位数等相关信息 df.T index 跟 columns 对调 df.columns求列 df.index 求行 ##### 薄弱点 回顾pandas 切片 DataFrame 切片 报错: ``` 'DataFrame' object has no attribute 'type' 'RangeIndex' object has no attribute 'index' ``` ##### [pandas (loc、iloc、ix)的区别](https://www.cnblogs.com/keye/p/7825280.html) **loc:**通过行标签索引数据 **iloc:**通过行号索引行数据 **ix:**通过行标签或行号索引数据(基于loc和iloc的混合) 使用loc、iloc、ix索引第一行数据: **loc:** **![img](https://img2018.cnblogs.com/blog/1235684/201903/1235684-20190314193022370-1097142667.png)** ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113103030031-203044434.png) ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113103306906-486702850.png) ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113103325702-1905964753.png) **iloc:** ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113103846452-166603526.jpg) ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113104105999-581459458.jpg) ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113104113327-2047599815.jpg) **ix:** ![img](https://images2017.cnblogs.com/blog/1235684/201711/1235684-20171113104518140-1699869554.jpg) #### Matplotlib - 知道Matplotlib的架构 - 应用Matplotlib的基本功能实现图形显示 - 应用Matplotlib实现多图显示 - 应用Matplotlib实现不同画图种类 ##### 常用图 - 1折线图: 概念: 用于展示数据的变化情况的 API: plt.plot(x, y) - 2散点图: 用于分析两个变量的规律, 展示离散点分布情况 API: plt.scatter(x, y) - 3柱状图: 统计,对比,离散 API: plt.bar(x, height, width, color) x : x轴的标量序列 height: 标量或标量序列, 柱状图的高度,或者为应变量 width : 柱状图的宽度, 默认值0.8 align : 柱状图在x维度上的对齐方式, {‘center’, ‘edge’}, 可选, 默认: ‘center’ **kwargs : color:选择柱状图的颜色 ```python import matplotlib.pyplot as plt #准备数据 name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它'] income = [73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222] #创建画布 plt.figure(figsize=(20,8),dpi=100) #绘制柱状图 # x = range(len(name)) x =name plt.bar(x,income,width=0.5,color=['y','b','r','k']) #设置x轴参数 plt.xticks(x,name) plt.show() # 设置刻度字体大小 # plt.tick_params(labelsize=20) ``` - 4直方图: 展示连续数据的分布情况 API: plt.hist(x, bins) x : 数组或数组的序列, 表示要展示的数据 bins : 整数,序列 可选 如果是整数就是柱状体的个数 如果序列就是每个柱状体的边缘值, 左开右闭. ```python x2 = np.random.normal(loc=2,scale=4,size=100000) #loc均值,scale 标准差 #画布 plt.figure(figsize=(20,8),dpi=100) plt.hist(x2,bins=1000) plt.show() ``` - 5饼状图: 占比 API: plt.pie(x, labels, autopct, colors) x:数量,自动算百分比 labels:每部分名称 autopct:占比显示指定 '%.2f%%' colors:每部分颜色 ```python import matplotlib.pyplot as plt import numpy as np #准备数据 x = ['周一','周二','周三','周四','周五','周六','周日'] y = [12,23,31,44,52,65,79] #创建画布 plt.figure(figsize=(20,8),dpi=100) plt.pie(y,labels=x,autopct='%.2f%%') #绘图 plt.show() ``` #### Seaborn Seaborn是基于matplotlib的Python可视化库。 它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,不需要经过大量的调整就能使你的图变得精致。**但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替代物。** ##### kdeplot(核密度估计图) 核密度估计(kernel density estimation)是在**概率论**中用来估计未知的**密度函数**,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。 ##### distplot displot()集合了matplotlib的hist()与核函数估计kdeplot的功能,增加了rugplot分布观测条显示与利用scipy库fit拟合参数分布的新颖用途。 ```python import matplotlib.pyplot as plt import seaborn as sns # 绘制图像 plt.figure(figsize=(12,4)) sns.distplot(train['longestKill'], bins=10) plt.show() ``` ##### countplot 计数直方图 countplot 故名思意,是“计数图”的意思,可将它认为一种应用到分类变量的直方图,也可认为它是用以比较类别间计数差,调用 count 函数的 barplot; countplot 参数和 barplot 基本�
评论
    相关推荐
    • 神经网络分类matlab程序
      使用matlab编写的神经网络分类程序,方便实用 使用matlab编写的神经网络分类程序,方便实用 使用matlab编写的神经网络分类程序,方便实用 使用matlab编写的神经网络分类程序,方便实用
    • 朴素贝叶斯分类matlab实现
      分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类...
    • 分类MATLAB程序
      十几个程序,谱聚类的完整例子,有详细的例子,绝对物有所值,包括花朵分类,核函数等,MATLAB程序,下载绝对值得!包括研究生写论文,也是值得参考
    • 模式分类matlab实现
      duda给出的模式分类一书的matlab实现.
    • SVM文本分类MatLAB源代码
      SVM文本分类MatLAB源代码 为m-file格式
    • 多层ELM进行MNIST手写字符分类MATLAB代码
      多层ELM进行MNIST手写字符分类MATLAB代码,直接运行.m程序,如果现实内存溢出,请改小隐藏节点个数。
    • Fisher分类MATLAB算法.rar
      手写数字识别Fisher分类MATLAB算法。内有程序,8个数字样本的训练样本。数字的特征提取部分解压后请见project report.ppt.
    • 高维多标签分类matlab
      高维多标签分类matlab knn,svm,随机森林等算法 784维数据 分为10类
    • svm多分类matlab程序
      svm多分类matlab程序,包括一对一、一对余等二叉树分类算法
    • 神经网络分类matlab程序
      使用matlab编写的神经网络分类程序,方便实用