特征工程 发表于 2019-04-11 | 分类于 机器学习 | 热度: ℃ 字数统计: 3.1k 字 | 阅读时长 ≈ 12 分钟 数据预处理未经处理的特征有以下问题: 不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。 信息冗余:对于某些定量特征,其包含的有效信息为区间划分。例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决 ... 阅读全文 »
XGB算法梳理 发表于 2019-04-09 | 分类于 机器学习 | 热度: ℃ 字数统计: 2.6k 字 | 阅读时长 ≈ 10 分钟 算法原理XGB(extreme gradient boosting)是GBDT的一种工业实现,也是通过不断增加新树,拟合伪残差去降低损失函数。其拟合过程是使用的损失函数的二阶泰勒展开,这是和GBDT的一个区别。 xgboost使用CART树而不是用普通的决策树。对于分类问题,由于CART树的叶子节点 ... 阅读全文 »
Python基础任务5 发表于 2019-04-07 | 分类于 编程语言 | 热度: ℃ 字数统计: 4.7k 字 | 阅读时长 ≈ 18 分钟 Fileopen() 方法Python open() 方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。 注意:使用 open() 方法一定要保证关闭文件对象,即调用 close() 方法。 open() 函数常用形式是接收 ... 阅读全文 »
GBDT算法梳理 发表于 2019-04-07 | 分类于 机器学习 | 热度: ℃ 字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟 前向分步算法加法模型 f(x) = \sum_{m=-1}^M\beta_mb(x;\gamma_m)上述公式其实就是基函数的一种线性组合,其中: $b(x;\gamma_m)$ 为基函数 $\gamma_m$ 为基函数的参数 $\beta_m$ 为基函数的系数 不同问题的提升树学习算法,其主 ... 阅读全文 »
Python基础任务4 发表于 2019-04-05 | 分类于 编程语言 | 热度: ℃ 字数统计: 2.7k 字 | 阅读时长 ≈ 10 分钟 函数关键字1234def functionname( parameters ): "函数_文档字符串" function_suite return [expression] 函数的定义在Python中,定义一个函数需要确定函数名和参数个数,要使用def语句,依次写出函数名、括号、括号中的 ... 阅读全文 »
Python基础任务3 发表于 2019-04-04 | 分类于 编程语言 | 热度: ℃ 字数统计: 2.1k 字 | 阅读时长 ≈ 8 分钟 dict字典Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 定义字典的每个键值 key=>value 对用冒号 : 分割,每个键值对之间用逗号 , 分割,整个字典包括在花括号 {} ... 阅读全文 »
随机森林算法梳理 发表于 2019-04-02 | 分类于 机器学习 | 热度: ℃ 字数统计: 2.4k 字 | 阅读时长 ≈ 8 分钟 集成学习概念集成学习通过构建并结合多个学习器(分类器)来完成分类任务。集成学习的一般结构:先产生一组“个体学习器”(individual learner),再用某种策略将它们结合起来。集成学习有两个关键的东西,第一,就是一组个体学习器;第二,结合策略。 个体学习器概念集成学习通过对多个学习器进行组合 ... 阅读全文 »
Python基础任务2 发表于 2019-04-02 | 分类于 编程语言 | 热度: ℃ 字数统计: 3.7k 字 | 阅读时长 ≈ 15 分钟 列表Python内置的一种数据类型是列表:list 标志使用[] 基本操作(创建,append( ),pop( ) ,del( ), 拷贝)创建list是一种有序的集合,可以随时添加和删除其中的元素。 123>>> classmates = ['Michael', 'Bob', ... 阅读全文 »
决策树算法梳理 发表于 2019-04-02 | 分类于 机器学习 | 热度: ℃ 字数统计: 5.4k 字 | 阅读时长 ≈ 19 分钟 信息论基础熵熵的英文为entropy,表示一个系系统在不受外部干扰时,其内部最稳定的状态。 1948年,香农Claude E. Shannon引入信息(熵),将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。信息熵被认为是系统有序化程度的一个度量 ... 阅读全文 »
Python基础任务1 发表于 2019-03-31 | 分类于 编程语言 | 热度: ℃ 字数统计: 1.8k 字 | 阅读时长 ≈ 7 分钟 python初体验print and input12>>> print("Hello world!")Hello world! 1234>>> s = input()Hello China!>>>print(s)Hello China! pyth ... 阅读全文 »