传统机器学习 发表于 2019-03-09 | 分类于 机器学习 | 热度: ℃ 字数统计: 1.9k 字 | 阅读时长 ≈ 8 分钟 朴素贝叶斯的原理贝叶斯分类是一类分类算法的总称,这类算法均已贝叶斯定理为基础,故统称为贝叶斯分类。公式如下: P(B|A)=\frac{P(A|B)P(B)}{P(A)}该公式最大的优点就是可以忽略AB的联合概率直接求其条件概率分布。因为整个形式化过程只做最原始、最简单的建设:各特征属性是条件独立 ... 阅读全文 »
特征选择 发表于 2019-03-07 | 分类于 机器学习 | 热度: ℃ 字数统计: 1.1k 字 | 阅读时长 ≈ 4 分钟 TF-IDF原理Term Frequency-Inverse Document Frequency, 词频-逆文件频率 TF-IDF是一种用于资讯检索与文本挖掘的常用加权技术,一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比 ... 阅读全文 »
基本文本处理技能 发表于 2019-03-05 | 分类于 机器学习 | 热度: ℃ 字数统计: 1.1k 字 | 阅读时长 ≈ 3 分钟 分词的概念分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 目前的分词方法归纳起来有3类: 第一类是基于语法和规则的分词法。在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到 ... 阅读全文 »
召回率、准确率、ROC曲线、AUC、PR曲线 发表于 2019-03-03 | 分类于 机器学习 | 热度: ℃ 字数统计: 607 字 | 阅读时长 ≈ 2 分钟 召回率、准确率在二分类问题中,常用的分类器性能评价指标是精确率和召回率 如图所示: 绿色的半圆就是TP(True Positives) 红色的半圆就是FP(False Positives) 左边的灰色长方形(不包括绿色半圆),就是FN(False Negatives) 右边的 浅灰色长方形( ... 阅读全文 »
逻辑回归损失函数的推导 发表于 2018-10-16 | 分类于 算法 | 热度: ℃ 字数统计: 919 字 | 阅读时长 ≈ 4 分钟 逻辑回归主要思想:根据现有数据对分类边界线建立回归公式 优点:计算代价不高,易于理解和实现 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据 Regression问题的常规步骤为: 寻找h函数(即hypothesis); 构造J函数(损失函数); 想办法使得J函数最小并求得 ... 阅读全文 »
Pandas学习笔记(未完成~~~) 发表于 2018-09-27 | 分类于 Python包 | 热度: ℃ 字数统计: 932 字 | 阅读时长 ≈ 5 分钟 12import pandas as pdimport numpy as np 数据定义及使用定义序列, pandas中的数据形式通常是float32或float64 12>>> s = pd.Series([1,3,4,np.nan,11,99])>>> s 0 ... 阅读全文 »
Numpy学习笔记 发表于 2018-09-27 | 分类于 Python包 | 热度: ℃ 字数统计: 1.5k 字 | 阅读时长 ≈ 7 分钟 1import numpy as np 创建数组使用numpy生成list 12>>> a = np.array([1,3,5,7,9])>>> a array([1, 3, 5, 7, 9]) 传入的参数不是同一结构将发生转换。 12>>> b ... 阅读全文 »
Jupyter notebook 学习 发表于 2018-09-27 | 分类于 IDE工具 | 热度: ℃ 字数统计: 922 字 | 阅读时长 ≈ 3 分钟 以前写python一直使用的是Pycharm,最近听同学都在谈论Jupyter做数据科学很方便易用,于是着手学习学习。以前也简单尝试过Jupyter,但是没觉得比Pycharm好用,这次要认真使用看看。 安装在使用之前,我们需要先进行安装。在 Jupyter website 上能找到完整的安装步 ... 阅读全文 »
廖雪峰Python教程学习笔记 发表于 2018-09-25 | 分类于 编程语言 | 热度: ℃ 字数统计: 8.3k 字 | 阅读时长 ≈ 33 分钟 这篇文章是我学习廖雪峰Python教程时记的笔记,内容框架一致,但内容大部分都只记录了我之前没注意的知识点,其他部分可能有所遗漏。要提醒自己时常取出复习,书要越读越薄。 Python 基础数据类型和变量print()函数也可以接受多个字符串,用逗号“,”隔开,就可以连成一串输出: 12>& ... 阅读全文 »
Hello World 发表于 2018-09-21 | 热度: ℃ 字数统计: 73 字 | 阅读时长 ≈ 1 分钟 Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in ... 阅读全文 »