关闭
当前搜索:

支持向量机(SVM)原理分析

支持向量机(SVM)是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。 对于下图线性可分的情况,SVM就是为了找到一个最优的超平面,将正负样本尽可能地分开来,也就是说,我们要找到分开样本的最大间隔。 先了解一下函数间隔和几何间隔。 函数间隔: y^(i)=y(i)(wTx+b)\ha...
阅读(31) 评论(0)

使用tensorflow的lstm网络进行时间序列预测

这篇文章将讲解如何使用lstm进行时间序列方面的预测,重点讲lstm的应用,原理部分可参考以下两篇文章: Understanding LSTM Networks       LSTM学习笔记 编程环境:python3.5,tensorflow 1.0 本文所用的数据集来自于kesci平台,由云脑机器学习实战训练营提供:真实业界数据的时间序列预测挑战 数据集采用来自业界多组相关时间序列(约4...
阅读(1183) 评论(0)

关于matlab需要重新激活问题的解决方法

不知道最近各位小伙伴打开matlab会不会出现需要重新激活的问题,如下: 刚开始我一脸懵逼,后来在网上查了一下,发现原来是许可证过期了,如下: 该license file的截止日期是2017-11-11(好吧,这说明我已经很久没打开过matlab了),所以就会出现需要重新激活的情况。 解决方案很简单:先找到你下载的破解文件(如下图): 从里面把license file 找出来(...
阅读(512) 评论(0)

FFM模型在点击率预估中的应用实践

这篇文章,将主要讲述FFM模型在CTR预估中的应用。...
阅读(742) 评论(0)

广义线性模型与指数分布族

在机器学习领域,很多模型都是属于广义线性模型(Generalized Linear Model,GLM),如线性回归,逻辑回归,Softmax回归等。这篇文章广义线性模型,并由它推导出线性回归,逻辑回归,Softmax回归的表达式。 广义线性模型是基于指数分布族的,所以我们先来看一下指数分布族的一般形式: p(y;η)=b(y)exp(ηTT(y)−a(η))p(y;\eta)=b(y)exp(...
阅读(5755) 评论(0)

逻辑回归原理及推导过程

逻辑回归处理的是分类问题,具体来说,是处理二分类问题。为了实现逻辑回归分类器,我们可以在线性回归的基础上(即每个特征乘以一个回归系数后相加),添加一个sigmoid函数,进而得到一个范围在0-1之间的数值。任何大于0.5的数据会被分入1类,小于0.5即被分入0类。至于为什么要用sigmoid函数,简单来说,是为了将标签归到[0,1]的范围内;...
阅读(1344) 评论(0)

线性回归及其概率解释

线性回归的几种优化参数方法:批量梯度下降法,随机梯度下降法,矩阵求导等;以及线性回归中最小化平方损失函数的概率解释,局部加权线性回归方法。...
阅读(833) 评论(0)

数据挖掘入门指南:以kaggle:titanic为例

一般的数据挖掘竞赛或者项目包括以下步骤: (1)数据预处理和特征工程 (2)构造模型 (3)模型融合 这篇博客将以kaggle上的titanic题目作为例子,具体讲一讲各个步骤的操作过程。数据集可自行到 kaggle:titanic 下 载。 PS:对于titanic这道题,个人觉得重点不是在于把成绩提高到多少,因为样本实在太少了,所以我们应该把关注点放在学习如何分析数据,以及构建模...
阅读(1095) 评论(0)

数据处理神器Pandas的相关函数

最近参加比赛,需要处理各种各样的数据。不得不说,pandas给我带来了很大的方便。困于一直没整理,每一次用到都要查官方文档。现在打算慢慢把用到的函数记录下来,积少成多。 (1)df.value_counts():统计具体某一列相同值的个数 for example:有下面一个表,这个表有300万行,这里只截取一部分举例。我想统计item_id这一列中每一个相同id的个数 代码如下:...
阅读(899) 评论(0)

Python中将变量按行写入txt文本中

先看一个简单的例子:将变量写入txt文本中 f = open('E:/test.txt','w') f.write('hello world!') Out[3]: 12 f.close() 结果如图: 那么如何将变量按行写入呢? 在'w'写入模式下,当我们下次写入变量时,会覆盖原本txt文件的内容,这肯定不是我们想要的。TXT有一个追加模式'a',可以实现多次写入: f = ...
阅读(7123) 评论(0)

Python安装gif库:cannot import name 'readGif'解决方法

本人安装完images2gif库要 import image2gif 时,出现了以下问题: 可以看到,在import readGif 时出错了,出错原因是images2gif是支持Python2.X版本的,而我的是Python3.5版本,所以出现不兼容情况。 解决方法:在错误提醒的路径中(我的是: "D:\software_install\Anaconda_install\lib\site...
阅读(1165) 评论(0)

python:二维字典的键值合并等函数

先提供一个应用场景: 假设我有两个二维字典: room1 = {orderid1:{roomid1:pred1,roomid2:pred2},orderid2:{roomid3:pred3,roomid4:pred4}}                                            room2 = {orderid1:{roomid1:pred5,roomid2:pre...
阅读(2550) 评论(0)

window7环境下使用easyBCD硬盘安装Ubuntu双系统

如题,这篇文章主要讲解如何在window7环境下使用easyBCD硬盘安装Ubuntu双系统。 PS:推荐一个安装链接:win7下通过easyBCD引导安装Ubuntu14.04  ,我就是根据这个链接安装成功的。文章的安装步骤也是按照这个链接的逻辑写的,只是加了一些自己安装过程中遇到的一些错误,给出解决方案。 安装环境:window7,easyBCD2.3,Ubuntu16.04,硬盘安...
阅读(593) 评论(0)

window下安装xgboost

这几天看了陈天奇大神关于xgboost的论文:XGBoost: A Scalable Tree Boosting System 膜拜大神。先立个flag,有空的时候再专门写一篇关于这篇论文的博客。现在,先看一下怎么在window环境下安装xgboost。在网上看到了很多相关的安装教程,五花八门。但其实xgboost的安装很简单(使用whl安装)。 安装环境:window7,anaconda...
阅读(1300) 评论(0)

将TXT文件数据存进Python内置数据库splite3

当TXT文件太大,计算机内存不够时,我们可以选择按行读取TXT文件,并将其存储进Python内置轻量级splite数据库,这样可以加快数据的读取速度,当我们需要重复读取数据时,这样的速度加快所带来的时间节省是非常可观的,比如,当我们在训练数据时,要迭代10万次,即要从文件中读取10万次,即使每次只加快0.1秒,那么也能节省几个小时的时间了。 #创建数据库并把txt文件的数据存进数据库 impor...
阅读(1406) 评论(0)

window下启动tensorboard

tensorboard是TensorFlow的一个可视化工具,能够监控TensorFlow运行过程中的计算图,各种指标随着时间的变化趋势以及训练中使用到的图像等信息。 先贴个总结:首先,必须在终端启动tensorboard;其次,如果在tensorboard中发现没找到graph,那么一般是路径没匹配好,修改一下路径即可。 按照例程,写一个可视化graph的代码: import tens...
阅读(11130) 评论(6)

Logistic回归和Sigmoid函数分类中的最大似然估计

在讲Logistic回归前,先具体说明一下什么是最大似然估计,可以参考最大似然估计学习总结------MadTurtle 梯度上升算法的代码如下: def sigmoid(inX): return 1.0/(1+exp(-inX)) def gradAscent(dataMatIn, classLabels): dataMatrix = mat(dataMatIn) ...
阅读(1231) 评论(0)

Python的numpy库中将矩阵转换为列表等函数

这篇文章主要介绍Python的numpy库中的一些函数,做备份,以便查找。 (1)将矩阵转换为列表的函数:numpy.matrix.tolist() (2)将数组转换为列表的函数:numpy.ndarray.tolist() (3)numpy.mean()计算矩阵或数组的均值: (4)numpy.std()计算矩阵或数组的标准差: (5)numpy.newaxis为数组增加一个维度:...
阅读(8530) 评论(0)

树模型之回归树,模型树,树剪枝

在前面决策树的介绍中,我们使用ID3算法来构建决策树;这里我们使用CART算法来构建回归树和模型树。ID3算法是每次选取当前最佳的特征来分割数据,并按照该特征的所有可能取值来区分。比如,如果一个特征有4种取值,那么数据将被切分成4份。很明显,该算法不适用于标签值为连续型的数据。 CART算法使用二元切分法来处理连续型变量,即每次把数据集切分成左右两份。 回归树 回归树使用CART算法来构...
阅读(2408) 评论(0)

随机森林的原理分析及Python代码实现

在讲随机森林前,我先讲一下什么是集成学习。集成学习通过构建并结合多个分类器来完成学习任务。集成学习通过将多个学习器进行结合,常可获得比单一学习器更好的泛化性能。 考虑一个简单例子:在二分类任务中,假定三个分类器在三个测试样本上的表现如下图,其中√表示分类正确,×表示分类错误,集成学习的结果通过投票法产生,即“少数服从多数”。如下图,在(a)中,每个分类器都只有66.6%的精度,但集成学习却达到了...
阅读(11395) 评论(22)
30条 共2页1 2 下一页 尾页
    个人资料
    • 访问:91328次
    • 积分:1219
    • 等级:
    • 排名:千里之外
    • 原创:30篇
    • 转载:0篇
    • 译文:0篇
    • 评论:65条
    最新评论