• 反腐败国际合作"朋友圈"又大了! 2019-07-13
  • 前线 从一面“魔镜” 看苏宁科技集团智能化发展战略 2019-07-13
  • 身份证被盗产生不良记录 网络虚拟账号权属纠纷如何避免 2019-07-07
  • 的确,呆子七窍通了栁窍。[哈哈] 2019-06-20
  • 强国博客首页整合公告 2019-06-08
  • 西海都市报数字报刊平台 2019-05-27
  • 美国反拥枪的孩子很受伤 2019-05-25
  • C罗戴帽单骑救主 葡萄牙33战平西班牙 2019-05-25
  • 证监会去年对外公开监管信息14560条 2019-05-16
  • 中山八路总站调整12公交线 2019-05-16
  • 谢春涛:深刻把握“中国特色社会主义进入新时代”的重大意义 2019-05-09
  • 湖南一博士生举报水利局领导受贿 遭到冒牌纪委约谈 2019-05-09
  • 西安地铁唐风诗韵文化专列将于6月18日首发 2019-04-30
  • 铜梁区旧县街道:全面提升执行力 推动工作落地见效 2019-04-30
  • 上海电影节女性影人大放异彩 中生代女演员不用焦虑 2019-04-29
  • 精彩博客

    Spring Batch(4)——Item概念及使用代码

    在 批处理概念 中介绍一个标准的批处理分为 Job 和 Step。本文将结合代码介绍在Step中Reader、Processor、Writer的实际使用。 Reader Reader是指从各种各样的外部输入中获取数据,框架为获取...

    07/08 21:23
    708
    2
    Spring Batch(1)——数据批处理概念

    批处理的核心场景 从某个位置读取大量的记录,位置可以是数据库、文件或者外部推送队列(MQ)。 根据业务需要实时处理读取的数据。 将处理后的数据写入某个位置,可以是数据库、文件或者推送...

    07/03 10:25
    1K
    5
    谈谈机器学习模型的可解释性

    随着AI和机器学习的发展,越来越多的决策会交给自动化的机器学习算法来做。但是当我们把一些非常重要的决定交给机器的时候,我们真的放心么?当波音飞机忽略驾驶员的指令,决定义无反顾的冲向...

    07/02 03:01
    1K
    8
    基于 ZooKeeper 搭建 Hadoop 高可用集群

    一、高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似,但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多,所...

    07/01 20:14
    467
    1
    Wormhole 大数据流式处理平台之设计思想

    导读:互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给...

    06/28 13:52
    292
    2
    Elasticsearch搜索调优权威指南 (2/3)

    本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/AAkVdzmkgdBisuQZldsnvg 英文原文:https://qbox.io/blog/elasticsearch-search-tuning-part-2 作者:Adam Vanderbush 译...

    06/26 09:38
    94
    0
    如何设计实时数据平台(技术篇)

    敏捷之歌 我抽数故我存在 | DBus 人人玩转流处理 | Wormhole 就当吾是数据库 | Moonbox 颜值最后十公里 | Davinci 导读:实时数据平台(RTDP,Real-time Data Platform)是一个重要且常见的大...

    06/21 13:42
    2.8K
    7
    如何设计实时数据平台(设计篇)

    导读:本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。 在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台...

    06/21 13:41
    2.1K
    1
    Kylin页面System操作源码解读

    System中的主要操作在AdminController和CacheController 一. 源码结构 前端源码: angular:下面为自定义方法: * Method type is PUT * Additional Query parameter action=config is sent ...

    06/20 09:24
    458
    1
    Elasticsearch搜索调优权威指南 (1/3)

    本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/qwkZKLb_ghmlwrqMkqlb7Q 英文原文:https://qbox.io/blog/elasticsearch-search-tuning-5-0-ultimate-guide 作者:Adam ...

    06/11 16:16
    30
    0
    马蜂窝用户内容贡献能力模型构建

    在用户个性化时代,垂直化、精细化的运营,被看作企业重要的竞争力。完整、清晰的用户画像体系,可以帮助企业从海量的用户信息中发掘每个用户的行为特性、潜在能力及兴趣等信息,从而为用户提...

    06/10 10:01
    894
    0
    在浏览器中进行深度学习:TensorFlow.js (十二)异常检测算法

    异常检测是机器学习领域常见的应用场景,例如金融领域里的信用卡欺诈,企业安全领域里的非法入侵,IT运维里预测设备的维护时间点等。我们今天就来看看异常检测的基本概念,算法,然后看看如何...

    05/29 14:53
    1K
    6
    【大数据 】SparkSQL连接查询中的谓词下推处理(二)

    本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/II48YxGfoursKVvdAXYbVg 作者:李勇 目录: 1.左表 join 后条件下推 2.左表join中条件不下推 3.右表join中条件下推 4.右表...

    05/28 10:49
    265
    0
    BigData NoSQL —— ApsaraDB HBase数据存储与分析平台概览

    摘要: 数据库发展有三个明显的趋势:1. 越来越多的数据库会做云原生(CloudNative);2. NoSQL正在解决BigData领域的问题;3. 越来越多的公司或者产品都是融合多个能力。 阿里云HBase经过公共...

    05/22 12:48
    359
    1
    在浏览器中进行深度学习:TensorFlow.js (十一)时间序列预测

    时间序列是对某一个或者一组变量 x(t) 进行观察测量,将在一系列时刻 t1,t2,?,tn 所得到的离散数字组成的序列集合。 时间序列预测的机器学习的一种常见应用,例如预测股票和金融产品价格走势...

    05/20 13:55
    305
    0
    用Q-learning算法实现自动走迷宫机器人

    【技术沙龙002期】数据中台:宜信敏捷数据中台建设实践|宜信技术沙龙 将于5月23日晚8点线上直播,点击报名 项目描述: 在该项目中,你将使用强化学习算法,实现一个自动走迷宫机器人。 如上图...

    05/17 13:39
    294
    0
    【大数据】SparkSql连接查询中的谓词下推处理(一)

    本文首发于 vivo互联网技术 微信公众号 https://mp.weixin.qq.com/s/YPN85WBNcnhk8xKjTPTa2g 作者:李勇 目录: 1.SparkSql 2.连接查询和连接条件 3.谓词下推 4.内连接查询中的谓词下推规则 ...

    05/14 16:00
    113
    0
    Apache Cassandra 数据存储模型

    我们在《Apache Cassandra 简介》文章中介绍了 Cassandra 的数据模型类似于 Google 的 Bigtable,对应的开源实现为 Apache HBase,而且我们在 《HBase基本知识介绍及典型案例分析》 文章中简...

    05/10 13:05
    202
    0
    5分钟从零构建第一个 Apache Flink 应用

    在本文中,我们将从零开始,教您如何构建第一个Apache Flink (以下简称Flink)应用程序。 开发环境准备 Flink 可以运行在 Linux, Max OS X, 或者是 Windows 上。为了开发 Flink 应用程序,在...

    05/09 13:30
    497
    2
    Apache Cassandra 在 Facebook 的应用

    谁说 Facebook 弃用 Cassandra?相反 Facebook 拥有全世界最大的单个 Cassandra 集群部署,而且他们对 Cassandra 做了很多性能优化,包括 Cassandra on RocksDB 以提升 Cassandra 的响应时间...

    05/09 12:00
    174
    0

    没有更多内容

    加载失败,请刷新页面

    谈谈机器学习模型的可解释性

    随着AI和机器学习的发展,越来越多的决策会交给自动化的机器学习算法来做。但是当我们把一些非常重要的决定交给机器的时候,我们真的放心么?当波音飞机忽略驾驶员的指令,决定义无反顾的冲向...

    07/02 03:01
    1K
    8
    再谈使用开源软件搭建数据分析平台

    三年前,我写了这篇博客使用开源软件快速搭建数据分析平台, 当时收到了许多的反馈,有50个点赞和300+的收藏。到现在我还能收到一些关于dataplay2的问题。在过去的三年,开源社区和新技术的发...

    04/20 00:54
    2.6K
    5
    现代IM系统中的消息系统架构 - 架构篇

    前言 IM全称是『Instant Messaging』,中文名是即时通讯。在这个高度信息化的移动互联网时代,生活中IM类产品已经成为必备品,比较有名的如钉钉、微信、QQ等以IM为核心功能的产品。当然目前微...

    04/16 14:34
    2.6K
    8
    Apache Ignite上的TensorFlow

    任何深度学习都是从数据开始的,这是关键点。没有数据,就无法训练模型,也无法评估模型质量,更无法做出预测,因此,数据源非常重要。在做研究、构建新的神经网络架构、以及做实验时,会习惯...

    03/20 12:06
    1K
    1
    Kafka连接器深度解读之JDBC源连接器

    在现实业务中,Kafka经?;嵊龅降囊桓黾沙【熬褪?,从数据库获取数据,因为关系数据库是一个非常丰富的事件源。数据库中的现有数据以及对该数据的任何更改都可以流式传输到Kafka主题中,在这...

    03/12 14:02
    1K
    5
    自动机器学习简述(AutoML)

    为什么需要自动机器学习 对于机器学习的新用户而言,使用机器学习算法的一个主要的障碍就是算法的性能受许多的设计决策影响。随着深度学习的流行,工程师需要选择相应的神经网络架构,训练过...

    02/19 02:46
    2.2K
    5
    缓存伪共享问题以及解决方案缓存行填充

    缓存伪共享 共享对象存在同一个缓存中,由于MESI协议,一个对象中一些不需要改变的属性因为其他改变的属性,导致整个对象的缓存进入到M被修改状态。 MESI缓存一致性协议:https://blog.csdn...

    01/29 16:52
    1K
    2
    百亿次的锤炼 - 地狱模式的分布式系统测试

    本文以近期开源的Dragonboat多组Raft库为例,介绍Dragonboat这样一个典型分布式系统是如何做测试的。Dragonboat以Go实现,能在普通硬件上提供每秒1000万次以上的强一致读写,它是目前github....

    01/18 18:50
    2.5K
    6
    为什么说Laxcus颠覆了我的大数据使用体验

    切入正题前,先做个自我介绍。 本人是从业三年的大数据小码农一枚,在帝都一家有点名气的广告公司工作,同时兼着大数据管理员的职责。 平时主要的工作是配合业务部门,做各种广告大数据计算分...

    2018/12/16 17:02
    1K
    5
    单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

    【背景介绍】 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据表使...

    2018/11/20 09:42
    8.1K
    19
    谈谈机器学习模型的部署

    随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。 上图的过程是一个数据科学...

    2018/10/05 03:00
    4.9K
    3
    利用TICK搭建Docker容器可视化监控中心

    概述 性能监控是容器服务必不可少的基础设施,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息。在我的前文《Doc...

    2018/07/05 07:08
    2.8K
    2
    玩转 Elasticsearch 的 SQL 功能

    最近发布的 Elasticsearch 6.3 包含了大家期待已久的 SQL 特性,今天给大家介绍一下具体的使用方法。 首先看看接口的支持情况 目前支持的 SQL 只能进行数据的查询只读操作,不能进行数据的修...

    2018/06/28 09:25
    7.2K
    11
    在浏览器中进行深度学习:TensorFlow.js (六)构建一个卷积网络 Convolutional Network

    在上一篇中,我们介绍了了用TensorflowJS构建一个神经网络,然后用该模型来进行手写MINST数据的识别。和之前的基本模型比起来,模型的准确率上升的似乎不是很大。(在我的例子中,验证部分比...

    2018/05/15 07:02
    2K
    4
    Docker容器可视化监控中心搭建

    概述 一个宿主机上可以运行多个容器化应用,容器化应用运行于宿主机上,我们需要知道该容器的运行情况,包括 CPU使用率、内存占用、网络状况以及磁盘空间等等一系列信息,而且这些信息随时间...

    2018/04/17 07:16
    3.7K
    5
    Apache Ignite事务架构:Ignite持久化的事务处理

    在本系列[上一篇文章](https://my.oschina.net/liyuj/blog/1791800)中,介绍了故障和恢复,下面是本系列剩下的文章将要讨论的主题: - Ignite持久化的事务处理(WAL、检查点及其他) - 第三方...

    2018/04/11 14:12
    1K
    3
    一个利用Tensorflow求解几何问题的例子

    知乎上有一个问题,内容是已知空间三个点的坐标,求三个点所构成的圆的圆心坐标(编程实现)? 根据圆的定义,这道题的核心就是找到一个点,到已知的三个点的距离相等,利用数学知识可以求解...

    2018/03/02 09:44
    4.5K
    7
    Apache Ignite事务架构:并发模型和隔离级别

    在本系列的第一篇文章中我们研究了2阶段提交协议,在本文中,我们会聚焦并发模型和隔离级别。

    2018/03/01 16:58
    1K
    0
    大数据平台Hadoop的分布式集群环境搭建

    1 概述 本文章介绍大数据平台Hadoop的分布式环境搭建、以下为Hadoop节点的部署图,将NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分别部署一个DataNod...

    2018/02/10 13:53
    2.8K
    6
    SQL优化-第二章-从解释计划层面让SQL飞

    # 前言 在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解释计划就是这样的一把...

    2017/12/31 22:47
    2.4K
    8

    没有更多内容

    加载失败,请刷新页面

    MongoDB(一)——数据库的简介及MongoDB的安装

    一、数据库 数据库是按照数据结构来组织、存储和管理数据的仓库。 我们的程序都是在内存中运行的,一旦程序运行结束或者计算机断电,程序运行中的数据都会丢失。 所以我们就需要将一些程序运...

    昨天 23:53
    7
    0
    Zookeeper(四)——理论篇(四)

    一、客户端命令行操作 启动客户端连接 help :显示所有操作命令 ls path [watch] :使用 ls 命令来查看当前znode中所包含的内容;如:ls / ls2 path [watch] : 查看当前节点数据并能看到更新...

    昨天 21:21
    3
    0
    Zookeeper(三)——理论篇(三)

    一、Zk数据结构 ZooKeeper数据模型的结构与Unix文件系统很类似,整体上可以看作是一棵树,每个节点称做一个ZNode。 很显然zookeeper集群自身维护了一套数据结构。这个存储结构是一个树形结构...

    昨天 20:47
    8
    0
    hbase安装与使用

    环境准备 安装jdk1.8,配置/etc/profile下JAVA_HOME环境变量 安装并启动伪分布式模式hadoop,版本为hadoop-3.1.2,安装到/opt/hadoop-3.1.2目录,启动hdfs,mapreduce,yarn组件 安装 hbase版本...

    昨天 15:04
    2
    0
    Spark Streaming调优 kafka

    当使用Spark Streaming的Direct方式接受Kafka数据时, 如果kafka中的数据过多, 会导致spark数据积压, 无法准时完成作业, 甚至OOM。 Spark的运行指标及调优的目标 共两个运行指标:调度延迟...

    昨天 14:57
    4
    0
    Jupyter+Docker玩转《Python数据分析基础》

    近年来,数据分析师成为了一个高薪而又热门的职业,如果你想跨入这一行又没什么编程基础,那么学习Python绝对是一个好的选择。因为Python的代码风格使代码更易于阅读和理解,和其他语言相比,...

    昨天 14:46
    18
    0
    如何为制作的报表/统计图设置参数

    一、点击添加参数弹出如下界面 二、设置参数,如下图所示 三、设置参数取值的数据集,点击弹出如下界面 点击新增 点击设置 拖动完毕点击确定。 参数类型分为输入框、下拉框、查询按钮、下拉树...

    昨天 14:09
    0
    0
    Zookeeper(二)——理论篇(二)

    一、zookeeper集群的搭建 zookeeper集群的搭建相对比较简单就是在单机的基础上增加一些配置,然后将该配置分发到其他机器上具体操作如下: 将zookeeper-3.4.5.tar.gz通过sftp上传至hadoop-ip...

    前天 22:19
    18
    0
    Zookeeper(一)——理论篇(一)

    一、概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都...

    前天 21:42
    12
    0
    Spring Batch(6)——数据库批数据读写

    前序文章陆续介绍了批处理的基本概念,Job使用、Step控制、Item的结构以及扁平文件的读写。本文将接着前面的内容说明数据库如何进行批处理读写。 数据读取 数据库是绝大部分系统要用到的数据...

    前天 19:32
    53
    0
    Python数据分析神器——jupyter一些应知应会的奇技淫巧

    用Python做数据分析的朋友,自然离不开jupyter notebook(以下简称jupyter)这款神器,它能让你非常方便的在数据探索过程中有良好的实时交互效果。今天我们就来分享一些jupyter的奇技淫巧。 ...

    前天 17:34
    45
    0
    Jupyter Notebooks的安装和使用介绍

    最近又开始重新学习Python,学习中使用到了一款编辑器Jupyter Notebooks ,非常想安利给初学python的同学。 注:本文内容仅针对windows环境下安装和配置Jupyter Notebooks 。 1.Jupyter Note...

    前天 17:13
    17
    0
    DBus数据库表结构变更处理方案

    导读:DBus是我们要介绍的在敏捷大数据(Agile BigData)背景下的第一个平台。企业中大量业务数据保存在各个业务系统数据库中,为同时解决数据同步的一致性和实时性问题,DBus(数据总线)平...

    前天 14:15
    8
    0
    千亿级的数据难题,优酷工程师怎么解决?

    阿里妹导读:优酷一天的日志量会达到千亿级别,面对如此大的数据样本,2017年5月,优酷完成了从Hadoop迁移到阿里云MaxCompute,实现计算消耗和储存的消耗呈下降趋势,得到了非常大的收益。今...

    前天 11:03
    14
    0
    宜信开源|大数据虚拟混算平台Moonbox配置指南

    一、环境准备 已安装Apache Spark 2.2.0(此版本仅支持Apache Spark 2.2.0, 其他Spark 版本后续会兼容) 已安装MySQL并启动,且开启远程访问 各安装节点已经配置ssh免密登录 二、下载 moonbox-...

    前天 10:51
    9
    0
    Spring Batch(5)——文件读写

    在Spring batch由上至下的结构中Job、Step都是属于框架级别的的功能,大部分时候都是提供一些配置选项给开发人员使用,而Item中的Reader、Processor和Writer是属于业务级别的,它开放了一些业...

    07/09 20:53
    63
    0
    好程序员大数据教程分享:HDFS基本概念

      1.1 HDFS的介绍   源自于Google的GFS论文 发表于2003年10月 HDFS是GFS克隆版 ,HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统,运行在大量普通廉价机器上,提供...

    07/09 16:07
    2
    0
    导入数据-iObjects Python with JupyterHub for K8s

    导入数据-iObjects Python with JupyterHub for K8s。 In [1]: from iobjectspy import (import_shape, import_img) import os import sys In [2]: # 设置示例数据路径 example_data_dir = '...

    07/09 14:23
    7
    0
    数据湖正在成为新的数据仓库

    编译:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。 像公有云数据湖和 Delta Lake 这样的平台指出...

    07/09 11:36
    17
    0
    聚合分析-iObjects Python with JupyterHub for K8s

    在JupyterHub for K8s的SuperMap iObjects Python简单教程,演示在JupyterHub的Notebook基本操作。 在JupyterHub for K8s中集成SuperMap iObjects Python 在Notebook中依次输入下面的内容,按...

    07/09 10:43
    23
    0

    没有更多内容

    加载失败,请刷新页面

    返回顶部
    顶部
  • 反腐败国际合作"朋友圈"又大了! 2019-07-13
  • 前线 从一面“魔镜” 看苏宁科技集团智能化发展战略 2019-07-13
  • 身份证被盗产生不良记录 网络虚拟账号权属纠纷如何避免 2019-07-07
  • 的确,呆子七窍通了栁窍。[哈哈] 2019-06-20
  • 强国博客首页整合公告 2019-06-08
  • 西海都市报数字报刊平台 2019-05-27
  • 美国反拥枪的孩子很受伤 2019-05-25
  • C罗戴帽单骑救主 葡萄牙33战平西班牙 2019-05-25
  • 证监会去年对外公开监管信息14560条 2019-05-16
  • 中山八路总站调整12公交线 2019-05-16
  • 谢春涛:深刻把握“中国特色社会主义进入新时代”的重大意义 2019-05-09
  • 湖南一博士生举报水利局领导受贿 遭到冒牌纪委约谈 2019-05-09
  • 西安地铁唐风诗韵文化专列将于6月18日首发 2019-04-30
  • 铜梁区旧县街道:全面提升执行力 推动工作落地见效 2019-04-30
  • 上海电影节女性影人大放异彩 中生代女演员不用焦虑 2019-04-29
  • 中国足彩网搜狐 王中王二肖中特免费 新快3计算公式高手 中国足彩 福彩青海快三开奖 我中彩票大奖真实经历 贵州快三开奖公告 曾道人一年7次大公开 p3试机号八卦图 湖南快乐十分总动动物 网球比分牌怎么看 北京时时彩app 平特肖2中2赔率 广西快乐10分开奖走势图 连续攻击单双中特网