日志

Elasticsearch数据备份和恢复

无论从容灾还是容错角度来看,数据的安全性都十分重要,Elasticsearch(以下简称ES)提供了Snapshot和Restore模块,用于对单个索引甚至整个集群进行备份和恢复。

环境

Elasticsearch 2.1.1

基本流程

ES的Snapshot/Restore流程可以概括为以下几个步骤

1)创建用于备份的远程仓库

2)往仓库创建快照

3)检查快照状态

4)恢复已备份快照

具体操作

阅读全文

日志

Spark集群资源动态分配

Spark默认采取预分配方式给各个application分配资源,每个application会独占所有分配到的资源直到整个生命周期的结束.对于长周期任务,在workload低峰阶段空闲的资源将一直被抢占而得不到有效利用,无疑是相当浪费.Spark1.2开始引入动态资源分配(Dynamic Resource Allocation)机制,支持资源弹性分配.

动态资源分配

Spark的资源动态分配机制主要基于application的当前任务(task)负载,以executor为粒度(以Spark1.2为例)动态向集群申请或释放资源,这意味着空闲的资源将得到有效的回收,供其他application利用.

Spark1.2仅支持Yarn模式,从Spark1.6开始,支持standalone、Yarn、Mesos.

安装与配置

1. Spark配置

阅读全文

日志

通过Sqoop向Hive导入ORC表

Sqoop在很长一段时间都只支持导入为textfile、avrofile、sequencefile等格式,如果需要将数据导入为ORC、parquet等格式的Hive Table往往需要分两个步骤完成(先导出临时表,再通过Hive转换)。而从Sqoop 1.4.4开始,Sqoop集成了HCatalog,我们可以轻易地实现多格式支持。

HCatalog配置

Sqoop需要依赖HCatalog的lib,所以需要配置环境变量$HCAT_HOME,一般从hive目录下即可找到hcatalog的相关路径


导入命令

sqoop import 
--connect jdbc:mysql://127.0.0.1:3306/test 
--username your_user_name --password your_passwd 
--table table_name --driver com.mysql.jdbc.Driver 
--create-hcatalog-table 
--hcatalog-table table_name 
--hcatalog-partition-keys month,day 
--hcatalog-partition-values 12,09 
--hcatalog-storage-stanza 'stored as orc tblproperties ("orc.compress"="SNAPPY")'

参数说明

阅读全文

日志

E.L.K搭建实时日志分析平台

环境

Linux:Ubuntu 14.04.2 LTS

Java:1.8.0

Elasticsearch安装

Elasticsearch(以下简称ES)是一个基于Lucence的搜索服务器,具有高效的实时分析能力,搭建ES需要安装Java环境,设置好JAVA_HOME参数即可.

1)下载ES(本例为2.2.0)

点击下载ES

2)解压后在根目录执行以下命令启动ES

bin/elasticsearch

3)检查是否安装成功

curl -X GET http://localhost:9200

 返回以下信息则搭建成功

{
  "name" : "Prodigy",
  "cluster_name" : "elasticsearch",
  "version" : {
    "number" : "2.2.0",
    "build_hash" : "8ff36d139e16f8720f2947ef62c8167a888992fe",
    "build_timestamp" : "2016-01-27T13:32:39Z",
    "build_snapshot" : false,
    "lucene_version" : "5.4.1"
  },
  "tagline" : "You Know, for Search"
}

Kibana安装

Kibana是一个数据可视化平台,它可以让你通过惊艳、强大的制图进行数据交互.

1)下载Kibana(本例为4.4.0)

点击下载(Kibana4.4.0-Linux-64Bit)

其他版本下载(注意Kibana版本是否兼容你所安装的ES版本)

https://www.elastic.co/downloads/kibana

2)配置Kibana

阅读全文

日志

Thrift操作HBase一段时间后服务挂掉的问题

最近在python项目中通过thrift API操作HBase,发现thrift server在执行操作后运行一段时间就会crash,一番折腾发现这是HBase-thrift的天炸BUG

抛出异常

[thrift-worker-11] thrift.ThriftServerRunner$HBaseHandler: Can't get the location
at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.getRegionLocations(RpcRetryingCallerWithReadReplicas.java:309)  at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:153)
at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:61)
at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:200)
    ...

异常原因描述

当空闲的连接从thrift server被清除的时候,该连接之下的table实例依然缓存在线程的local cache中,当再次操作table的时候自然会出现 Can’t get the location 的异常,因为连接早已关闭.


异常影响

受影响版本:

0.98.13, 1.1.1, 1.0.1.1, 1.1.0.1

已修复版本:

2.0.0, 0.98.14, 1.0.2, 1.2.0, 1.1.2, 1.3.0

Thrift影响:

该Bug出现在Thrift1中,Thrift2没有这个问题


解决方法

替换已修复版本的jar依赖,注意版本兼容问题(例如:v1.1.1的修复参考请替换为v1.1.2

转载请注明出处:

© http://hejunhao.me

日志

大数据的技术生态圈

本文来源知乎一个题为“如何用形象的比喻描述大数据的技术生态?”的精彩回答

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。

大数据,首先你要能存的下大数据

传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

存的下数据之后,你就开始考虑怎么处理数据

虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联),用这个模型,已经可以处理大数据领域很大一部分问题了。

那什么是Map什么是Reduce?

阅读全文

日志

PHP基于pcntl的多进程编程

PHP可以通过PHP的进程控制函数(PCNTL)实现多进程,要注意的是,PCNTL只在UNIX LIKE OS下有效,windows是不支持的,另外如果你在编译时没有加入这个扩展则需要自行安装.

pcntl_fork

首先我们需要了解一个非常重要的函数,pcntl_fork().

pcntl_fork —— 在当前进程当前位置产生分支(子进程).fork创建了一个子进程,父进程和子进程都从fork的位置开始向下继续执行,不同的是父进程执行过程中,得到的fork返回值为子进程号(PID),而子进程得到的是0.通过fork创建的子进程可以看成是父进程的一个拷贝,无论是数据空间还是指令指针都完全一致,但从fork之后开始这两个父子进程就再也没有任何继承关系,两者可以看成是两个独立的进程,而fork返回值的差异可以作为父子进程的区分,也是多进程编程实现的关键.另外,如果fork失败,则会返回-1.

Talk is cheap show me the code:

#!/usr/bin/env php
<?php
date_default_timezone_set("asia/shanghai");

$pid = pcntl_fork();
if ($pid==-1) {
    die('fork失败');
} else if ($pid==0) {
    //子进程执行
    $sec = 10;
    echo date('H:i:s') .'| 我是子进程 (PID:' . posix_getpid() . ')' . ',我休眠' . $sec . '秒后结束' . PHP_EOL;
    
} else if ($pid>0) {
    //父进程执行
    $sec = 15;
    echo date('H:i:s') . '| 我是父进程 (PID:' . posix_getpid() . '),我创建了一个子进程 (PID:' . $pid . ')' . ',我休眠' . $sec . '秒后结束' . PHP_EOL;
}
sleep($sec);
echo date('H:i:s') . '| 进程(PID:'.posix_getpid().')结束' . PHP_EOL;
exit(0);

/**********************************输出*************************************
16:22:13| 我是父进程 (PID:28082),我创建了一个子进程 (PID:28083),我休眠15秒后结束
16:22:13| 我是子进程 (PID:28083),我休眠10秒后结束
16:22:23| 进程(PID:28083)结束
16:22:28| 进程(PID:28082)结束
****************************************************************************/

僵尸进程

阅读全文

日志

通过nginx限制连接数和请求数

有时候服务器会遭到大流量的恶意访问,这种攻击最直接的影响就是导致服务器持续高压,严重影响正常访问,导致这种情况的原因有很多,对于一些低配置的服务器可能只需要一次简单的恶意压测就可以导致服务器502.对于这种情况,我们可以考虑对相同IP的并发连接数和请求频率进行限制,nginx本身自带了两个模块可以作为解决方案,即ngx_http_limit_conn_module和ngx_http_limit_req_module.

  • ngx_http_limit_conn_module

简介:ngx_http_limit_conn_module是一个可以根据指定key来限制连接数的模块,尤其用于根据单个IP限制连接数.

语法:limit_conn_zone key zone=name:size;

上下文:http(即nginx配置的http作用域)

说明:开辟一个名为name,大小为size的共享内存区域,用于存储一系列key(s)的状态,特别是包含各个key的连接数,其中key可以是变量、文本或二者的组合(nginx 1.7.6之前只可以包含一个变量),另外1MB共享内存可以存储3.2万个32-byte状态(在32位平台中存储状态占用32bytes)或1.6万个64-byte(64位平台),当共享内存空间不足时,之后的请求会导致服务器返回503(Service Temporarily Unavailable) 错误.

语法:limit_conn zone number;

上下文:http ,server,location

说明:设置共享内存区域zone,使zone指定的key的连接数不大于number个,当超过这个number值时服务器会返回503(Service Temporarily Unavailable) 错误.

例子:设定一个名为addr的10MB共享内存,以客户端ip作为键,限制每个客户端ip最大并发连接数为5

http{
    ...
    # $binary_remote_addr是客户端ip地址,它和$remote_addr的区别在于它是固定4字节长度
    limit_conn_zone $binary_remote_addr zone=addr:10m;
    server {
    ...
        location ~ \.php$ {
            limit_conn addr 5;
        }
    ...
    }
    ...
}
  • ngx_http_limit_req_module

阅读全文

日志

Python通过正则表达式验证素数

素数:除了1和自身外没有其他因数的数称为素数,素数又被称为质数。

验证素数的正则表达式非常简单:

/^1?$|^(11+?)\1+$/

Python实现

import re
def checkPrime(n):
    return re.compile(r'^1?$|^(11+?)\1+$').match('1' * n) is None

print[x for x in range(100) if checkPrime(x)]
##########Output###############
[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]

解释

该正则表达式由两部分组成,准确来说匹配两类情况:

  1. ^1?$,匹配空字符串和1 (1既不是素数也不是合数)
  2. ^(11+?)\1+$,首先(11+?)非贪婪匹配‘11’,‘111’,‘1111’…等字符串,\1+意味着再匹配至少一次(11+?)的匹配结果,^(11+?)\1+$表示“匹配n个1(n>=2)至少m次(m>=2)”,说白了就是匹配数字n*m,正则表达式会穷举定义域内的任意n*m组合情况,而根据定义可知,n和m是数字n*m的既不为1也不为自身的因数,所以如果正则成功匹配则该数是合数,反之素数
转载请注明出处:

© http://hejunhao.me

日志

Nginx通过ngx_log_if模块实现日志过滤

有时候我们需要对服务器的access日志进行自定义过滤,例如不想记录任何404的访问日志等.在Apache下我们可以通过CustomLog [env=XXX]来实现,但Nginx自身并不提供类似的功能,不过从官方的第三方模块中我们可以找到 ngx_log_if 这个非常好用的扩展模块来实现同样的功能.

  • 重编译Nginx安装第三方模块

首先你需要知道你的Nginx版本
$ nginx -v

nginx version: nginx/1.6.3

Nginx历史版本下载 点击这里

从GIT下载 ngx_log_if 模块

$  git clone https://github.com/cfsego/ngx_log_if.git
Nginx编译
<h1>假设你的nginx安装在/etc/nginx , ngx_log_if 在/usr/lib/ngx_log_if 目录</h1>

<h1>解压nginx后开始重编译</h1>

$ ./configure --prefix=/etc/nginx --add-module=/usr/lib/ngx_log_if + ...你的原编译配置

$ make

注意:在configure参数中务必把原来的编译配置补全,通过下面的命令可以知道你原来的配置

$ nginx -V

编译结束后会生成一个新的nginx,先关闭旧的nginx,然后替换新编译的nginx(假设位于/usr/sbin/nginx),重启nginx即可

$ sudo nginx -s stop

<h1>nginx路径按需要修改</h1>

$ sudo cp objs/nginx  /usr/sbin/nginx

$ sudo nginx

至此ngx_log_if模块安装完毕

  • 通过ngx_log_if进行Access日志过滤

server {
    # 不记录400响应状态的access日志
    access_log_bypass_if ($status = 400);

<pre><code># 不记录200响应状态且uri为 status.nginx 的访问日志
access_log_bypass_if ($uri = 'status.nginx') and;
access_log_bypass_if ($status = 200);
</code></pre>

}

子配置会默认覆盖父配置

server {
    # 父配置 , 无效
    access_log_bypass_if ($status = 400);

<pre><code>location / {
    # 子配置 , 有效
    access_log_bypass_if ($host ~* 'nolog.com');
}
</code></pre>

}
转载请注明出处:

© http://hejunhao.me

第 4 页,共 6 页123456