Monthly Archives: April 2014

Nginx porxy的一些是使用总结

Posted by wolftankk on 2014/04/30 No comments

一、前言

Nginx的Proxy功能很强大，可以做负载均衡，可以做反向代理，可以做页面缓存等等等功能。今天就来详细说一下在我使用的一些经验之谈。也许里面就有所需要的。

Nginx的porxy默认就是自带的，无须任何第三方的模块就可以直接使用，至于nginx的配置以及安装，直接google查一下，相关的文章非常之多。

二、反向代理

1. proxy_pass

指定nginx需要代理谁。语法： proxy_pass URL。作用域在location。首先我们可以来尝试一下，将设你已经有了一个网站 http://a.com，但是我需要http://b.com访问相同的a.com。这个时候你可以这样，

server {
   listen 80;
   server_name b.com;
   index index.html;
   location / {
     proxy_pass http://a.com;
   }
}

现在你访问的b.com就是nginx把a.com反向代理回来的结果。这个时候，你需要问，我程序在a.com需要获得用户的IP地址这些，全是b.com的地址呀。那这个时候就需要下面一个命令了。

2. proxy_set_header

发送给原服务器的时候增加或者修改请求头的信息。语法： proxy_set_header key value。作用域在location。

proxy_set_header        Host            $host;
proxy_set_header        X-Real-IP       $remote_addr;
proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;

把这3行加入到刚刚前面的配置下面，这时候a.com就能获得真实的用户IP地址了。

三、负载均衡

网站发展初期可能只有一台服务器，但是随着你的业务增长，你的服务器越来越多。这时候，你需要服务器能智能的分配用户到不同的服务器上。现有方式的有两种，第一种通过DNS，第二种就是我们接下来要说的nginx负载均衡了。

1. upstream
Nginx的upstream通proxy一样，默认就自带了。通过upstream他将会智能的分配后台的服务器。首先我们看一下配置

upstream backend {
    ip_hash;
    server backend1.example.com       weight=5;
    server backend2.example.com:8080;
    server backup1.example.com:8080   backup;
    server backup2.example.com:8080   backup;
}

server {
 listen 80;
 server_name a.com;
 index index.html;
 location / {
  proxy_pass http://backend; #这里填的就是upstream。必须要有http头
  proxy_set_header        Host            $host;
  proxy_set_header        X-Real-IP       $remote_addr;
  proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
 }
}

现在你访问a.com，nginx将会自动向你分配一台服务器为你服务。可能上面这些配置你看得一头雾水，下面将会一一进行详解。
如何添加负载均衡呢？通过upstream创建，语法 upstream NAME。

1.1 server
语法： server address [parameters]
将指定的服务器绑定在负载均衡上，可以使用网址、ip地址或者unix://地址。如果没有特别指定端口号的话，默认就为80。就如上面backup1.example.com:8080 和 backend1.example.com。一个是指向8080端口，一个是指向80端口。

parameters参数详解：
1.1.1 weight=number
服务器权重，默认为1。值越大被访问的几率也就越大。

1.1.2 max_fails=number
允许最大请求失败数，默认为1。当超过最大次数时，将会在proxy_next_upstream设定的错误。

1.1.3 fail_timeout=time
在经历了max_fails次失败后，暂停服务的时间。max_fails可以和fail_timeout一起使用。

1.1.4 backup
预留的备份机器。当其他所有的非backup机器出现故障或者忙的时候，才会请求backup机器，因此这台机器的压力最轻。

1.1.5 down
表示当前的server暂时不参与负载均衡。只作用于ip_hash轮询。

另外一些非常用的参数：
1.1.6 max_conns=number
设定单台服务器的最大连接数（从1.5.9版本生效）。默认为0, 0表示无连接数限制。

1.1.7 resolve
监控域名地址的变化，将会自动更改解析地址，不需要重启服务器。（从1.5.12版本生效）。特别要说明的是，如果要设定resolve，必须要设定在http作用域范围内。

http {
    resolver 10.0.0.1;
    upstream u {
        zone ...;
        ...
        server example.com resolve;
    }
}

1.1.8 route=string
设定服务器的路由名称

1.1.9 slow_start=time
设定一个恢复正常的服务器从0到设定的weight值所需的时间。主要是针对服务器挂了重启，访问过慢等等情况。默认为0,禁用。

1.2 负载均衡的分配方式
nginx有多种负载均衡的方式。在默认情况下是使用轮询的方式，即通过weight值来轮询访问。第二种为ip_hash，每个请求按访问IP的hash结果分配，这样来自同一个IP的访客固定访问一个后端服务器，有效解决了动态网页存在的session共享问题。

其余还有health_check, keepalive等等。详细可以预约官方文档： http://nginx.org/en/docs/http/ngx_http_upstream_module.html#health_check

四、页面缓存

说完负载均衡，现在来说说页面缓存。Nginx的页面缓存功能与专业的（squid）web缓存器来比一点也不差。当然配置起来也有点小麻烦。Nginx的proxy默认请下是没有任何配置的所以，你首先要指定缓存规则，缓存的路径等等信息。
1. proxy_cache_path PATH [levels=levels] keys_zone=name:size [inactive=time] [max_size=size] [loader_files=number] [loader_sleep=time] [loader_threshold=time];

PATH缓存的目录，levels参数指定缓存的子目录数。levels指定目录结构，可以使用任意的1位或2位数字作为目录结构，如 X, X:X,或X:X:X 例如: “2”, “2:2”, “1:1:2“，但是最多只能是三级目录。所有活动的key和元数据存储在共享的内存池中，这个区域用keys_zone参数指定。name指的是共享池的名称，size指的是共享池的大小,可以使用k,m,g。如果在inactive参数指定的时间内缓存的数据没有被请求则被删除，默认inactive为10分钟。一个名为cache manager的进程控制磁盘的缓存大小，它被用来删除不活动的缓存和控制缓存大小，这些都在max_size参数中定义，当目前缓存的值超出max_size指定的值之后，超过其大小后最少使用数据（LRU替换算法）将被删除。

2. proxy_cache_key
设定了缓存路径，接下来就需要缓存key，避免数据重复。默认为$scheme$proxy_host$request_uri 。你可以添加nginx下的各种参数来组合不同的key值

3. proxy_cache
设置一个缓存区域的名称，一个相同的区域可以在不同的地方使用。
在0.7.48后，缓存遵循后端的”Expires”, “Cache-Control: no-cache”, “Cache-Control: max-age=XXX”头部字段，0.7.66版本以后，”Cache-Control:“private”和”no-store”头同样被遵循。nginx在缓存过程中不会处理”Vary”头，为了确保一些私有数据不被所有的用户看到，后端必须设置 “no-cache”或者”max-age=0”头，或者proxy_cache_key包含用户指定的数据如$cookie_xxx，使用cookie的值作为proxy_cache_key的一部分可以防止缓存私有数据，所以可以在不同的location中分别指定proxy_cache_key的值以便分开私有数据和公有数据。
缓存指令依赖代理缓冲区(buffers)，如果proxy_buffers设置为off，缓存不会生效。

注意：如上面所说，nginx是根据expires,max-age等信息来进行缓存的，如果你需要强制缓存的话，你可以使用proxy_ignore_headers指令，强制进行缓存。

4. proxy_cache_valid
设定缓存的时间。例如对应200 10m，对应404 1h 写法如下：

proxy_cache_valid 200 10m;
proxy_cache_valid 404 1h;
proxy_cache_valid any 1d;

5. proxy_cache_use_stale , proxy_next_upstream
设定下次更新缓存的触发条件。

6. $upstream_cache_status
在配置底部增加一条set_header X-Cache $upstream_cache_status 这时候你访问页面的时候，就可以了解当前页面是否被nginx缓存成功。一共有多种状态:MISS, EXPIRED, HIT

需要了解更多信息，可以仔细查看官方的proxy文档，文档是介绍指令的方式来说明的，因此有些你需要的东西，可能要花一定的时间全部看完，才知道。就如怎么强制进行缓存。我是看了四五遍之后才发现，可以如此干。

Nginx还有很多功能还没发掘，需要在实际使用中好好研究。会有更多收获。

了解正则中的特殊匹配技巧

Posted by wolftankk on 2014/04/17 No comments

正则，不一定每个程序员都会使用，正则中的语法也不是每一个人都能非常的了解，每个语言对正则的支持度又是一样的，一般来说正则表达式有POSIX类，PERL类等等。在这里不会把正则的初始教程也写下来，主要为已经会使用正则，需要知道一些技巧的朋友提供一些帮助。在这里主要以python为主，正则大致上都是相同的，所以如果用不了，可以看看所用语言的文档。

首先来说一下正则的一些基础知识：

正则中的一些特殊字符

Spyder介绍

Posted by wolftankk on 2014/04/01 No comments

Spyder这个项目本来也没打算要写，但是最近因为一些业务上的需求，需要重新使用，就顺手写一点介绍。Spyder是一个用python2写出来的页面抓取工具，代码托管在Github上。原先Spyder是需要mysql才行的，这次改版我把管理界面和采集器本身进行了一次分离。因此这一次只来说说采集器的本身，Web管理界面等到下一次再说吧。

在src目录里spyder可以采集器，web为web管理界面，libs放了一些通用的函数在里面。用Spyder前，你需要安装lxml。这个是一个非常有用的库，可以对采集回来的html数据进行dom操作。

Spyder中最基础的单元为Seed，也就是所谓的种子。一个种子他包含了你需要采集的需求。看下这例子：

import os, sys
parentdir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)));
if parentdir not in sys.path:
    sys.path.insert(0, parentdir)

from spyder.seed import Seed

config = {
    'listtype': u'html',
    'tries': 5,
    'frequency': 7200,
    'lang': u'zhCN',
    'seed_name': u'抓取在线人数',
    'enabled': 1,
    'rule': {
        'urlformat': 'http://www.douyu.tv/directory/all?offset=$page&limit=30',
        'pageparent': '',
        'maxpage': 25,
        'step': 30,
        'startpage': 0,
        'contenturl': '',
        'listparent': 'div[id="item_data"] ul li',
        'urltype': 'createLink',#链接模式
        'contentparent': 'a[class="list"]',
        'zero': 1,
        'entryparent': '',
        'filters': [
            #filterid, value, fetch_all, type(content/list)
        ],
        'extrarules':[
            ('title', 'h1[class="title"].text()', 0, 'list'),
            ('view', 'span[class="view"].text()', 0, "list"),
            ('name', 'span[class="nnt"].text()', 0, "list"),
            ('game', 'span[class="zbName"].text()', 0, "list"),
        ]
    },
    'timeout': 5,
    'sid': 1000L
}

seed = Seed(config);

上面就是一个抓取某网站直播在线人数的配置文本。这里包含了listtype（列表页面类型：html, json, feed）、tries（尝试次数，默认为5次）、seed_name（种子名称）、sid（种子ID，必须要分配一个）、enable（是否启用）、rule（采集配置）。
rule中包含了基础的采集信息和过滤器以及额外需要抓取的数据。先来说说基础的

生成列表链接

urlformat 列表页面模板，这个需要和下面的urltype结合在一起使用。一般来说需要抓取的列表页面都是有规则的。所以我在urltype中设定了三种模式inputLink（自定义模式）、createLink（根据设定的step, maxpage, startpage，来生成列表链接）、dateLink（根据设定的日期格式）。在这些列表中可选参数是$page。这个用于指定需要填充的位置。比如上面例子中的，就是createLink类型。根据所指定的规则，他会生成为：
http://www.douyu.tv/directory/all?offset=0&limit=30
http://www.douyu.tv/directory/all?offset=30&limit=30

提取列表及获取文章链接
在你生成列表链接之后，就可以开始抓取了。抓取下来的都是html页面。这个时候你需要配置需要采集的列表区域以及文章链接。这里需要涉及listparent，contentparent。这里的配置很简单，如果你熟悉jquery的话，那么配置起来相当简单。

上面已经简单的描述了如何去获取列表内容。在这里，可能我会囉嗦几句关于配置正则方面的东西。先来说下extrarules。这里面包含了你需要采集的其他信息。rule本身只是去抓取页面和获取文章链接，其余信息是都没有的。所以你需要配置extrarules让Spyder知道你需要从页面上获取哪里信息。

('title', 'h1[class="title"].text()', 0, 'list'),

上面这个就是一个简单的extrarules中的一条。分别对应name,parent, fetchall, type。 name就是在你后期获取数据时候的一个key。第二个为抓取正则，这个正则如同上面一样，都是和jquery差不多。获取文字用text(),如果你要获取html就用html()。这个就可以在浏览器先试成功之后，再复制粘帖进来。第三个为是否全部抓取，第四个为类型（list列表， content 文章）。

除了extrarules还有一个叫做filters，过滤器功能可以用做替换，可以改文本内容。这个下次时候我在述说。

通过上面的配置，一个采集的种子已经配置完成了。

第二步就是数据的采集过程了。

import os, sys
parentdir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)));
if parentdir not in sys.path:
    sys.path.insert(0, parentdir)

from spyder.seed import Seed
from spyder.document import Grab

seed = Seed(config);
data = Grab(seed);

你只要引用document中的Grab就可以了。他会采集完成后的数据全部放在items中。你可以只需要进行数据遍历即可。

以上简单介绍了一个Spyder，它与其他采集器不一样的地方在于灵活，配置方便。可以用于各种情况。项目在一年前写的，但是集成了相当多的功能，比如图片存储转换链接，存储到数据库，可扩展插件等等。目前我正在所以对代码进行一次整理，这篇文章也算是对原有代码逻辑的一次梳理。

利用Redis开发预约系统

Posted by wolftankk on 2014/04/01 No comments

这次来讲讲redis的一些高级使用机制，redis就不在这里过于介绍了，不了解的可以google，可以wiki，也可以去redis官网看看。上面都有它的历史和使用说明。

Redis主要提供了集中类型：字符串，hash，list，有序/无序集合。每个类型都有不同的使用场景，例如字符串可以保存一些固定key的数据。比如用户基础数据等等。Redis是一个单进程单线程的内存数据库，对于并发来说，基本上不会出现重复的问题，同时它所处理的速度也是极快的。因此在门票预约或者发红包的时候，利用Redis这一特性，可以很好的解决并发所带来的问题，同时也提高了运行效率，处理速度。

对于门票预约来说，一般都会事先生成好所有的座位，这里的座位我们称之为ticket。Redis中List是提供了push和pop功能。第一步需要先把所有生成的ticket放入list中，用户在点击预约时，用lpop命令弹出一个。如果想退订或者失败回滚处理用rpush命令插入。另外，门票每个人只能预约一张，你可以创建一个hash表，用userid做为这个hash表的key，在每次获取订单的时候，你可以去这个hash表上查询，此userid时候已经存在，若不存在，可以将预约成功者的userid以及ticket、状态、时间。存储到这个hash表中。

在这套预约系统中，有一个问题，就是我创建了这个预约事件，那么我想调整人数时候就遇到难题了。增加人数还好说，通过差值，在list中rpush那些数量的ticket。而需要减少的时候，可就没办法了。除非你把这个预约事件全部取消并删除。

在并发测试的时候，没有遇到同时会分配到两个相同的ticket。而且redis的并发量，超出了我们的想象，若是只使用Mysql这类关系数据库，对服务器的压力可能会有所增加，同时，mysql因为行锁原因，可能会比Redis低一些。

通过我上面那么多的废话，你设计这套只需要4个：
1. ticketqueue:2 ticket队列表后面的数字代表预约事件id。 list类型
2. orderedlist:2 成功预约列表。hash表类型
3. userlist 用户数据表，存储用户的联系方式。 hash表
4. eventlist 预约表。这个存储每个预约的信息。 hash表

除了你用Redis之外，你还可以用mysql。这个Mysql只是用来存储最终的结果，就是当整个预约流程成功跑完获得ticket之后，将状态，预约信息，用户信息存在数据库中，便于后台的检索。

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

月色狼影

旅行中,听其言,看其人,做其事

Monthly Archives: April 2014

Nginx porxy的一些是使用总结

一、前言

二、反向代理

三、负载均衡

四、页面缓存

了解正则中的特殊匹配技巧

Spyder介绍

利用Redis开发预约系统

Categories

Recent Posts

Follow me on Twitter

月色狼影

旅行中,听其言,看其人,做其事

Monthly Archives: April 2014

Nginx porxy的一些是使用总结

一、前言

二、反向代理

三、负载均衡

四、页面缓存

了解正则中的特殊匹配技巧

Spyder介绍

利用Redis开发预约系统

Tags

Categories

Recent Posts

Follow me on Twitter