Category Archives: PHP

PHP中执行Mongo的一个性能问题

最近正好在使用mongodb,在完成基础功能的时候,我习惯性的会对其性能进行一些测试,首先在mongo 2.6.4下进行测试,php版本会5.6。测试工具我使用的wrt,这是一个非常好用的压力测试工具,而且可以配合lua脚本,测试和聚合。

在Mongo 2.6.4下测试情况

由于业务的需要,我用500个并发+1分钟请求来进行了测试,主要针对读取,插入,更新已经调用执行js脚本。

1. mongo数据读取操作,结果是1320 reqs/sec。

2. mongo数据插入操作,结果是1240 reqs/sec。

3. mongo数据更新操作,结果是1250 reqs/sec。

以上三个结果,我还算能接受,但是接下来的测试,让我彻底惊到了。

由于业务上的需求,我在设计整个构架的时候,是考虑把一部分逻辑放在mongo中调用js直接执行的。测试脚本是

function getGameInfo(gameid) {
   if (gameid == undefined) {
       return false;
   }

   game = db.games.findOne({ gameid : gameid });

   if (game) {
      return game.toArray();
   }

   return false;
}

然后在php中执行,php的脚本为

$client = new MongoClient("mongodb://localhost:27017");
$db = $client->selectDB("test");
$code = "function getGameInfo(gameid) {
   if (gameid == undefined) {
       return false;
   }
   game = db.games.findOne({ gameid : gameid });
   if (game) {
      return game.toArray();
   }
   return false;
}";

$db->execute($code, array(10));
$client->close();

测试下来的结果只有35reqs/sec,而且mongo还报了连接数过多。首先mongodb的链接,在php中默认就是长链接,也就是说链接数过多,因为前面的数据执行了没有断开链接。但是我明明关闭链接了。

我Google了一下,在mongo中select是non-block,insert和update是collection级锁,而运行js脚本是全局锁,同时在mongo2.6.4下js是spidermonkey。主要原因找到了,因为全局锁,就必须等待前面一个脚本运行完成返回结果才行。同时现在Mongo已经升级到了3.0,它的JS引擎也从spidermonkey变成了V8,但同时在3.0,execute/eval函数了已经deprecated。

在Mongo 3.0.0下测试情况

MongoDB已经正式发布了3.0,根据官方的测试提高接近4倍的性能,我以1000个并发+1分钟请求进行测试,其结果确实让人满意不少。

1. mongo数据读取操作,结果是2320 reqs/sec。

2. mongo数据插入操作,结果是1840 reqs/sec。

3. mongo数据更新操作,结果是1950 reqs/sec。

探求PHP-FPM最佳运行模式

我们安装php,在配置PHP-FPM的时候一般搜到的配置,大多数都是一样的,推荐你使用’dynamic’进程管理(process manager,在配置中简称位pm)模式来运行。虽然这没什么问题,但是本文将会探究最佳运行模式。

为什么要选择’ondemand’来代替’dynamic’来做为进程管理器

在大多数的配置指南中,都是这样配置的,然后你会直接复制粘贴放在你的配置文件中。

Read more »

PHP Routing Part 2:Router

上次讲完Request之后,一直在研究Router(路由器)部分的东东。看过PHP、Python等其他框架内实现的路由器。

路由一共分为两个功能:
1、标准路由器, 这里会把链接上的uri根据配置文件分析后,得到Controller和Action。
2、跳转路由和代理路由, 也就是redirect和proxy。同样和1一样,需要写入uri的配置规则,只不过是会根据配置跳转链接,并且赋予301或者302状态码。

在PHP5.4开始的版本,基本上都是使用PHP-FPM模式,当用户访问一个页面,webserver(比如Nginx),会将请求传给php,此时PHP会进行初始化,这时候会将一些变量常量写入到了$_SERVER中。就如上面所说,每次请求都是一个完整的链接,我们分割为3个部分:基本地址,路径,请求参数。

  1. 基本地址: 也就是你的基础路径,可以是一个域名也可以是一个带有path的地址链接。这些将会忽略不计。
  2. 路径: 这里的路径就是你所需的有效路径,比如 /users/show, /video/categories, /news/content/2014-03-02/1313.html
  3. 请求参数: 这里包含了_COOKIE,_GET,_POST以及php://input

一般情况下,我们需要的是路径这一部分,一般可以通过REQUEST_URI获得。这些都是在Request类中的,还没开始进入的Router类中哦,接下来,是路径解析。首先来说说一说标准路由,首先你要对你的期望制定一些路由规则。在路由器中以:开头的,紧跟着的就是变量名称,例如 /:controller/:action 。那么所有在:controller位置的变量都会当作controller名来处理。一般来说我们链接有以下几种需求:
1. 根目录形式 / 需要定义controller和action,指定首页所显示的内容
2. /:controller/:action/* 最常见的链接模型
3. /api/:contoller/:action 链接是有一个prefix的。
4. /news/content/:date/:id.html 一种伪静态的链接。 像这种:date :id是一种自定参数,我们可以在路由配置后面加上 date 的匹配规则, [0-9]{4}-[0-9]{2}-[0-9]{2}。

上面4个例子都是我们常看到的,这些配置有了,还不能正常使用。我们需要通过将这些配置转换成程序可读的正则表达式。首先我们将:controller分割出来,controller将会用于匹配后的key名。这时候正则表达式需要利用标签格式(?exp),这个模式在匹配成功后,返回的结果中,将会以你定的name来做为key,就不需要通过数据索引来一一访问。在匹配成功之后,有了controller和action,这时候Dispatcher就会正式调用。

至此,路由解析已经完成,所有的处理已经全部交给了Controller。Controller处理完结果之后,将会输出给Response,显示给用户的面前。

我对PHP框架的一些看法

在去年的时候发过一篇对与Request的理解,这个是整个框架中的一小部分。现在php的框架众多,有直接用C实现的yaf;用php语言实现的框架就更多了,例如cakephp,yii,thinkphp,zendframework等等,举不胜举。以前我写过一个小型的PHP框架Suara,现在仍在公司的项目中使用着,但是我一直想把php5.6之前的新特性融合进去,重新对框架进行开发。这时候就遇到第一个难事,如何下手。看过一些stackoverflow的文章,面对PHP框架所需要的功能,有一些疑惑。我们到底需要给予一个框架怎么样的功能?

抛开PHP,我们可以看下Python,其中web.py,就是一个非常好的例子,在众多框架中,是最简单的,只简简单单的提供了router、view、model、controller和wscgi。而其他那些繁杂的功能,全部用使用者或者插件来实现。这个应该最容易上手的一个web框架,只要有一些python语言的基础,并且看一下文档,你就能开发出你所需要的网站。这是我向谈论的第一点:易用性。同样在python中还有flask。在php中我却没有发现,都需要去阅读繁杂的初学者文档,才能一步一步完成。当然,你服务器上只要有php和apache,写个php文件就能成为网站,你可以称它最快速的,我也没什么可以说的了。

第二点,功能性。作为一个框架,所提供的功能的多少,就表现出该框架有多么的强大和方便。虽然这些框架在第一次上手有那么一点苦难,但是在后续开发中,需要一些功能的时候,就显得异常的方便。比如需要一个mail service,一些框架在底层已经完成了实现,而做为网站开发者,只需要对照着框架的文档,写一些配置文件,就能使用。

第三点,性能。众所周知,越强大的框架,所需要占用的内存是直线上升的。这里需要分成两点来说,如果只是用php输出一个”Hello world”。那么直接写php文件的性能肯定是比框架要来的好,快的多,并发量也多。但是如果是查询一个数据然后显示在页面上,那么直接写php上的不一定就有框架来的好了,毕竟框架自身有cache,防dos等等功能。

因此,结合上面的三点,要写一个框架,具体需要看它应用的场景,只有最最符合使用场景的框架才是好框架。

除去router、controller、model和view之外,框架中还有一些其他的常见功能:

  1. Autoload自动加载, 这个是在框架中最为核心的,免去了使用include,require引用。若结合namespace,引用与载入就非常的方便。
  2. Exception异常处理
  3. Log 日志记录
  4. Cache 缓存处理,主要是file、redis、memcache
  5. 邮件

一个框架,需要你很多很多知识,以及丰富的开发经历,才能对框架有一个全局控制。

php对象中最基础的东东 — Object

在开发php框架的时候,我们总需要一个最最基础的类,而这个类负责着最最基础的东西,在OO中,Object就是最原始,最底层的结构。为何需要Object?Object是一个对象,这个对象中它含有属性、方法。通过所需要的对象捏合在一起,就成了一个东西。 就比方说家里的照明,它就包含有2个Object:开关和灯泡。 开关拥有链接电源和断开电源的功能,而灯泡具有亮和灭的属性,两者结合在一起就成了家里的最简单的照明系统。 同样,在PHP中需要各种各样的类,组合起来产生一个为人服务的功能。

PHP的Class默认是有__get, __set, __isset, __unset, __call这些基础的magic, 但是如果你不在class中实现这些方法的时候,是不会自动启用的。

1. __get
当$object->property 就会自动触发,这样就把$object的属性(类变量)完全暴露出来了,为了安全期间,只有拥有get{name}方法的可以读取到

2. __set
当$object->property = $value 就会自动触发,会将值直接赋予到该属性上。 同上, 只有拥有set{name}方法的才能进行属性设置。 这样避免了一个object的完全暴露

在object中,只要让property能读取,那么就一定有设定的方法。因此,只要property拥有get属性,那么他同时也要拥有set属性

3. __isset
当使用islet时会触发,用于判断$object是否有property

4. __unset
当使用unset是会触发,将值赋值为null

5. __call
当调用$obejct->xx(), 如果调用失败的时候,会触发__call

6. hasMethod
判断该$object是否拥有此方法

7. hasPerporty
判断该$object是否拥有此属性,一般通过判断 公有property是否可以读取、是否可以赋值 或者 私有属性是否存在(property_exists)

好了,上面已经把大致的Object基础讲了一边,下面是基本实现

class Object {
   //获得当前Object的类名
   public static function className() {
      return get_called_class();
   }

   public function __get() {
       $getter = 'get' . $name;
        if (method_exists($this, $getter)) {
           return $this->$getter();
        } elseif (method_exists($this, 'set' . $name)) {
           throw new InvalidCallException('Getting write-only property: ' . get_class($this) . '::' . $name);
        } else {
           throw new UnknownPropertyException('Getting unknown property: ' . get_class($this) . '::' . $name);
        }
   }

   public function __set() {
       $setter = 'set' . $name;
        if (method_exists($this, $setter)) {
           return $this->$setter();
        } elseif (method_exists($this, 'get' . $name)) {
           throw new InvalidCallException('Getting read-only property: ' . get_class($this) . '::' . $name);
        } else {
           throw new UnknownPropertyException('Getting unknown property: ' . get_class($this) . '::' . $name);
        }
   }
   
   public function __isset($name) {
        $getter = 'get' . $name;
        if (method_exists($this, $getter)) {
           return $this->$getter() !== null;
        } else {
           return false;
        }
    }

   public function __unset($name) {
        $setter = 'set' . $name;
        if (method_exists($this, $setter)) {
           return $this->$setter(null);
        } else {
           throw new InvalidCallException('Unsetting read-only property: ' . get_class($this) . '::' . $name);
        }
    }

    public function hasProperty($name, $checkVars = true) {
        return $this->canGetProperty($name, $checkVars) || $this->canSetProperty($name, false);
    }

    public function canGetProperty($name, $checkVars) {
       return method_exists($this, 'get' . $name) || $checkVars && property_exists($this, $name);
    }

    public function canSetProperty($name, $checkVars) {
       return method_exists($this, 'set' . $name) || $checkVars && property_exists($this, $name);
    }

    public function hasMethod($name) {
       return method_exists($this, $name);
    }
}

这上面只有最最基础的Object,在现实中,Object可能会有各种各样的变化,因此我们需要在实际情况下,对Object进行改进。

MySQL1: 如何剖析性能

最近正好在阅读《高性能MySQL》,同时在公司做一次分享会,在这次分享会中我将会从几个方面开展

  1. 如何剖析性能
  2. 正确使用数据类型
  3. 如何创建正确的索引
  4. 优化查询

一、为什么需要性能优化

衡量性能一个重要原则:完成某件任务所需要的时间度量。性能即响应时间。对于数据库服务器,我们关注的是它查询或者其他操作语句(SELECT, UPDATE, INSERT)的响应时间。其次,我们有个误区,认为mysql占用CPU越低越好,这个其实不然,如果在有效的查询中,mysql能够很好的利用CPU资源,即时在100%的情况下,也能非常块的响应,那么我们需要考虑另外一方面的优化。另外,我们只把性能优化看作提升每秒查询量(即吞吐量),对查询的优化可以让服务器每秒执行更多的查询,因为每条查询所执行的时间更加的短了。

我们需要做优化,首先应该进行对数据有个精准的测量,要知道为什么会响应如此之慢。所以本文将具体探讨如何测量以及数据优化。

二、对应用程序进行性能剖析

我们不能只针对mysql服务器进行剖析,在很多情况下应用导致的性能问题也不少,其性能瓶颈可能有很多因素:

  • 外部资源,比如调用了其他web服务
  • 应用需要处理大量的数据,比如分析二进制数据
  • 在循环里执行昂贵的操作。比如滥用正则表达式
  • 使用了低效的算法

分析PHP性能的工具非常多,比如facebook开发的xhprof(https://github.com/facebook/xhprof),xdebug。

三、剖析MySQL查询

分析服务端的负载是很有价值的,因为在服务端可以有效地审计效率低下的查询。定位和优化“坏”的查询能够显著的提升应用性能。
第一种方法,慢查询日志最初只捕捉比较“慢”的查询,在5.1版本之后,做了增强,现在只要设置long_query_time为0就能捕获所有的查询。
第二种方法,通过TCP抓包,然后根据MySQL的客户端/服务端通信协议进行分析,在linux下可以使用tcpdump,windows下可以使用wiresharke。
在分析单条查询,我们可以借助系统自身的SHOW PROFILE、SHOW STATUS两种方式。

1. SHOW PROFILE

这命令是在5.1时候引用进来的,而且默认是禁用的,我们可以通过修改服务器变量启用它。

mysql>SET profiling = 1;

设置完毕后,将会检测其耗费的时间和其他一些查询执行状态变更相关数据。 当一条查询提交给服务器时,服务端将会建立一张临时表,将所有信息全部记录进去。

mysql>select * from pre_forum_post LIMIT 0, 3000;
3000 rows in set (0.16 sec)

然后使用SHOW PROFILES查看有什么结果。

mysql>SHOW PROFILES;
+----------+------------+--------------------------------------------+
| Query_ID | Duration   | Query                                      |
+----------+------------+--------------------------------------------+
|        1 | 0.01831450 | select * from pre_forum_post LIMIT 0, 3000 |
+----------+------------+--------------------------------------------+
1 rows in set, 1 warning (0.00 sec)

要具体看一条数据我们可以这样。

mysql> SHOW PROFILE FOR QUERY 1;
+----------------------+----------+
| Status               | Duration |
+----------------------+----------+
| starting             | 0.000068 |
| checking permissions | 0.000009 |
| Opening tables       | 0.000037 |
| init                 | 0.000031 |
| System lock          | 0.000015 |
| optimizing           | 0.000007 |
| statistics           | 0.000015 |
| preparing            | 0.000011 |
| executing            | 0.000004 |
| Sending data         | 0.018052 |
| end                  | 0.000017 |
| query end            | 0.000009 |
| closing tables       | 0.000013 |
| freeing items        | 0.000014 |
| cleaning up          | 0.000015 |
+----------------------+----------+
15 rows in set, 1 warning (0.00 sec)

EXPLAIN

mysql> EXPLAIN select * from pre_forum_post LIMIT 0, 3000;
+----+-------------+----------------+------+---------------+------+---------+------+----------+-------+
| id | select_type | table          | type | possible_keys | key  | key_len | ref  | rows     | Extra |
+----+-------------+----------------+------+---------------+------+---------+------+----------+-------+
|  1 | SIMPLE      | pre_forum_post | ALL  | NULL          | NULL | NULL    | NULL | 36873047 | NULL  |
+----+-------------+----------------+------+---------------+------+---------+------+----------+-------+
1 row in set (0.00 sec)

mysql> EXPLAIN select * from pre_forum_post as a LEFT JOIN pre_forum_thread as b ON a.tid = b.tid GROUP BY a.author ORDER BY b.tid;
+----+-------------+-------+--------+---------------+---------+---------+--------------+----------+---------------------------------+
| id | select_type | table | type   | possible_keys | key     | key_len | ref          | rows     | Extra                           |
+----+-------------+-------+--------+---------------+---------+---------+--------------+----------+---------------------------------+
|  1 | SIMPLE      | a     | ALL    | NULL          | NULL    | NULL    | NULL         | 36873047 | Using temporary; Using filesort |
|  1 | SIMPLE      | b     | eq_ref | PRIMARY       | PRIMARY | 3       | plu_dx.a.tid |        1 | NULL                            |
+----+-------------+-------+--------+---------------+---------+---------+--------------+----------+---------------------------------+
2 rows in set (0.02 sec)

四、诊断间隙性的问题

间隙性处问题是很难诊断的,它可能因为:

  1. 应用服务器与MySQL服务器出现短暂的网络延迟
  2. memcached或者redis中的数据过期,导致这些请求全部需要从MySQL中获取
  3. DNS查询偶尔会有超时
  4. 互斥锁争用,或者内部删除查询缓存的算法效率太低
  5. 并发超过一定的阀值

是因为查询所导致的问题还是服务器?我们可以使用SHOW GLOBAL STATUS、SHOW PROCESSLIST、查询日志等等手段。

PHP Routing Part 1:Request


php开发中,如果不是mvc模式,在规划路径的时候通常使用目录结构,或者在根目录下建立有意义的php文件。
例如:

http://www.example.com/user/login.php
http://www.example.com/user.php?actinon=login

但使用MVC模式写站点的的时候,由于php的特性,必须要一个router管理及派发。在谈router之前,首先从request开始谈起.

Request, 请求。用户输入网址按回车,php收到的客户端数据就是Request。我们通过分析request,知道当前用户需要访问哪个页面,哪个动作,哪些数据等等信息。通常情况下request只包含header,但在put状态同时还会包含body部分。

一、 header

在求请求头中,会包含用户浏览器传递到服务端的各种信息,如果用户ip地址、正在访问的url、userAgent、cookie等等参数。可以通过firefox的firebug或者Chrome的调试工具, 点击network。可以查看到当前页的Request信息。如下图所示:
php_request_header_info

header在php中如果访问到?可以从$_SERVER数组中读取HTTP_{$key}的信息。

二、 body

body只有在两种请求状态下会出现:put、delete。并且不是表单提交状态。这一点非常重要,如果是表单提交,那么可以从$_POST中读取。下面会具体讲到。
如何读取?非常简单,直接通过php://input就能读取到数据流。

$fh = fopen("php://input", "r");
$content = stream_get_contents($fh);
fclose($fh);

这种主要出现在resetFul服务中,客户端直接向服务端put/delete json或者xml格式的数据。

三. $_GET

在这里插入一个题外话,在php中一个特殊的数据$_REQUEST,它同时包含了$_GET和_$POST中的数据,如果直接通过$_REQUEST数据是不安全的,此时你没法分清用户传来的数据是post还是get,极大的降低了服务端的安全性。所以不推荐使用$_REQUEST代替$_GET和$_POST读取用户传递的数据信息。
在php.ini中开启magic_quotes_gpc,需要在分析前stripslash。$_GET数据来自于链接?后面的一串字符。以xxx[=yy]形式出现,中间使用‘&’符号相连接。xxx为key,yy为value。在php中就展现成一个数据形式。

array(
'xxx' => 'yy',//xxx=yy
'aaa' => '',//aa
);

在MVC中特别需要注意。一般情况下,一个站点会将域名‘/’后面的字符串全部传给index.php。那么$_GET中就只包含了这个信息。这里要注意一点,这时候链接中带有?后面的字符串,紧紧是字符串,它不会被php自动转化成$_GET中的项。我们只需要从字符串中提取‘?’后面的数据 /user/login?returnurl=http://www.example.com。然后通过parse_str函数分析,然后与$_GET进行合并,

if (ini_get('magic_quotes_gpc') === '1') {
	$query = stripslashes_deep($_GET);
} else {
	$query = $_GET;
}
if (strpos($url, '?') !== false) {
	list(, $querystr) = explode('?', $url);
	parse_str($querystr, $queryArgs);
	$query += $queryArgs;
}

四. $_POST

$_POST只用通过表单,并且表单属性中的method设为post。

五. $_FILES

文件上传处理。文件上传通过页面上表单,并且form属性需要设置encrypt=multipart/form-data,同时form中需要包含一个input type="file",php $_FILES中才会有数据。上传后的数据存储在/tmp(linux)或者/APPDATA/temp(windows)目录下,这个文件在15分钟后会被系统自动回收。

在下一篇会讲到Router,分析url地址,根据设定的规则,自动加载controller文件,控制response,在通过view渲染网页向客户端输出网页。

hex2bin for PHP

在php5.4中, 已经有了hex2bin函数, 可以快速的将hex转为二进制.而在低于5.4的版本中如何处理? 可以通过pack进行转换

function hex2bin($hexstr) {
$n = strlen($hexstr);
$sbin=””;
$i=0;
while($i<$n){ $a =substr($hexstr,$i,2); $c = pack("H*",$a); if ($i==0){ $sbin=$c; } else { $sbin.=$c; } $i+=2; } return $sbin; } [/php]

使用C开发包裹第三方的PHP扩展

一. 快速上手

建立php扩展, 我们可以直接使用源代码目录下的ext_skel生成一个初步的框架. 第一步我们需要给他函数定义文件, 该函数定义文件定义了扩展对外提供的函数原形。函数定义文件的一般格式是一个函数一行。你可以定义可选参数和使用大量的PHP类型,包括: bool, float, int, array等。

resource SFileOpenArchive(string name, int priority, int flags)

保存为myfunctions.def文件至PHP原代码目录树下。

该是通过扩展骨架(skeleton)构造器运行函数定义文件的时机了。该构造器脚本叫ext_skel,放在PHP原代码目录树的ext/目录下(PHP原码主目录下的README.EXT_SKEL提供了更多的信息)。假设你把函数定义保存在一个叫做myfunctions.def的文件里,而且你希望把扩展取名为myfunctions,运行下面的命令来建立扩展骨架.

./ext_skel --extname=myfunctions --proto=myfunctions.def

Read more »

如何获取php中被禁用的函数

为了安全, php.ini中提供了disable_functions. 在给予用户使用的时候, 如果某个函数被禁止, 可能此功能会出现异常. 排查也会非常的麻烦. 可以在安装的时候, 将需要的一些关键函数(例如: fsockopen, set_time_limit)进行检测.

在PHP中没有提供get_disable_functions这类函数. 但是我们可以用过phpinfo函数查看到被禁用的函数. 这个时候我们只需要使用ini_get函数就可以获取到disable_functions

error_reporting(E_ALL);
$disabled_functions = ini_get('disable_functions');
if ($disabled_functions!='') {
  $arr = explode(',', $disabled_functions);
  sort($arr);
  print_r($arr);
}else {
  echo 'No functions disabled';
}