PHP 截取字符串专题

2006-12-12 19:30

5,122

170 字

9 分钟

本文最后更新于 6746 天前，其中的信息可能已经有所发展或是发生改变。

截取GB2312中文字符串

 <?php
//截取中文字符串
function mysubstr($str, $start, $len) {
$tmpstr = "";
$strlen = $start + $len;
for($i = 0; $i < $strlen; $i++) {
    if(ord(substr($str, $i, 1)) > 0xa0) {
        $tmpstr .= substr($str, $i, 2);
        $i++;
    } else
        $tmpstr .= substr($str, $i, 1);
}
return $tmpstr;
}
?>

截取utf8编码的多字节字符串

 <?php
//截取utf8字符串
function utf8Substr($str, $from, $len)
{
return preg_replace('#^(?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$from.'}'.
                   '((?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$len.'}).*#s',
                   '$1',$str);
}
?>

UTF-8、GB2312都支持的汉字截取函数

 <?php
 
function cut_str($string, $sublen, $start = 0, $code = 'UTF-8') {
    if($code == 'UTF-8')
    {
        $pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
        preg_match_all($pa, $string, $t_string);
 
        if(count($t_string[0]) - $start > $sublen) return join('', array_slice($t_string[0], $start, $sublen))."...";
        return join('', array_slice($t_string[0], $start, $sublen));
    }
    else
    {
        $start = $start*2;
        $sublen = $sublen*2;
        $strlen = strlen($string);
        $tmpstr = '';
 
        for($i=0; $i< $strlen; $i++)
        {
            if($i>=$start && $i< ($start+$sublen))
            {
                if(ord(substr($string, $i, 1))>129)
                {
                    $tmpstr.= substr($string, $i, 2);
                }
                else
                {
                    $tmpstr.= substr($string, $i, 1);
                }
            }
            if(ord(substr($string, $i, 1))>129) $i++;
        }
        if(strlen($tmpstr)< $strlen ) $tmpstr.= "...";
        return $tmpstr;
    }
}
 
$str = "abcd需要截取的字符串";
echo cut_str($str, 8, 0, 'gb2312');
?>

BugFree 的字符截取函数

  
<?php
/**
 * @package     BugFree
 * @version     $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $
 *
 *
 * Return part of a string(Enhance the function substr())
 *
 * @author                  Chunsheng Wang <wwccss@263.net>
 * @param string  $String  the string to cut.
 * @param int     $Length  the length of returned string.
 * @param booble  $Append  whether append "...": false|true
 * @return string           the cutted string.
 **/
function sysSubStr($String,$Length,$Append = false)
{
    if (strlen($String) < = $Length )
    {
        return $String;
    }
    else
    {
        $I = 0;
        while ($I < $Length)
        {
            $StringTMP = substr($String,$I,1);
            if ( ord($StringTMP) >=224 )
            {
                $StringTMP = substr($String,$I,3);
                $I = $I + 3;
            }
            elseif( ord($StringTMP) >=192 )
            {
                $StringTMP = substr($String,$I,2);
                $I = $I + 2;
            }
            else
            {
                $I = $I + 1;
            }
            $StringLast[] = $StringTMP;
        }
        $StringLast = implode("",$StringLast);
        if($Append)
        {
            $StringLast .= "...";
        }
        return $StringLast;
    }
}
 
$String = "CodeBit.cn -- 简单、精彩、通用";
$Length = "18";
$Append = false;
echo sysSubStr($String,$Length,$Append);
?>

孤

孤独剑

2007-12-16
2007-12-16 23:07:55

很好，谢谢。。。
h

husw

2008-1-2
2008-1-02 18:40:06

非常详细，谢谢！！！
s

shane lewis

2008-2-1
2008-2-01 13:43:14

我一定要来赞一下，你太神了啊，佩服哦
jezz

2009-6-2
2009-6-02 9:45:46

不错啊，很好啊！
jamix

2009-6-16
2009-6-16 14:09:33

不错哦…谢谢博主了!!!
zhaowei

2009-7-23
2009-7-23 9:58:54

BugFree is good!
TaoGOGO

2009-10-6
2009-10-06 19:18:44

第一个字符串截取函数如果 $start参数不为0的话会出问题，不知道你有没有遇到过，截取的初始字符不会从规定的开始，正如函数中所示，是直接加载length上了
phpzxh

2009-11-20
2009-11-20 15:29:24

转载了。
请问博主
[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+)这个是汉字的十六进制编码吧？

还有个问题这些通用函数同样函数解决不了，就是，我给个字符串，有汉字和英文字母，
比如：$string =”安检口abcdef”;
echo sysSubStr($string,5);
我希望输出的是五个字符，为”安检口ab”;
而实际输出的为”安检”;
还有就是有个mb_substr函数可以实现，为什么不直接用这个。可能有些php环境部支持吧。。
- Kimi
  博主
  phpzxh
  
  2009-12-14
  2009-12-14 11:31:09
  
  @phpzxh, mb_substr不是所有的服务器都有，而且这里计算数字的时候是按照一个汉字两个直接来计算的。06年写的的呢，找时间更新一下。
杜杜

2009-12-30
2009-12-30 21:56:10

http://www.ccvita.com/27.html
任意网址字符串截取 http://www.ccvita.com 这一部分或http://www.ccvita.com这一部分，找不到好的实现方法，不知道您有什么好的办法！！

QQ:670608809
谢谢

2010-4-13
2010-4-13 20:21:09

多谢了。我的截取一直都有问题，现在终于解决了，再次谢谢！
谢谢

2011-5-27
2011-5-27 16:28:58

辛苦博主了
jayjiang

2011-6-25
2011-6-25 0:10:53

没有一个全能的
hkmcgogo

2011-9-15
2011-9-15 23:22:54

正在写wordpress的插件，为中文字符处理烦恼中
hkmcgogo

2011-9-15
2011-9-15 23:23:49

正在写wp的插件，为中文字符处理烦恼中
你的utf-8有用
jeffstric

2011-12-28
2011-12-28 15:37:43

我把你的函数和另一个UTF-8截取函数一起测试了一下，还是你的快阿