Boost学习笔记 -- 字符串与文本处理

时间:2022-09-09 00:00:10

lexical_cast

使用lexical_cast

#include <boost/lexical_cast.hpp>
using namespace boost;

sample

int x = lexical_cast< int >( "100" );
long y = lexical_cast< long >( "2000" );
float pai = lexical_cast< float >( "3.14159e5" );
double e = lexical_cast< double >( "2.71828" );

string str = lexical_cast< string >( 456 ); // "456"
string str1 = lexical_cast< string >( 0.618 ); // "0.6179999999999999"
string str2 = lexical_cast< string >( 0x10 ); // "16"

注意,要转换成数字的字符串只能有数字和小数点,不能出现字母(表示指数的e/E除外)或其他非数字字符,例如不能是”123L”, “0x100”。如果需要更高级的格式控制,则需要使用std::stringstream或者boost::format。

format

使用format

#include <boost/format.hpp>
using namespace boost;

sample

cout << format("%s:%d+%d=%d\n") % "sum" % 1 % 2 % ( 1 + 2 );    // sum:1+2=3
format fmt( "(%1% + %2%) * %2% = %3%\n" );
fmt % 2 % 5;
fmt % ( ( 2 + 5 ) * 5 );
cout << fmt.str(); // (2 + 5) * 5 = 35

格式化语法

  • %05d: 输出宽度为5的整数,不足位用0填充;
  • %-8.3f: 输出左对齐,总宽度为8,小数位3位的浮点数;
  • % 10s: 输出10位的字符串,不足位用空格填充;
  • %05X: 输出宽度为5的大写16进制整数,不足位用0填充;
format fmt( "%05d\n%-8.3f\n% 10s\n%05X\n" );
cout << fmt % 62 % 2.236 % "123456789" % 48;

result:
00062
2.236
123456789
00030

format的性能

printf()不进行类型检查,直接向stdout输出,因此它的速度非常快,而format较printf()做了很多安全检查的工作,因此性能略差,速度上要慢很多。
如果很在意format的性能,可以先建立const format对象,然后复制这个对象进行格式化操作,这样比直接使用format对象能够提高速度:

const format fmt( "%10d %020.8f %010X %10.5e\n" );
cout << format( fmt ) % 62 % 2.236 %255 % 0.618;

string_algo

string_algo是一个非常全面的字符串算法库,可以在不使用正则表达式的情况下处理大多数字符串相关问题。

用法

string_algo库位于boost::algorithm,但被using语句引入到了名字空间boost

#include <boost/algorithm/string.hpp>
using namespace boost;

sample

string str( "readme.txt" );
if( ends_with( str, "txt" ) ) {
cout << to_upper_copy( str ) + " UPPER" << endl;
assert( ends_with( str, "txt" ) );
}

replace_first( str, "readme", "followme" );
cout << str << endl;

vector<char> v( str.begin(), str.end() );
vector<char> v2 = to_upper_copy( erase_first_copy( v, "txt" ) );
for( auto ch : v2 ) {
cout << ch;
}

result:
README.TXT UPPER
followme.txt
FOLLOWME.

string_algo概述

符合boost.range要求的容器都可以被string_algo处理。
string_algo库中的算法命名遵循了标准库的惯例,使用不同的扩展来区分不同的版本,规则是:

  • 前缀i:有此前缀表明算法是大小写不敏感的,否则是大小写敏感的;
  • 后缀_copy: 表明算法不变动输入,返回处理结果的复制,否则算法改变输入;
  • 后缀_if:表明算法需要一个作为判断式的谓词函数对象,否则使用默认的判断标准;

string_algo提供的算法分为5大类:

  • 大小写转换;
  • 判断式与分类;
  • 修剪;
  • 查找与替换;
  • 分割与合并;