Boost 的 STL Container 切割工具（中）：Tokenizer

上一篇大概介紹了 C 的 strtok() 這個專門用來切割 C 字串的函式，以及 Boost C Libraries 裡的 String Algorithms Library 的 split() 這個通用性更廣的函式。而接下來這篇要介紹的，則是功能再進一步的切割工具，Boost 的 Tokenizer（官方頁面）。

Tokenizer 基本介紹

Boost 的 tokenizer 本身是一個 template class，要使用的話要加上 boost/tokenizer.hpp 這個 header 檔；而他是以 STL container 的形式來提供一個處理序列的方法，由於是 template 的形式，所以能處理的資料類型不僅限於字串，也可以用在別的 STL container。他本身的定義如下：

template &lt;
&#160;&#160; typename TokenizerFunc = char_delimiters_separator&lt;char&gt;,
&#160;&#160; typename Iterator = std::string::const_iterator,
&#160;&#160; typename Type = std::string
&gt;
class tokenizer

可以看的出來，tokenizer 這個 class 有三個型別參數，分別是 TokenizerFunc、Iterator 和 Type：

第一項的 TokenizerFunc 是用來切割的方法。
Boost 提供了 char_separator、escaped_list_separator、offset_separator 以及 char_delimiters_separator 這四種不同方法可以使用；不過在 Boost 的文件中有提到，char_delimiters_separator 是過時的（deprecated）版本，建議改使用 char_separator。
但是 Heresy 覺得比較怪的是，目前 Boost 還是把他設定成為預設值…
第二項的 Iterator 是代表輸入序列的 iterator 型別，是用來讀取傳入、要處理的資料用的。
 
第三項的 Type 則是指定切割出來的結果會是怎樣的形式。

Tokenizer 的簡單範例

而由這三者都有提供預設值，所以可以不額外指定而直接使用；而這樣的預設狀態下，他會是針對 std::string 做處理，而處理的方法，則是預設的「char_delimiters_separator<char>」，也就是透過字元來切割字串。

下面的程式碼，就是一個 tokenizer 最簡單的使用範例：

#include&#160;&lt;iostream&gt;
#include&#160;&lt;string&gt;
#include&#160;&lt;boost/tokenizer.hpp&gt;
 
using&#160;namespace std;
 
int main(){
  string str = &quot;Hello, the beautiful world!&quot;;
  boost::tokenizer&lt;&gt; tok( str );
  for( boost::tokenizer&lt;&gt;::iterator beg=tok.begin(); beg!=tok.end();   beg )
    cout &lt;&lt; *beg &lt;&lt; &quot;\n&quot;;
}

在這個範例裡，根據要切割的字串 str 建立了一個 tokenizer 的物件 tok，而之後就可以透過 tok 的 iterator，用類似 STL containter 的形式，來存取切割結果的每一項了∼

這樣的程式的執行結果會和之前使用 strtok() 的範例一樣，是：

Hello
the
beautiful
world

在這個範例裡，tokenizer 的三個型別參數都是直接使用預設值，而就連要用來切割的字元，其實也是 char_delimiters_separator<char>  的預設值，而沒有額外指定；在這個狀況下，tokenizer 會是使用空白和標點符號來做切割，所以「,」和「!」都會被當作切割用的字元。而在一般要切割字串的情況下，這樣應該就可以不用多加設定，直接很方便地使用了∼

而如果要自己控制要用那些字元來做分割呢？如果是使用 char_separator 的話，可以寫成：

#include&#160;&lt;stdlib.h&gt;
#include&#160;&lt;iostream&gt;
#include&#160;&lt;string&gt;
#include&#160;&lt;boost/tokenizer.hpp&gt;
 
using&#160;namespace std;
 
int main( int argc, char** argv )
{
  string str = &quot;Hello, the beautiful world!&quot;;
  boost::char_separator&lt;char&gt; sep(&quot; ,!&quot;);
 
  boost::tokenizer&lt; boost::char_separator&lt;char&gt; &gt; tokens(str, sep);
  boost::tokenizer&lt; boost::char_separator&lt;char&gt; &gt;::iterator tok_iter;
  for( tok_iter = tokens.begin(); tok_iter != tokens.end();   tok_iter)
    cout &lt;&lt; *tok_iter &lt;&lt; endl;
  return 0;
}

在這裡，主要的變化在於指定了 tokenizer 的 TokenizerFunc 是 char_separator<char>；而同時，我們也建立了一個 char_separator<char> 的物件 sep，並在建構 tok 的時候傳進去，當作切割用的方法；而這個切割的方法，則是指定要用「」、「,」和「!」來做切割。這樣出來的結果會和上面的例子完全一樣，不過差異就在於這樣可以自由地控制要用那些字元來做切割了∼

而接下來，也將針對 char_separator、escaped_list_separator、offset_separator 這三種預設的切割方法，來做簡單的說明。至於已經過時的 char_delimiters_separator，Heresy 基本上就跳過了。 ^^"

char_separator 的細節

char_separator（官網說明）基本上類似 strtok()，是用字元來把字串進行切割的；不過實際上由於 tokenizer 整個架構都是採用 template 的形式，所以 char_separator 也可以使用其他型別的資料，不一定局限於 char。除此之外，char_separator 也有提供更多的控制，可以做到一些 strtok() 做不到的事。

他完整的建構子的形式是：

char_separator( const Char* dropped_delims,
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; const Char* kept_delims = 0,
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; empty_token_policy empty_tokens = drop_empty_tokens)

可以發現，他用來設定分割用的字元（delimiter）有兩種，一種是用來切割後就丟掉、不顯示的 dropped delimiter（第一個參數、dropped_delims），另一種則是在切割後還是會保留下來的 kept delimiter（第二個參數、kept_delims）。而另外第三個參數，則是設定要不要把切割出來是空的結果給丟掉，而選擇則只有保留和丟掉兩種（keep_empty_tokens、drop_empty_tokens）。

像在上面的例子裡，就是只有設定 dropped delimiter，所以那些用來做切割判斷的字元都不會顯示出來。而如果我們把上面的 sep 稍作修改，改成「boost::char_separator<char> sep(" ", ",!");」的話，那執行的結果則會變成：

Hello
,
the
beautiful
world
!

可以看的出來，本來沒有顯示出來的標點符號（「,」和「!」）由於現在變成是 kept delimiter，所以現在都變成獨立一項顯示出來了∼

而如果再將最後一個參數設定為保留，也就是將 sep 改為「boost::char_separator<char> sep(" ", ",!", boost::keep_empty_tokens);」，並把輸出的部份前後加上「[」、「]」的話，那結果就會變成是：

[Hello]
[,]
[]
[the]
[beautiful]
[world]
[!]
[]

也就是空字串也都會被抓出來了∼

escaped_list_separator 的細節

escaped_list_separator（官網說明）是設計用來處理 cvs（comma separated value）的格式化 function object。基本上，csv 就是透過逗號「,」和換行來紀錄資料、廣泛地被使用的一種格式，詳細可以參考維基百科。像下面就是一個簡單的範例：

Year,Make,Model,Length
1997,Ford,E350,2.34
2000,Mercury,Cougar,2.38

而 Boost 的 escaped_list_separator 允許使用者可以自訂脫逸字元（escape character，預設是「」）、區隔欄位的字元（預設是「,」），以及引號（預設是「"」）。所以在有了這些設定後，就可以相對簡單地來處理這一類的資料了∼

下面就是一個簡單的範例：

#include&#160;&lt;stdlib.h&gt;
#include&#160;&lt;iostream&gt;
#include&#160;&lt;string&gt;
 
#include&#160;&lt;boost/tokenizer.hpp&gt;
 
using&#160;namespace std;
 
int main( int argc, char** argv )
{
  string s = &quot;Field 1,&quot;quotes around fields, allows commas&quot;,\&quot;escape\&quot;&quot;;
  boost::tokenizer&lt; boost::escaped_list_separator&lt;char&gt; &gt; tok(s);
  boost::tokenizer&lt; boost::escaped_list_separator&lt;char&gt; &gt;::iterator beg;
  for( beg =tok.begin(); beg != tok.end();   beg )
    cout &lt;&lt; *beg &lt;&lt; &quot;\n&quot;;
  return 0;
}

這樣的執行結果會是：

Field 1
putting quotes around fields, allows commas
&quot;escape&quot;

可以看到，基本上字串會被「,」分成三個欄位，而由於有引號「"」的關係，所以切出來的第二個字串裡的「,」並不會變成切割用的字元。而如果有必要用特殊字元的話，也可以使用脫逸字元「」來做處理。透過這樣的機制，他可以比使用 char_separator 時更有彈性地分析字串，在許多情況下，應該是可以有更好的效果的。

而如果有需要自訂的話，escaped_list_separator 的建構子支援三個參數，依序是拖曳字元、分割字元和引號，形式可以是單一字元或是字串。例如下面的例子，就是稍微修改後的結果：

#include&#160;&lt;stdlib.h&gt;
#include&#160;&lt;iostream&gt;
#include&#160;&lt;string&gt;
 
#include&#160;&lt;boost/tokenizer.hpp&gt;
 
using&#160;namespace std;
 
int main( int argc, char** argv )
{
  string s = &quot;'Field, 1',&quot;commas,&quot;;\&quot;escape/&quot;&quot;;
  boost::escaped_list_separator&lt;char&gt; sep( &quot;\/&quot;, &quot;;,&quot;, &quot;&quot;'&quot; );
  boost::tokenizer&lt; boost::escaped_list_separator&lt;char&gt; &gt; tok(s, sep);
  boost::tokenizer&lt; boost::escaped_list_separator&lt;char&gt; &gt;::iterator beg;
  for( beg =tok.begin(); beg != tok.end();   beg )
    cout &lt;&lt; *beg &lt;&lt; &quot;\n&quot;;
  return 0;
}

其中，sep 就是設定脫逸字元是「」或「/」、分隔字元是「;」或「,」，而引號則允許「"」或「’」。

offset_separator 的細節

最後一個，則是 offset_separator（官網說明）。和前兩者是透過設定字元的方法來作分割不同，offset_separator 是直接指定要切割成多長的段落。他最簡單的範例，大概就如下：

#include&#160;&lt;iostream&gt;
#include&#160;&lt;string&gt;
 
#include&#160;&lt;boost/tokenizer.hpp&gt;
 
using&#160;namespace std;
 
int main( int argc, char** argv )
{
  string s = &quot;12252001&quot;;
  int offsets[] = {2,2,4};
  boost::offset_separator f(offsets, offsets 3);
  boost::tokenizer&lt; boost::offset_separator &gt; tok(s,f);
  boost::tokenizer&lt; boost::offset_separator &gt;::iterator beg;
  for( beg = tok.begin(); beg != tok.end();   beg )
    cout &lt;&lt; *beg &lt;&lt; &quot;\n&quot;;
 
  return 0;
}

而這樣執行的結果，就是會把這個字串切割成 2-2-4 的形式，也就是：

12
25
2001

這樣的功能在 Heresy 來看，主要應該是針對固定格式的資料（例如電話號碼、日期）來做處理了∼

另外，offset_separator 建構子實際上是要四個參數的，除了要把 offset 的開始和結束位置傳進去外，也可以再透過之後的兩個 bool 變數來做一些細部的調整：

offset_separator( Iter begin, Iter end,

                  bool wrap_offsets = true,
&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; bool return_partial_last = true)

其中第一個 wrap_offsets 是指定如果當字串按照指定的數值分割完後如果還有剩的話，是否要繼續重新切割；如果是 false 的話，就會停下來不繼續分割。而第二個 return_partial_last 則是指定位數不夠的時候，是否要傳回來。這部分比較單純，有興趣的話可以自己玩看看。

關於 Boost 的 Tokenizer 大概就先寫到這了。之後如果還有時間和力氣的話，應該會寫一下怎樣把 Tokenizer 應用在其他型別的資料上，以及如何自己寫一個 TokenizerFunc。不過，都之後再說吧∼

Boost 的 STL Container 切割工具（中）：Tokenizer

Tokenizer 基本介紹

Tokenizer 的簡單範例

char_separator 的細節

escaped_list_separator 的細節

offset_separator 的細節

Leave a Reply 取消回覆

Related Posts

C++11 Thread 的 condition variable

GitLab 切換到 https 的紀錄

大陸版 CUDA ZONE