C++ 安全地比較 signed 和 unsigned

在強型別的 C++ 裡面，針對整數型別大多都有提供「有號」（signed、允許負數）和「無號」（unsigned、只有 0 和正數）兩種；像是以一般的整數來說，就有 int 和 unsigned int 兩種，可以根據自己的需求來選擇要用哪種。

但是有的時候，我們難免會有需要要把資料在這兩種不同的中做轉換、或是拿來比較；而這個時候，其實是有相當的風險的…

像是以比較來說，可以來看下面這段程式碼：

#include <iostream>
 
int main()
{
  long           a = -100;
  unsigned short b = 100;
  size_t         c = 100;
 
  std::cout << (a < b);   // 1
  std::cout << (a < c);   // 2
}

理論上下面兩行都是在確認「-100 < 100」是否是正確的，理論上輸出的結果應該是要是「11」；但是實際上，輸出的結果會是「10」，也就是系統覺得「a < c」是錯的。

實際上，如果用 C++ Insights（網站）來看的話，最後那兩行會被轉換成：

std::cout.operator<<((a < static_cast<long>(b)));
std::cout.operator<<((static_cast<unsigned long>(a) < c));

也就是說，在比較「a < b」的時候，他是會把 b 轉換成 long 來和 a 做比較，所以結果是正確的。

但是在執行「a < c」的時候，他則是把 a 轉換成 unsigned long 來和 c 做比較！這時候由於是把 -100 轉換成正數，所以就出問題了！

實際上，C+ Reference 也有針對這種情況的轉換邏輯做說明（網頁），在進行整數的二元算術計算的時候：

如果兩個都是有號、或是兩個都是無號的狀況，會將級別（rank）較低的型別轉換成級別較高的型別
如果無號的型別級別較高、或等於有號的級別，那會將有號的型別轉換成無號的型別
如果有號的型別級別較高、或等於無號的級別，那會將無號的型別轉換成有號的型別
否則將兩者都轉換到有號型別對應的無號版本
（老實說，這個看不太懂，也不知道什麼時候會走到這）

而他的轉換級別（conversion rank）則是：bool、signed char、short、int、long、long long。

所以基本上，問題就是「如果拿比較小的有號型別去和比較大的無號型別做算術計算的時候，有號的型別會被轉換成無號的」；而如果此時他是負數的話，那就會出問題了。

而如果是想要安全地在 signed 和 unsigned 兩者間比較，該怎麼辦呢？雖然個人覺得不算直覺，但是 C++20 在 <utility> 中，其實提供了一系列的 cmp_xxx() 的函式（參考）可以使用，這部分可以使用。包含了：

cmp_equal
cmp_not_equal
cmp_less
cmp_greater
cmp_less_equal
cmp_greater_equal

這些函式在比較的時候，會確保負值的有號整數會小於無號整數、以避免錯誤；同時也會避免損失資料的轉換。

以前面所舉的例子來說，把「a < c」改成 std::cmp_less(a, c) 就會得到正確的結果了！

而如果是想要手動轉換的話，<utility> 也有提供 in_range<>() 這個函式（文件），可以讓開發者在轉換前，先檢查是否適合這樣轉換。

下面就是一個簡單的例子：

#include <utility>
#include <iostream>
 
int main()
{
  std::cout << std::boolalpha;
 
  std::cout << std::in_range<std::size_t>(-1) << '\n';
  std::cout << std::in_range<std::size_t>(42) << '\n';
}

在上面的程式中，由於 -1 不在 size_t 的數值範圍內，所以他會回傳 false；所以有必要的話，其實可以在實際轉換前，先用這個方法來做測試，避免轉換的結果和預期不同。

另外，其實一個滿常見、會碰到 signed 和 unsigned 的比較的狀況，是在和容器的大小做比較的狀況。

所以，標準函式庫現在也另外提供了一個 ssize() 的函式，可以用有號整數的形式、回傳容器的大小（參考）；不過他回傳的型別是個 Heresy 不太熟的 std::ptrdiff_t（參考）。

這邊是一個例子：

#include <iostream>
#include <vector>

int main()
{
  std::vector<int> v = { 1,2,3,4,5 };

  for (auto i = v.size() - 1; i >= 0; --i)
    std::cout << i << ": " << v[i] << '\n';
}

上面的程式碼理想上是要把 v 裡面的資料反過來輸出；但是由於 i 的型別會被判斷成是無號的 size_t，所以當他是 0 的時候再減下去就會變成一個很大的整數；這也導致了該迴圈的中斷條件永遠不會達成，同時也會造成對 v 的違法存取。

當然這邊有很多種修改方法，但是如果要在變動最小的狀況下修改的話，那應該就是改成透過 ssize() 來取大小了。這邊就是修改成：

for (auto i = std::ssize(v) - 1; i >= 0; --i)
  std::cout << i << ": " << v[i] << '\n';

不過認真講，個人覺得用到的機會感覺不大就是了？

或許為了讓 Visual Studio 內建的古老版本 OpenMP 可以在針對 for 迴圈平行化的時候，不要跳出有號和無號整數比較的時候，可能有點幫助吧？

參考：

C++ 安全地比較 signed 和 unsigned

Leave a Reply 取消回覆

Related Posts

使用 OpenCV 實作 AR－概念

OpenNI + OpenCV

微軟大消息！免費的全功能版 Visual Studio Community 2013、以及 Visual Studi 2015 預覽版發布！