字節那些事兒

時間：2021-12-21 22:22:07

1、前言

作為一名 C/C++ 程序員，字節是我們天天都要與之打交道的一個東西。我們和它熟稔到幾乎已經忘記了它的存在。可是，它自己是不甘寂寞的，或遲或早地，總會在某些時候探出頭來張望，然后給你一個腿兒絆。其實，只要你真正了解了它的底細，你就會暢行無阻。在本文中，我們將首先簡要了解一下字節的概念，然后著重了解一下字節序問題和字節對齊問題。

注：筆者已經盡最大努力保證本文信息的正確性，但確實無法提供百分之百的擔保。

2、什么是字節

我們知道，二進制計算機(也就是我們目前接觸到的幾乎所有的計算機)的最小數據單位是位( bit )。一位數據只能夠表示兩種含義(需要說明，盡管我們通常把單個位表示的兩種含義選擇為相互對立的含義，但這并不是必然的，例如你可以認為 1 代表 5 個人， 0 代表 8 個人)，對于絕大多數的計算要求，單個位顯然不能滿足。因此，我們通常都會使用一連串的位，我們可以稱之為位串( bit string ，請愛好質疑的的朋友注意，此術語非我杜撰)。由于種種原因，計算機系統都不會讓你使用任意長度的位串，而是使用某個特定長度的位串。一些常見的位串長度形式具有約定好的名稱，如，半字節( nibble ，貌似用的不多)代表四個位的組合，字節( byte ，主角出場!)代表 8 個位的組合。再多的還有，字( word )、雙字( Double word ，通常簡寫為 Dword )、四字(Quad word ，經常簡寫為 Qword )、十字節( Ten byte ，也簡寫為 Tbyte )。

在這些里面，字( word )有時表示不同的含義。在 Intel 體系里， word 表示一個 16 位的數值，它是固定大小的。而在另外一些場合， word 表示了 CPU 一次可處理的數據的位數，表示一個符合 CPU 字長( word-length )的數目的位串。事實上我們接觸較多的 ARM 體系中， word 就有不同的含義，它表示一個 32 位的數據(與機器字長相同)，對于 16 位大小的數據， ARM 使用了另外的一個術語，叫作半字( half-word )，請大家在文檔閱讀時加以注意。另外， Qword 也是 Intel 體系中的術語，其他的體系中可能并不使用。在本文中，我們按照 Intel 的慣例來使用字或者 word 這一術語。

一個字節中共有 8 個數據位，有時需要用圖表逐位表述各個位。習慣上，我們按照下面的圖來排列各個位的順序，即，按照從右到左的順序，依次為最低位(從第 0 位開始)到最高位(對于字節，則是第 7 位)：

字節是大多數現代計算機的最小存儲單元，但這并不代表它是計算機可以最高效地處理的數據單位。一般的來說，計算機可以最高效地處理的數據大小，應該與其字長相同。在目前來講，桌面平臺的處理器字長正處于從 32位向 64 位過渡的時期，嵌入式設備的基本穩定在 32 位，而在某些專業領域(如高端顯卡)，處理器字長早已經達到了 64 位乃至更多的 128 位。

3、字節序問題的由來

對于字、雙字這些多于一個字節的數據，如果把它們放置到內存中的某個位置上，可以看出，我們還可以將之看作是字節的序列。一個字是兩個字節，雙字則是四個字節。假設有以下數據： 0x12345678 、 0x9abcdef0 。在此處，我使用了我們最習慣的十六進制表示法，并給出了兩個雙字的值。按照慣例，我把雙字的左側視為高端，而把右側視為低端。把它們順序放置在起始地址為 0 的內存中，如下圖所示：

由圖示可知， 0x9abcdef 的相應地址為 0x04 。現在，問題來了，如果有一個內存操作，要從地址 0x06 處讀取一個字，得到的結果是多少呢?答案是：不一定。

這里的本質問題在于，如何把多字節的對象存儲到內存中去呢?即使使用最正常的思維去考慮這個問題，你也會發現有兩種方法。第一種方法是，把最低端的字節放到指定的起始位置(即基地址處)，然后按照從低到高的字節順序把其余字節依次放入，如下圖 a ;另一種方法非常類似，但是對高端字節和低端字節的處理順序正好相反，如下圖 b (我確信你還可以想出其他的方法，但是除二字節的情況外，必然會打破字節排列順序的一致性，我視之為反常規思維的產物，此處暫不考慮)。

圖 a

圖 b

在很久之前，哪一種存儲方式更為合理曾經有過爭論。到今天，爭論的結果已經無關緊要了，緊要的是以下事實：這兩種存儲方式都被應用到了現實的計算機系統中。上圖 a 中的排列方式為 Intel 所采用并大行其道，而圖 b的排列方式則被大多數的其他平臺采用(如最近被蘋果公司徹底拋棄的 PowerPC )，因此上，我們不能稱之為罕見的用法。之所以造成事實上的不經常見到，其原因正如我今天中午所得到的消息： Intel 的 CPU 占整個市場份額的 80% 以上。

這兩種排列方式通常用小端( little endian )和大端( big endian )來稱謂。這兩個奇怪的名字據說來源于童話《格列佛游記》，其中小人國里的公民為了雞蛋到底是應該從小的一頭打開還是大的一頭打開而大起爭執。 Intel的方式對應于“小端”，順便說一句，大端的方式也有一個大公司的名字作為其代表，即最近開始沒落的 Motorola。如果有誰了解過 TIFF 圖像文件格式，就會發現其文件頭中用以標識文件數據字節序的標志就是“ II ”和“ MM”，分別對應于 Intel 和 Motorola 的首字母。值得提醒一下，小端方式的排列與位的排列順序相一致，看上去似乎更協調一些。

現在我們可以回答上面的問題了。對于小端字節序，我們取到的字，其值為 0x9abc ，而如果是大端字節序的話，就會取到 0xdef0 。

4、何時會出現字節序問題

字節序問題主要出現在數據在不同平臺之間進行交換時，交換的途徑可能是網絡傳輸，也可能是文件復制。例如，如果你設計了一種可能會應用于不同平臺的文件格式，其中存儲了某些數據結構，則對于大小大于一個字節的數據就要明確地規定其遵循的字節序，以便各平臺上的處理程序可以在使用數據時實現做必要的轉換。

舉一個實際的例子。 Java 是一個跨平臺的編程語言，其可執行文件(擴展名為 .class ，使用的是一種機器無關的字節碼指令集)在理論上可以運行于所有的實現了 Java 運行時的平臺(包含有與特定平臺相關特性的除外)。編譯后的 .class 中一定保存有諸如 Integer 這樣類型的數據，這就涉及到了字節序的確定，否則 .class 必然不能被采用了不同字節序的平臺同時正確加載并運行。事實上， Java 語言采用的為大端字節序，這個一點都不奇怪，因為當初 SUN 公司自己的 SPARC 架構就是采用的大端字節序。同樣的問題和解決問題的方式，也存在于操作系統新貴 android 系統上。

網絡傳輸則是另一個典型場景。 TCP/IP 所采用的網絡傳輸字節序標準也是大端字節序，這個也不必奇怪，因為 TCP/IP 是從 UNIX 系統發展起來的，而絕大部分的 UNIX 系統在很長的一段時間內都沒有運行于 Intel 體系架構上的版本。

處理字節序問題的手段非常簡單，也就是對數據進行必要的轉換：將十六進制的數字從兩端開始交換，直至移動到數據的中心，交換完成為止。交換的結果就好像物體與鏡面之內的成像互換了位置，因此也被稱為鏡像交換(mirror-image swap )。請參看下圖：

5、如何在程序中判斷字節序

在實際的工作中，有時需要對字節序進行判斷，然后予以不同的處理。一般的來說，編譯后的程序通常只能運行在特定的平臺之上，其所采用的字節序方式在編譯時即可確定，在這種情況下，程序源代碼中通常是把字節序的判別作為條件編譯的判斷語句，而不會判斷代碼放在真正的可執行代碼中。

在這里，需要使用我們的老朋友 —— 宏。以下是一個真實的跨平臺工程中代碼，清晰起見，我稍做了修改：

#define SGE_LITTLE_ENDIAN 1234

#define SGE_BIG_ENDIAN 4321

#ifndef SGE_BYTEORDER

#if defined(__hppa__) || /

defined(__m68k__) || defined(mc68000) || defined(_M_M68K) || /

(defined(__MIPS__) && defined(__MISPEB__)) || /

defined(__ppc__) || defined(__POWERPC__) || defined(_M_PPC) || /

defined(__sparc__)

#define SGE_BYTEORDER SGE_BIG_ENDIAN

#else

#define SGE_BYTEORDER SGE_LITTLE_ENDIAN

#endif

以上為根據平臺的預定義宏所作的前期工作，將之存入一個頭文件中，然后包含到源代碼文件中使用。

在需要進行判斷的時候，則像以下代碼這樣使用：

#if SGE_BYTEORDER == SGE_BIG_ENDIAN

#define SwapWordLe(w) SwapWord(w)

#else

#define SwapWordLe(w) (w)

#endif

由于這兩個宏實際上被定義成了常量數值，因此也可以被用到可執行代碼中，進行執行期的動態判斷：

if(SGE_BYTEORDER == SGE_BIG_ENDIAN)

return r << 16 | g << 8 | b;

else

return r | g << 8 | b << 16;

追根尋源，上面的這種判斷需要依賴編譯器及其所在平臺的預定義宏。下面介紹一種執行期動態判斷的方法，則不需要有宏的參與，而是巧妙地利用了字節序的本質。代碼如下：

int IsLittleEndian()

{

const static union

{

unsigned int i;

unsigned char c[4];

} u = { 0x00000001 };

return u.c[0];

}

動手畫一下內存布局即可了解其原理。還有更簡練的寫法，作為練習，請大家自行去尋找。

在結束對字節序的討論之前，特別提醒一下， ARM 體系的 CPU 在字節序上與 Intel 的體系結構是一致的。

6、字節對齊問題的產生

馮諾依曼體系的計算機，通過地址總線來尋址內存(假設 n 為地址總線的位數，則最多可以尋址 2n 個內存位置)。根據地址總線的位數，我們可以知道 CPU 與內存的一次交互(也即一次內存訪問)能夠讀寫的數據的大小。顯然地，對于 8 位的 CPU ，是一個字節，對于 16 位 CPU 則是一個字， 32 位 CPU 則是一個雙字，依此類推。這是 CPU 與生俱來的最本質、最快捷的訪問方式。在實際的計算需求中，如果訪問的數據量超過了一次訪問的限度，則很顯然需要進行多次訪問，如果是少于的話，則需要對從內存中取回的數據進行適當的裁剪。裁剪操作有可能是CPU 自身支持的，也有可能是需要用軟件來實現的。

有的系統是支持尋址到單個字節所在的位置的(稱為可字節尋址)，而有的則不可以，只能尋址到符合某些條件的地址上。對于 Intel/ARM 體系結構的 CPU ，我們在宏觀上可以認為它們都支持字節尋址(但是 ARM 家族的CPU 在內存訪問時有其他約束，下文有詳細敘述)。

出現這樣的限制是有原因的，終極因素就在于內存訪問的粒度與字長的關聯上。用 32 位 CPU 來說，它對于地址為 4 的倍數處的內存訪問是最自然的，其余的地址就要做一些額外的工作。例如，我們要訪問地址為 0x03 處的一個雙字，對于 80x86 體系，事實上將會導致 CPU 的兩次內存訪問，取回 0x00 以及 0x04 處的兩個雙字，分別進行適當的截取之后再拼裝為一個雙字返回。對于其他的體系，設計者可能認為 CPU 不應該承擔數據拼裝的工作，因而就選擇產生一個硬件異常。

在硬件和 / 或操作系統的約束下，進行數據訪問時對數據所在的起始位置以及數據的大小都需要遵循一定的規則，與這些規則相關的問題，都可以稱之為字節對齊問題。

舉例來說。在 HP-UX (惠普公司的一個服務器產品平臺， UNIX 的一種)平臺中，系統嚴禁對奇地址直接進行訪問，假設你視這一原則于不顧：

int i = 0; // 編譯器保證 i 的起始地址不是奇地址

char c = *((char*)&i + 1); // 強制在奇地址處訪問

其執行結果就是內核轉儲( core dump )，為應用程序最嚴重的錯誤。(特別注明：此處代碼為記憶中的情形，目前筆者已經沒有驗證環境了)

在不同的硬件體系架構下，字節對齊關系到三方面的問題，一是數據訪問的可行性問題，二是數據訪問的效率問題，三是數據訪問的正確性問題。

字節對齊問題給程序員在編碼時帶來了額外的注意點，并且對最終程序執行的正確性也帶來了一定的不確定因素。相同的代碼在不同的平臺上，甚至在相同的平臺上采用不同的編譯選項，都可能有不同的執行結果。

如果所有的系統都和 HP-UX 的表現一樣的話，事情要簡單一些，問題通常會在比較早的時間內就可以暴露出來。遺憾的是，我們目前所面對的平臺不是這樣，這些平臺的設計者為最大程度地減少對開發人員的干擾而作了辛苦的努力，使得我們在很多時候都感覺不到字節對齊問題的存在。但另一方面，也制造出了把問題隱藏得更深的機會。

效果最好的努力是 Intel 的體系架構。 80x86 允許你對整個內存進行字節尋址，在不超過機器字長的情況下可以訪問任意數目的字節(很顯然，大多數情況下就是 1 字節、 2 字節、 3 字節、 4 字節這四種情況)。

ARM 體系的 CPU 似乎做了一定的努力，但是其結果和其他體系相比呈現一種很奇怪的狀態。由于筆者沒有對ARM 整個系列的 CPU 進行過完整的了解，因此此處的論述可能并不完整。 ARM CPU 允許對內存進行字節尋址，但在訪問時有額外的要求。即：如果你要訪問一個字(注意本文慣例，此處的字是兩字節大小，與 ARM 平臺的標準術語不同)，那么起始地址必須在一個字的邊界上，如果訪問一個雙字，則起始地址必須位于一個雙字的邊界上(其余數據類型請參考 ARM 的知識庫文檔)。這意味著，你不能在 0x03 這樣的地址處訪問一個字或者一個雙字。但是，令人痛苦的事情到來了，如果你非要這么訪問，大多數的 CPU 不會有顯式的異常，而是返回錯誤的數據，其余的一些 CPU 則會造成程序崩潰。

關鍵詞：字節 ARM

延伸閱讀:

iPhone14Pro 4800萬像素實碾壓1英寸傳感器的相機對比 2022-09-16
Wi-Fi及5G三網合一算上雙頻段Wi-Fi實際上就是4個網絡合一 2022-09-16
5G才剛剛開始沒多久 6G都要來了你期待嗎？ 2022-08-16
中興推出5G智能安全帽：支持AI智能語音控制多項報警功能 2022-08-11
美歐日韓“抱團”已悄然開啟中國能不能在6G時代保持優勢？ 2022-08-09
2021年我國建成142.5萬個5G基站總量占全球60%以上 2022-07-25
工業互聯網產業規模超萬億家電企業走在前列 2022-07-22
“5G+”未來的風口在哪? 發展方向是什么？ 2022-07-20

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

墅智人生·理享生活 | COLMO攜EVOLUTI...
學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文

欧美日韩在线成人免费-欧美日韩在线成人看片a-欧美日韩在线不卡-欧美日韩在线播放-自拍偷拍三级-自拍偷拍欧美亚洲

科技

熱文