在這個練習(xí)中,你會在難度上做一個大的跳躍,并且創(chuàng)建出用于管理數(shù)據(jù)庫的完整的小型系統(tǒng)。這個數(shù)據(jù)庫并不實用也存儲不了太多東西,然而它展示了大多數(shù)到目前為止你學(xué)到的東西。它也以更加正規(guī)的方法介紹了內(nèi)存分配,以及帶領(lǐng)你熟悉文件處理。我們實用了一些文件IO函數(shù),但是我并不想過多解釋它們,你可以先試著自己理解。
像通常一樣,輸入下面整個程序,并且使之正常工作,之后我們會進行討論:
#include <stdio.h>
#include <assert.h>
#include <stdlib.h>
#include <errno.h>
#include <string.h>
#define MAX_DATA 512
#define MAX_ROWS 100
struct Address {
int id;
int set;
char name[MAX_DATA];
char email[MAX_DATA];
};
struct Database {
struct Address rows[MAX_ROWS];
};
struct Connection {
FILE *file;
struct Database *db;
};
void die(const char *message)
{
if(errno) {
perror(message);
} else {
printf("ERROR: %s\n", message);
}
exit(1);
}
void Address_print(struct Address *addr)
{
printf("%d %s %s\n",
addr->id, addr->name, addr->email);
}
void Database_load(struct Connection *conn)
{
int rc = fread(conn->db, sizeof(struct Database), 1, conn->file);
if(rc != 1) die("Failed to load database.");
}
struct Connection *Database_open(const char *filename, char mode)
{
struct Connection *conn = malloc(sizeof(struct Connection));
if(!conn) die("Memory error");
conn->db = malloc(sizeof(struct Database));
if(!conn->db) die("Memory error");
if(mode == 'c') {
conn->file = fopen(filename, "w");
} else {
conn->file = fopen(filename, "r+");
if(conn->file) {
Database_load(conn);
}
}
if(!conn->file) die("Failed to open the file");
return conn;
}
void Database_close(struct Connection *conn)
{
if(conn) {
if(conn->file) fclose(conn->file);
if(conn->db) free(conn->db);
free(conn);
}
}
void Database_write(struct Connection *conn)
{
rewind(conn->file);
int rc = fwrite(conn->db, sizeof(struct Database), 1, conn->file);
if(rc != 1) die("Failed to write database.");
rc = fflush(conn->file);
if(rc == -1) die("Cannot flush database.");
}
void Database_create(struct Connection *conn)
{
int i = 0;
for(i = 0; i < MAX_ROWS; i++) {
// make a prototype to initialize it
struct Address addr = {.id = i, .set = 0};
// then just assign it
conn->db->rows[i] = addr;
}
}
void Database_set(struct Connection *conn, int id, const char *name, const char *email)
{
struct Address *addr = &conn->db->rows[id];
if(addr->set) die("Already set, delete it first");
addr->set = 1;
// WARNING: bug, read the "How To Break It" and fix this
char *res = strncpy(addr->name, name, MAX_DATA);
// demonstrate the strncpy bug
if(!res) die("Name copy failed");
res = strncpy(addr->email, email, MAX_DATA);
if(!res) die("Email copy failed");
}
void Database_get(struct Connection *conn, int id)
{
struct Address *addr = &conn->db->rows[id];
if(addr->set) {
Address_print(addr);
} else {
die("ID is not set");
}
}
void Database_delete(struct Connection *conn, int id)
{
struct Address addr = {.id = id, .set = 0};
conn->db->rows[id] = addr;
}
void Database_list(struct Connection *conn)
{
int i = 0;
struct Database *db = conn->db;
for(i = 0; i < MAX_ROWS; i++) {
struct Address *cur = &db->rows[i];
if(cur->set) {
Address_print(cur);
}
}
}
int main(int argc, char *argv[])
{
if(argc < 3) die("USAGE: ex17 <dbfile> <action> [action params]");
char *filename = argv[1];
char action = argv[2][0];
struct Connection *conn = Database_open(filename, action);
int id = 0;
if(argc > 3) id = atoi(argv[3]);
if(id >= MAX_ROWS) die("There's not that many records.");
switch(action) {
case 'c':
Database_create(conn);
Database_write(conn);
break;
case 'g':
if(argc != 4) die("Need an id to get");
Database_get(conn, id);
break;
case 's':
if(argc != 6) die("Need id, name, email to set");
Database_set(conn, id, argv[4], argv[5]);
Database_write(conn);
break;
case 'd':
if(argc != 4) die("Need id to delete");
Database_delete(conn, id);
Database_write(conn);
break;
case 'l':
Database_list(conn);
break;
default:
die("Invalid action, only: c=create, g=get, s=set, d=del, l=list");
}
Database_close(conn);
return 0;
}
在這個程序中我使用了一系列的結(jié)構(gòu)來創(chuàng)建用于地址薄的小型數(shù)據(jù)庫。其中,我是用了一些你從來沒見過的東西,所以你應(yīng)該逐行瀏覽這段代碼,解釋每一行做了什么,并且查詢你不認識的任何函數(shù)。下面是你需要注意的幾個關(guān)鍵部分:
#define 常量
我使用了“C預(yù)處理器”的另外一部分,來創(chuàng)建MAX_DATA和MAX_ROWS的設(shè)置常量。我之后會更多地講解預(yù)處理器的功能,不過這是一個創(chuàng)建可靠的常量的簡易方法。除此之外還有另一種方法,但是在特定場景下并不適用。
定長結(jié)構(gòu)體
Address結(jié)構(gòu)體接著使用這些常量來創(chuàng)建數(shù)據(jù),這些數(shù)據(jù)是定長的,它們并不高效,但是便于存儲和讀取。Database結(jié)構(gòu)體也是定長的,因為它有一個定長的Address結(jié)構(gòu)體數(shù)組。這樣你就可以稍后把整個數(shù)據(jù)一步寫到磁盤。
出現(xiàn)錯誤時終止的die函數(shù)
在像這樣的小型程序中,你可以編寫一個單個函數(shù)在出現(xiàn)錯誤時殺掉程序。我把它叫做die。而且在任何失敗的函數(shù)調(diào)用,或錯誤輸出之后,它會調(diào)用exit帶著錯誤退出程序。
用于錯誤報告的 errno和perror
當(dāng)函數(shù)返回了一個錯誤時,它通常設(shè)置一個叫做errno的“外部”變量,來描述發(fā)生了什么錯誤。它們知識數(shù)字,所以你可以使用peeror來“打印出錯誤信息”。
文件函數(shù)
我使用了一些新的函數(shù),比如fopen,fread,fclose,和rewind來處理文件。這些函數(shù)中每個都作用于FILE結(jié)構(gòu)體上,就像你的結(jié)構(gòu)體似的,但是它由C標(biāo)準(zhǔn)庫定義。
嵌套結(jié)構(gòu)體指針
你應(yīng)該學(xué)習(xí)這里的嵌套結(jié)構(gòu)器和獲取數(shù)組元素地址的用法,它讀作“讀取db中的conn中的rows的第i個元素,并返回地址(&)”。
譯者注:這里有個更簡便的寫法是
db->conn->row + i。
結(jié)構(gòu)體原型的復(fù)制
它在Database_delete中體現(xiàn)得最清楚,你可以看到我是用了臨時的局部Address變量,初始化了它的id和set字段,接著通過把它賦值給rows數(shù)組中的元素,簡單地復(fù)制到數(shù)組中。這個小技巧確保了所有除了set和id的字段都初始化為0,而且很容易編寫。順便說一句,你不應(yīng)該在這種數(shù)組復(fù)制操作中使用memcpy?,F(xiàn)代C語言中你可以只是將一個賦值給另一個,它會自動幫你處理復(fù)制。
處理復(fù)雜參數(shù)
我執(zhí)行了一些更復(fù)雜的參數(shù)解析,但是這不是處理它們的最好方法。在這本書的后面我們將會了解一些用于解析的更好方法。
將字符串轉(zhuǎn)換為整數(shù)
我使用了atoi函數(shù)在命令行中接受作為id的字符串并把它轉(zhuǎn)換為int id變量。去查詢這個函數(shù)以及相似的函數(shù)。
在堆上分配大塊數(shù)據(jù)
這個程序的要點就是在我創(chuàng)建Database的時候,我使用了malloc來向OS請求一塊大容量的內(nèi)存。稍后我會講得更細致一些。
NULL就是0,所以可轉(zhuǎn)成布爾值
在許多檢查中,我簡單地通過if(!ptr) die("fail!")檢測了一個指針是不是NULL。這是有效的,因為NULL會被計算成假。在一些少見的系統(tǒng)中,NULL會儲存在計算機中,并且表示為一些不是0的東西。但在C標(biāo)準(zhǔn)中,你可以把它當(dāng)成0來編寫代碼。到目前為止,當(dāng)我說“NULL就是0”的時候,我都是對一些迂腐的人說的。
你應(yīng)該為此花費大量時間,知道你可以測試它能正常工作了。并且你應(yīng)當(dāng)用Valgrind來確保你在所有地方都正確使用內(nèi)存。下面是我的測試記錄,并且隨后使用了Valgrind來檢查操作:
$ make ex17
cc -Wall -g ex17.c -o ex17
$ ./ex17 db.dat c
$ ./ex17 db.dat s 1 zed zed@zedshaw.com
$ ./ex17 db.dat s 2 frank frank@zedshaw.com
$ ./ex17 db.dat s 3 joe joe@zedshaw.com
$
$ ./ex17 db.dat l
1 zed zed@zedshaw.com
2 frank frank@zedshaw.com
3 joe joe@zedshaw.com
$ ./ex17 db.dat d 3
$ ./ex17 db.dat l
1 zed zed@zedshaw.com
2 frank frank@zedshaw.com
$ ./ex17 db.dat g 2
2 frank frank@zedshaw.com
$
$ valgrind --leak-check=yes ./ex17 db.dat g 2
# cut valgrind output...
$
Valgrind實際的輸出沒有顯式,因為你應(yīng)該能夠發(fā)現(xiàn)它。
注
Vagrind可以報告出你泄露的小塊內(nèi)存,但是它有時會過度報告OSX內(nèi)部的API。如果你發(fā)現(xiàn)它顯示了不屬于你代碼中的泄露,可以忽略它們。
對于現(xiàn)在你們這些年輕人來說,編程簡直太容易了。如果你玩玩Ruby或者Python的話,只要創(chuàng)建對象或變量就好了,不用管它們存放在哪里。你并不關(guān)心它們是否存放在棧上或堆上。你的編程語言甚至完全不會把變量放在棧上,它們都在堆上,并且你也不知道是否是這樣。
然而C完全不一樣,因為它使用了CPU真實的機制來完成工作,這涉及到RAM中的一塊叫做棧的區(qū)域,以及另外一塊叫做堆的區(qū)域。它們的差異取決于取得儲存空間的位置。
堆更容易解釋,因為它就是你電腦中的剩余內(nèi)存,你可以通過malloc訪問它來獲取更多內(nèi)存,OS會使用內(nèi)部函數(shù)為你注冊一塊內(nèi)存區(qū)域,并且返回指向它的指針。當(dāng)你使用完這片區(qū)域時,你應(yīng)該使用free把它交還給OS,使之能被其它程序復(fù)用。如果你不這樣做就會導(dǎo)致程序“泄露”內(nèi)存,但是Valgrind會幫你監(jiān)測這些內(nèi)存泄露。
棧是一個特殊的內(nèi)存區(qū)域,它儲存了每個函數(shù)的創(chuàng)建的臨時變量,它們對于該函數(shù)為局部變量。它的工作機制是,函數(shù)的每個函數(shù)都會“壓入”棧中,并且可在函數(shù)內(nèi)部使用。它是一個真正的棧數(shù)據(jù)結(jié)構(gòu),所以是后進先出的。這對于main中所有類似char section和int id的局部變量也是相同的。使用棧的優(yōu)點是,當(dāng)函數(shù)退出時C編譯器會從棧中“彈出”所有變量來清理。這非常簡單,也防止了棧上變量的內(nèi)存泄露。
理清內(nèi)存的最簡單的方式是遵守這條原則:如果你的變量并不是從malloc中獲取的,也不是從一個從malloc獲取的函數(shù)中獲取的,那么它在棧上。
下面是三個值得關(guān)注的關(guān)于棧和堆的主要問題:
malloc獲取了一塊內(nèi)存,并且把指針放在了棧上,那么當(dāng)函數(shù)退出時,指針會被彈出而丟失。malloc放在堆上。這就是我在程序中使用Database_open來分配內(nèi)存或退出的原因,相應(yīng)的Database_close用于釋放內(nèi)存。如果你創(chuàng)建了一個“創(chuàng)建”函數(shù),它創(chuàng)建了一些東西,那么一個“銷毀”函數(shù)可以安全地清理這些東西。這樣會更容易理清內(nèi)存。
最后,當(dāng)一個程序退出時,OS會為你清理所有的資源,但是有時不會立即執(zhí)行。一個慣用法(也是本次練習(xí)中用到的)是立即終止并且讓OS清理錯誤。
這個程序有很多可以使之崩潰的地方,嘗試下面這些東西,同時也想出自己的辦法。
strncpy有設(shè)計缺陷。查詢strncpy的相關(guān)資料,然后試著弄清楚如果name或者address超過512個字節(jié)會發(fā)生什么??梢酝ㄟ^簡單把最后一個字符設(shè)置成'\0'來修復(fù)它,你應(yīng)該無論如何都這樣做(這也是函數(shù)原本應(yīng)該做的)。malloc的內(nèi)存不足之前,嘗試找出最大的數(shù)據(jù)庫尺寸是多少。die函數(shù)需要接收conn變量作為參數(shù),以便執(zhí)行清理并關(guān)閉它。MAX_DATA和MAX_ROWS,將它們儲存在Database結(jié)構(gòu)體中,并且將它們寫到文件。這樣就可以創(chuàng)建任意大小的數(shù)據(jù)庫。find。Address添加一些字段,使它們可被搜索。bash頂端使用使用set -e,使之在任何命令發(fā)生錯誤時退出。
譯者注:使用Python編寫多行腳本或許更方便一些。