在替换so文件时,如果在不停程序的情况下,直接用 cp new.so old.so 的方式替换程序使用的动态库文件会导致正在运行中的程序崩溃。解决的办法是采用“rm+cp” 或“mv+cp” 来替代直接“cp” 的操作方法。linux系统的动态库有两种使用方法:运行时动态链接库,动态加载库并在程序控制之下使用。
1、为什么在不停程序的情况下,直接用 cp 命令替换程序使用的 so 文件,会使程序崩溃?
很多同学在工作中遇到过这样一个问题,在替换 so 文件时,如果在不停程序的情况下,直接用cp new.so old.so的方式替换程序使用的动态库文件会导致正在运行中的程序崩溃,退出。这与 cp 命令的实现有关,cp 并不改变目标文件的 inode,cp 的目标文件会继承被覆盖文件的属性而非源文件。实际上它是这样实现的:
strace cp libnew.so libold.so 2>&1 |grep open.*lib.*.so
open("libnew.so", O_RDONLY|O_LARGEFILE) = 3
open("libold.so", O_WRONLY|O_TRUNC|O_LARGEFILE) = 4
在 cp 使用“O_WRONLY|O_TRUNC” 打开目标文件时,原 so 文件的镜像被意外的破坏了。这样动态链接器 ld.so 不能访问到 so 文件中的函数入口。从而导致 Segmentation fault,程序崩溃。ld.so 加载 so 文件及“再定位”的机制比较复杂,详情可参见参考文献2。
2、怎样在不停止程序的情况下替换so文件,并且保证程序不会崩溃?
答案是采用“rm+cp” 或“mv+cp” 来替代直接“cp” 的操作方法。
在用新的so文件 libnew.so 替换旧的so文件 libold.so 时,如果采用如下方法:
rm libold.so
cp libnew.so libold.so
采用这种方法,目标文件 libold.so 的 inode 其实已经改变了,原来的 libold.so 文件虽然不能用 ”ls”查看到,但其 inode 并没有被真正删除,直到内核释放对它的引用。同理,mv只是改变了文件名,其 inode 不变,新文件使用了新的 inode。这样动态链接器 ld.so 仍然使用原来文件的 inode 访问旧的 so 文件。因而程序依然能正常运行。
到这里,我们回想在上线操作中在替换可执行程序时,为什么直接使用“cp new old”这样的命令时,系统会禁止这样的操作,并且给出这样的提示“cp: cannot create regular file `old': Text file busy”。这时,我们采用的办法仍然是用“rm+cp”或者“mv+cp”来替代直接“cp”,这跟以上提到的so文件的替换有同样的道理。
但是,为什么系统会阻止 cp 覆盖可执行程序,而不阻止覆盖 so 文件呢?这是因为 Linux 有个 Demand Paging 机制,所谓“Demand Paging”,简单的说,就是系统为了节约物理内存开销,并不会程序运行时就将所有页(page)都加载到内存中,而只有在系统有访问需求时才将其加载。
“Demand Paging”要求正在运行中的程序镜像(注意,并非文件本身)不被意外修改,因此内核在启动程序后会锁定这个程序镜像的 inode。对于 so 文件,它是靠 ld.so 加载的,而ld.so毕竟也是用户态程序,没有权利去锁定inode,也不应与内核的文件系统底层实现耦合。
3、linux动态库的使用方法
Linux 支持两种类型的库静态库和动态库。 静态库包含在编译时静态绑定到一个程序的函数。我们这里关心的是动态库。动态库是在加载应用程序时被加载的,而且它与应用程序是在运行时绑定的。
程序使用动态库的方法有两种:
(1)、在运行时动态链接库
这种方法是动态的将程序和共享库链接并让 Linux 在执行时加载库。
例:
fc@fengchun~/project/so$ cat foo.c
#include<stdio.h>
void foo()
{
printf("infoo\n");
}
fc@fcn~/project/so$ cat test1.c
#include <stdio.h>
int main(int argc, char * argv[])
{
loop:
foo();
sleep(1);
goto loop;
return 0;
}
首先将文件 foo.c 编译成动态库 libtest.so:
gcc foo.c -fPIC -shared -o libtest.so
然后将文件 test1.c 编译可执行程序:
gcc test1.c -L. -ltest -o test1
编译参数 “-L.” 指定编译器在当前目录(.)查找动态库文件,编译参数 “-ltest”指定编译器连接库文件 libtest.so。
执行可执行程序 test1
./tsest1
程序将在屏幕上每间隔1秒打印1次“infoo”,此时可以偿试执行一下用直接cp覆盖的方法替换libtest.so文件。
cp libtest.so libtest1.so #即使用完全相同的so文件覆盖
cp libtest1.so libtest.so
可以看到程序立即崩溃退出。
fc@fengchun~/project/so$ ./test1
infoo
infoo
Segmentation fault
(2)、在运行时动态加载库并在程序控制之下使用它们。
通过这种方法使用动态库,对于库文件本身的编写和编译与方法1是相同的。但在可执行程序中需要使用一个称为动态加载的过程,这样程序可以有选择地调用库中的函数。动态加载(Dynamic Loading,DL)API 就是为了动态加载而存在的,它允许共享库对用户空间程序可用。尽管非常小,但是这个 API 提供了所有需要的东西,而且很多困难的工作是在后台完成的。
动态加载API主要包括以下函数:
#include <dlfcn.h>
void *dlopen(const char *filename, int flag);
char *dlerror(void);
void *dlsym(void *handle, const char *symbol);
int dlclose(void *handle);
以下是一个使用动态加载API的例子:
fc@fengchun~/project/so$ cat foo.c
#include<stdio.h>
void foo()
{
printf("infoo\n");
}
fc@fengchun~/project/so$ cat test2.c
#include <stdio.h>
#include <dlfcn.h>
#include <string.h>
int main( )
{
void *dl_handle;
float (*func)();
char *error;
/* Open the shared object */
dl_handle = dlopen( "./libtest.so", RTLD_LAZY );
if (dl_handle) {
printf( "!!! %s\n", dlerror() );
return;
}
while (1) {
/* Resolve the symbol (method) from the object */
func = dlsym( dl_handle, "foo" );
error = dlerror();
if (error = NULL) {
printf( "!!! %s\n", error );
return;
}
/* Call the resolved method and print the result */
(*func)();
sleep(1);
}
/* Close the object */
dlclose( dl_handle );
return;
}
首先将文件 foo.c 编译成动态库 libtest.so:
gcc foo.c -fPIC -shared -o libtest.so
然后将文件 test2.c 编译可执行程序:
gcc -rdynamic -o test2 test2.c -ldl
编译参数“-rdynamic” 用来通知链接器将所有符号添加到动态符号表中(目的是能够通过使用 dlopen 来实现向后跟踪),编译参数 “-ldl”指定编译器连接库 libdl
执行可执行程序 test2:
./tsest2
程序将在屏幕上每间隔1秒打印1次“infoo”,此时可以偿试执行一下用直接cp覆盖的方法替换libtest.so文件。
cp libtest.so libtest1.so #即使用完全相同的so文件覆盖
cp libtest1.so libtest.so
可以看到程序立即崩溃退出。
fc@fengchun~/project/so$ ./test2
infoo
infoo
Segmentation fault