这几天在做一个小项目,花了不少时间调试。也有那么一点经验教训。
今天花了一上午在那里调试一个抓网页的小模块。程序写的比较土,是用Linux下面的wget来抓的网页。当时出现的问题就是我用gdb单步调试的时候,一点问题都没有。想抓的链接都一点问题都没有。可是,一旦让程序自己跑,就傻了。400多个链接只能抓到其中很少的一部分,而且有时候会发生文件读写错误。很诡异。
一直在那里捣弄,因为很多时候,cout出来的明明显示抓下来了。不知道为什么就是不能将抓下的文件写入到对应的字符串中。还以为是文件读写或是传递字符串的指针出了毛病,改了半天。还怀疑在系统调用函数system()的时候,是否将wget当做另外一个与本程序并发执行的程序了。导致在没有抓下来的时候,就开始了文件的读写。但,有不知道问谁好。很是郁闷。
那个wget的命令大致是这样的:
wget -O .tmp.html http://fc.sh365.com/rent.aspx?id=4545-fsdf44-fd&p=2
经过仔细的观察,wget抓取是给的提示里面,实际抓的链接里面字符串"&p=2"没有了。感觉不对劲,就把后面的链接引起来如下:
wget -O .tmp.html "http://fc.sh365.com/rent.aspx?id=4545-fsdf44-fd&p=2"
一切终于按照我的安排运行,而且发现问题所在。在第一个命令串中,符号"&"不会当做是链接的一部分,而
是会是shell将wget当作后台程序来运行。至于后面"p=2",会当做另外一个命令,解析的结果会告诉你这个命令不存在。而且程序会继续往前跑,不管wget是否抓回来网页。所以,实际抓回来后,程序已经跑过去了。
所以,调试程序的时候少去怀疑一些基本的东西。比如,我总怀疑文件读写会出错,指针很恶心,很容易乱。其实很多时候错误都不关它们的事情,要多多观察,比较。最后,建议大家在使用linux命令的时候要小心了,就比如这个"&"符号。