PHP(file_get_contents)实现采集中国天气网未来7天天气
分类:PHP_Python| 发布:llmaomi| 查看:304 | 发表时间:2015/1/1
下面就介绍一下如何编写一个简单的PHP数据采集程序(PHP爬虫)。
原理
给定一个网页的URL,使用PHP下载该网页并得到网页内容,然后通过正则表达式将其中我们感兴趣的数据提取出来,然后输出。
具体在这个例子中,我们要抓取的网页是 upload/2015/1/201501011530288400.gif 这样的相对路径,我们需要把这些路径补全,在它们前面加上 http://www.weather.com.cn。
代码如下:
$forecast = str_replace("<img src="","<img src="http://www.weather.com.cn",$res[0]);
至此,$forecast 中就是我们需要的天气预报信息了。这个简单的PHP爬虫也就写好了。
源代码
以下是这个抓取天气预报小程序的完整源代码,其中添加了一些测量各部分程序运行时间的代码,并可以通过设置 $start 和 $end 的值来控制抓取哪几天的信息。
代码如下:
04 | $page_content = file_get_contents ( $url ); |
09 | echo "超出预报能力范围,请重新设置!" ; |
11 | echo "未来" .( $end - $start ). "天哈尔滨的天气预报(" |
13 | eregi ( "--day $start--(.*)--day $end--" , $page_content , $res ); |
14 | $forecast = str_replace ( "<img src=\"" , |
18 | echo 'First step costs ' .( $t2 - $t1 ). ' ms.' ; |
19 | echo 'Last step costs ' .( $t3 - $t2 ). ' ms.' ; |
其他应用例子
同样的思路可以尝试的有:NBA每天的比分牌、今日哈工大的新闻同步、股市行情等等。都能实现同步实时更新。暂时只想到这些,欢迎大家拍砖~