Hi, 请登录    我要注册
    关于我们 | 联系我们 投稿
访问手机端11jn平行济南

  • 加入YouGov,参与有趣的问卷
  • 京东,拼多多,淘宝天猫一网打尽
  • 艾瑞调研iclick,填问卷兑现金
  • 央视市场研究ictr,填问卷兑现金
  • 抢优惠券:京东,拼多多,淘宝天猫
  • 调查通diaochatong,填问卷兑现金
山水与旅游 车子
历史与文化 房子
  • 首页
  • 我爱我家
    • 关爱老年人
    • 呵护下一代
  • 柴米油盐酱醋茶
  • 青春岁月
    • 热血青年
    • 人到中年

用PHP编程语言抓取网页的HTML内容汇总

添加时间:10-07-05 所属分类:PHP工具与代码
  转载自http://hi.baidu.com/straul/blog/item/e577acc3cada3152b219a850.html

首先,放一些比较小巧的程序,但是功能和实际效果有待完善。

①、使用php获取网页内容
http://hi.baidu.com/quqiufeng/blog/item ... e7150.html
[code]<?php
header("Content-type: text/html; charset=utf-8");
1、
$xhr = new COM("MSXML2.XMLHTTP");
$xhr->open("GET","http://localhost/xxx.php?id=2",false);
$xhr->send();
echo $xhr->responseText;
?>[/code]

2、file_get_contents实现
[code]<?php
$url="http://www.blogjava.net/pts";
echo file_get_contents( $url );
?>[/code]

3、fopen()实现
[code]<?
if ($stream = fopen('http://www.sohu.com', 'r')) {
// print all the page starting at the offset 10
echo stream_get_contents($stream, -1, 10);
fclose($stream);
}

if ($stream = fopen('http://www.sohu.net', 'r')) {
// print the first 5 bytes
echo stream_get_contents($stream, 5);
fclose($stream);
}
?>[/code]

②、使用php获取网页内容
http://www.blogjava.net/pts/archive/200 ... 99188.html
简单的做法:
[code]<?php
$url="http://www.blogjava.net/pts";
echo file_get_contents( $url );
?>[/code]
或者:
[code]<?
if ($stream = fopen('http://www.sohu.com', 'r')) {
// print all the page starting at the offset 10
echo stream_get_contents($stream, -1, 10);
fclose($stream);
}

if ($stream = fopen('http://www.sohu.net', 'r')) {
// print the first 5 bytes
echo stream_get_contents($stream, 5);
fclose($stream);
}
?>[/code]

③、PHP获取网站内容,保存为TXT文件源码
http://blog.chinaunix.net/u1/44325/showart_348444.html
[code]<?
$my_book_url='http://book.yunxiaoge.com/files/article/html/4/4550/index.html';
ereg("http://book.yunxiaoge.com/files/article/html/[0-9]+/[0-9]+/",$my_book_url,$myBook);
$my_book_txt=$myBook[0];
$file_handle = fopen($my_book_url, "r");//读取文件
unlink("test.txt");
while (!feof($file_handle)) { //循环到文件结束
$line = fgets($file_handle); //读取一行文件
$line1=ereg("href=\"[0-9]+.html",$line,$reg); //分析文件内部书的文章页面
$handle = fopen("test.txt", 'a');
if ($line1) {
$my_book_txt_url=$reg[0]; //另外赋值,给抓取分析做准备
$my_book_txt_url=str_replace("href=\"","",$my_book_txt_url);
$my_book_txt_over_url="$my_book_txt$my_book_txt_url"; //转换为抓取地址
echo "$my_book_txt_over_url</p>"; //显示工作状态
$file_handle_txt = fopen($my_book_txt_over_url, "r"); //读取转换后的抓取地址
while (!feof($file_handle_txt)) {
$line_txt = fgets($file_handle_txt);
$line1=ereg("^&nbsp.+",$line_txt,$reg); //根据抓取内容标示抓取
$my_over_txt=$reg[0];
$my_over_txt=str_replace("&nbsp;&nbsp;&nbsp;&nbsp;"," ",$my_over_txt); //过滤字符
$my_over_txt=str_replace("<br />","",$my_over_txt);
$my_over_txt=str_replace("<script language=\"javascript\">","",$my_over_txt);
$my_over_txt=str_replace("&quot;","",$my_over_txt);
if ($line1) {
$handle1=fwrite($handle,"$my_over_txt\n"); //写入文件
}
}
}
}
fclose($file_handle_txt);
fclose($handle);
fclose($file_handle); //关闭文件
echo "完成</p>";
?> [/code] 三爱克斯,先领券,淘宝天猫,京东商城,拼多多一网打尽
  • 2
  • 3
  • 4

前篇:济南公布驾校通过率排行榜 鲁政苑驾校垫底 后篇:PHP实现gb2312、UTF-8等字符和unicode间的编...
发表我的评论



推荐文章   城市里的“船上人”:年均六旬 日捞数吨...   毕业后,我学习过贫穷北漂日子   创城路上 “唐冶大妈”亮了   2名老师7个娃 既当校长又当老师的他坚守...   PHP cURL实现模拟登录与采集使用方法详...
随机文章   PHP输出数组元素的方法   字符编码基本概念   PHP导入和导出Excel文件方法   &#井号+数字 代表 ASCII 字符表   php 过滤特殊字符及sql防注入代码
广告

其他推荐

济南魏家庄 JN5A 软件智博 啊三国

免责声明:本网所有内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与我联系email:atseashawk@163.com,我收到您的通知后会将其撤除,谢谢。 因为本站所有内容均转载自其它媒体,本意为公众提供免费服务,但并不代表本网赞同其观点,也不能对其真实性验证负责,如稿件版权单位或个人不想在本网发布,请与我联系,本人会立即将其撤除,谢谢.联系方式:atseashawk@163.com QQ:99289555