`

RSS文件格式分析

阅读更多

RSS1.0和2.0所包含的核心的信息相同,但是其中的结构有所区别:

RSS中的标签详细介绍:

|-rdf:RDF/rss				RSS1.0/2.0的根元素
<!--rss还包含一个强制版本属性用以表示所用的RSS的准确格式,RSS1.0文档有名字空间限定,RSS2.0的文档就没有-->
	|-channel			频道		必备
		|-title		频道名称		必备
		|-link		频道的URL		必备
		|-description	频道的描述		必备
		|-image		指定一个 GIF或JPEG或PNG图片,用以与频道一起显示
			|-url			图片的url				必备 
			|-title			图片的标题,alt属性		必备 
			|-link			网站url(常以频道的url)	必备 
			|-description		用于link的title属性
			|-width			图片的宽度(象素为单位)	可选	最大144,默认88 
			|-height		图片的高度(象素为单位)	可选 	最大400,默认3
		|-textInput		指定一个text输入框供用户输入,具体信息及功能未定。
			|-title		Submit按钮的标签		必备 
			|-description	解释text输入区		必备 
			|-name		Textarea对象的名字 		必备 
			|-link		处理提交的请求的cgi程序	必备
		|-item				
		<!--在RSS1.0中,title和link是必须的,description是可选的。而在RSS2.0中,title或description必须提供其中的一个-->
		<!--1.0和2.0都有的标签-->
		
		|-language	频道文章所用语言
		|-copyright	频道内容的版权说明
		|-managingEditor	责任编辑的email
		|-category	指定频道所属的类别
		|-pubDate	频道内容发布日期,格式遵循RFC822格式
		<!--RSS2.0中扩展的,不过RSS1.0允许通过定义在单独的XML名字空间中的可扩展元素来创建这种类型的元数据,这两种格式在结构上的主要区别是其item、image和textinput节点的表示形式。RSS1.0中,channel元素包含对item、image和textinput节点的引用,这些节点存在于channel节点本身之外。这样在channel和所引用的节点之间建立了一种RDF关联channel元素与一个image元素以及两个item元素关联。RSS2.0中item元素只是在channel元素中连续排放。item元素包含实际的新闻项信息。-->
		
		|-webMaster	网站管理员email
		|-generator	生成该频道的程序名
		|-lastBuildDate	频道内容最后的修改日期
		|-docs		指向该RSS文件所用格式说明的URL
		|-ttl		有效期,用以指明该频道可被缓存的最长时间分钟为单位
		|-rating		这个频道的分级(主要指成人、限制、儿童等
		|-skipHours	提示新闻聚合器,那些小时时段它可以跳过。
		|-skipDays	提示新闻聚合器,那些天它可以跳过。

 RSS1.0例子:

<?xml version="1.0"?>
<rdf:rdf xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
	xmlns="http://purl.org/rss/1.0/">
	<channel rdf:about="http://www.xml.com/xml/news.rss">
		<title>XML.com</title>
		<link>http://xml.com/pub</link>
		<description>XML.com features a rich mix of information and services for the XML community. </description>
		<image rdf:resource="http://xml.com/universal/images/xml_tiny.gif" />
		<items>
			<rdf:seq>
				<rdf:li resource="http://xml.com/pub/2000/08/09/xslt/xslt.html" />
				<rdf:li resource="http://xml.com/pub/2000/08/09/rdfdb/index.html" />
			</rdf:seq>
		</items>
		<textinput rdf:resource="http://search.xml.com" />
	</channel>
	<image rdf:about="http://xml.com/universal/images/xml_tiny.gif">
		<title>XML.com</title>
		<link>http://www.xml.com</link>
		<url>http://xml.com/universal/images/xml_tiny.gif</url>
	</image>
	<item rdf:about="http://xml.com/pub/2000/08/09/xslt/xslt.html">
		<title>Processing Inclusions with XSLT</title>
		<link>http://xml.com/pub/2000/08/09/xslt/xslt.html</link>
		<description>Processing document inclusions with general XML tools can be problematic. This article proposes a way of preserving inclusion information through SAX-based processing.</description>
	</item>
	<item rdf:about="http://xml.com/pub/2000/08/09/rdfdb/index.html">
		<title>Putting RDF to Work</title>
		<link>http://xml.com/pub/2000/08/09/rdfdb/index.html</link>
		<description>Tool and API support for the Resource Description Framework is slowly coming of age. Edd Dumbill takes a look at RDFDB,one of the most exciting new RDF toolkits. </description>
	</item>
	<textinput rdf:about="http://search.xml.com">
		<title>Search XML.com</title>
		<description>Search XML.com's XML collection</description>
		<name>s</name>
		<link>http://search.xml.com</link>
	</textinput>
</rdf:rdf>

 

RSS2.0例子:

<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0">
	<channel>
		<title>新闻中心-国内焦点新闻</title>
		<image>
			<title>新闻中心-国内焦点</title>
			<link>http://news.sina.com.cn/china</link>
			<url>http://image2.sina.com.cn/dy/gn/in10.jpg</url>
		</image>
		<description>国内焦点新闻列表</description>
		<link>http://news.sina.com.cn/china/index.shtml</link>
		<language>zh-cn</language>
		<!-- 当RSS文件为自动创建时多存在此节点(RSS文件由什么创建) -->
		<generator>WWW.SINA.COM.CN</generator>
		<!-- (ttl = time to live) 在刷新前当前RSS在cache中可以保存多长时间(分钟)-->
		<ttl>5</ttl>
		<copyright>Copyright 1996 - 2005 SINA Inc. All Rights Reserved</copyright>
		<pubdate>Wed, 26 Apr 2006 01:45:05 GMT</pubdate>
		<category /><!-- 一条新闻 -->
		<item>
			<title>xxxxxxx</title>
			<link>http://news.sina.com.cn/c/l/2006-04-26/08029720281.shtml</link>
			<author>WWW.SINA.COM.CN</author>
			<!-- guid>GUID=Globally Unique Identifier 为当前新闻指定一个全球唯一标示 -->
			<guid>http://news.sina.com.cn/c/l/2006-04-26/08029720281.shtml</guid>
			<category>xxxxxxx</category>
			<pubdate>Wed, 26 Apr 2006 00:02:53 GMT</pubdate>
			<comments/>
			<description>xxxxxxxx</description>
		</item>
	</channel>
</rss>

 

分享到:
评论

相关推荐

    功能强大的php解析rss文件类.zip

    简单但功能强大的PHP解析RSS文件类,启用缓存,缓存文件是最新,则返回缓存数组,缓存文件...Parse() 是由GET()调用的私有方法,用来解析RSS文件,所以不要在你的代码中使用Parse(),而是用 Get($rss_file)方法来替代。

    RSS阅读器(XML文件解析)

    一个很方便大家学习RSS,如何使用SAX进行解析XML文件的小项目,也很实用~本项目在博客上有相应的解析,方便大家理解。。。

    该代码能完成解析XML文件的RSS解析器

    该RSS解析器能完成对XML文件的解析,使阅读网站上的新闻能更快和方便

    使用Boost对Rssxml文件解析

    在Linux下使用C++的Boost库对Rss格式的xml文件进行解析,并通过正则表达式去除html标签

    MFC编写的RSS简单阅读器

    前几天想找VC编写的RSS阅读器,找了很久没有,找到的都是C#以及其它的,就自己研究一下,其重点无非就是把XML中的RSS信息读取出来。

    RSS的解析类库.zip

    发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用,是一种描述和同步网站内容的格式。[1] RSS可以是以下三个解释的其中...

    RSS案例视频,RSS阅读器

    发布一个RSS文件后,这个RSS Feed中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的XML格式,所以也能在其他的终端和服务中使用。  如果从RSS阅读者的角度来看,完全不必考虑它到底是什么意思,...

    Java Swing RSS阅读器

    基于JAVA SWING的RSS阅读器,使用JDOM解析本地XML文件

    librss:RSS 和 ATOM 解析库

    RSS 和 ATOM 解析库。 Librss 是一个开放的、低依赖的、ANSI C Windows/Unix 库,可用于下载和解析 RSS 和 ATOM 提要。 它支持 char* UTF-8 或 wchar_t* UTF-16 字符串。 在 Windows 下不需要额外的库,在 Unix 下...

    简易RSS阅读器

    基于Java语言的简易RSS阅读器的源码,包括了解析本地RSS文件,联网获取RSS文件等几项基本功能

    rss-flow:南航人博客rss聚合

    流程: 从获取所有rss地址 遍历解析每一条rss,取每个rss的第一个项目 ...采用多进程解析rss,但由于feedparser的原因,解析rss的时候可能会卡住,所以设置了每条rss解析的超时时间(30s),防止整个rss的生成卡住。

    java RSS阅读器 (含联网解析功能)

    java RSS 阅读器,可以从网站获取并解析Xml文件,以及解析和保存XML文件

    RssReader:只是一个随机项目,来自RSS提要或CSV文件的简单处理器,可以进行转换

    将源解析为具有Title和Description的Article对象的列表 按照在每篇文章中出现的顺序应用所需的转化 将结果文章打印到选定的输出 该应用程序用kotlin编写,并以Java 11为目标进行编译。 如何运行应用程序 从存储库的...

    PHP解析RSS的方法

    主要介绍了PHP解析RSS的方法,实例分析了php解析RSS的原理与XML文件的操作技巧,需要的朋友可以参考下

    Rss,Atom聚合规范的XML文件解析(Rome,rssutils)

    NULL 博文链接:https://mengqingyu.iteye.com/blog/389271

    wiredrive_rss:Wiredrive Media RSS 源的示例文件

    使用 Wiredrive 媒体 RSS 提要 此存储库这些示例文件旨在成为开发人员使用 Wiredrive 媒体 RSS 提要构建网站的起点。... /src :用于解析 RSS 提要、在本地缓存文件以及将输出格式化为 XML 或 json

    rss 开源rome

    开源项目,实现RSS 文件的生成和解析,RSS标准虽然混乱,但是其本质都是XML文档。

    comicsrss.com:漫画的RSS提要

    网站生成器读取临时JSON文件,生成静态HTML和RSS文件并将其写入磁盘。刮板如何工作gocomics.com向网站(例如gocomics.com )发出https请求,解析响应,并将临时JSON文件写入磁盘。 在gocomics.com之类的网站上,...

    swift-feedparser:用于 Swift 的 RSS 和 Atom 提要解析器库

    用 Swift 编写的 RSS 解析器这只是一个快速而肮脏的占位符自述文件。 目前解析来自所有测试文件去做原子支持

Global site tag (gtag.js) - Google Analytics