有事点这里!

当前位置: 首页 >> IT技术 >> 站长必读 >> SEO 工作原理

SEO 工作原理

[ 来自:不祥 作者:网络收集 阅读:0 时间:2008-1-28 15:40:21 ]
 1、搜索引擎工作原理              解释:spider、开放目录DMOZ、登录、外连接、搜索频率、外连接、              、sandbox、内连接、pr 值、搜索深度、收录优先规则、爬虫 crawler、              分词技术、要害字、spam kill、dance         1、搜索引擎(SE)工作原理                         URL 库                                             1、spider                                 2、url                                           3、url                          页面索引                         库                                            4、url                              SE       1、 搜索引擎释放网络蜘蛛 spider,spider 先检查开放目录DMOZ       上登录网站网址进行访问,并根据收录的网站的外部链接找到更多的       网站(外连接,对于二级域名spider 等同于外部连接。)根据网站的       的更新频率及权重级别,安排spider 的搜索频率。对于新站,google       进入 sandbox 处理。 对于站内的连接 (内连接),(google)根据网站的pr 值,计算出                    搜索深度,检查收入的页面中获取的的网址是否更新,有则收录新的网                    址,无则关闭spider。Baidu 及yahoo 则根据自己的算法,收录访问                    深度内的网址。                         2、 搜索引擎读取spider 收集的网址库,按照网址收录优先规                    则,调度爬虫 crawler。Google 对于提交了 sitemap 的网站,抓取                    深层次的页面。                         3、    搜索引擎释放 crawler 抓取网址页面                         4、    收录网站为中文网站根据分词技术进行要害字索引,按照                    页面的权重进行排位。                         5、    进行反作弊 spam kill 和dance  (google)                      2、名词解释   spider               spider:Spider 是搜索引擎用来访问 Internet 上网页的自动程序。                    spiders  根据 html 的语法和格式,对读取的页面进行代码过滤,收入                    相关的文字内容。目前搜索引擎无法象人那样去读相应的图片、                    Flash、影片里面的内容。图片中的文字对Spider 来说毫无意义。对                    于javascript 里面的内容,现在已经有部分网站开始收录。 开放目录                开放目录DMOZ                         开放目录  - Open Directory Project     是互联网上最大的,最广泛                    的人工目录。它是由来自世界各地的志愿者共同维护与建设的最大的                    全球目录社区。   开放目录专案效仿一些在20 世纪最重要的编辑员/志愿者项目。                 就像牛津英文字典通过志愿者的努力成为权威的工具一样,Open                  Directory 跟随着它的脚步也成为了权威的互联网分类目录。                       开放目录专案是建立在开放资源共享的理念上的,是唯一100%                  免费的大型目录。提交一个网站或使用目录数据不需要支付任何费                 用。开放目录专案的数据在同意遵守免费使用条款的情况下,任何人                  都可以免费使用。                                   DMOZ - http://dmoz.org/ 登录                              YAHOO - http://dir.yahoo.com/                                   GoGuides.org - http://www.goguides.org/                                   JoeAnt - http://www.joeant.com                                   Zeal) - http://www.zeal.com/                                   Gimpsy - http://www.gimpsy.org                                   HotRate) - http://www.hotrate.com                                   Xoron - http://www.xoron.com/                                   Lycos Directory - http://www.lycos.co.uk/dir/                                   business.com - http://www.business.com/                                   Proudly Canadian - http://www.porthardybc.ca/                                   LocalSites.ca - http://www.localsites.ca/                                   CanadaOne.com - http://www.canadaone.com/                                   StartPage.ca - http://www.startpage.ca/                                   Limey Search - http://www.limeysearch.co.uk/                                   dotukdirectory.co.uk                                   http://www.dotukdirectory.co.uk/                                   Splut.com - http://www.splut.com/                                   Ausie.com - http://www.aussie.com.au/                                   AAA Smart Search - http://www.aaa.com.au/                                   The Australian Internet Directory                                   http://www.directory.com.au/                                   Sohu Directory - http://dir.sohu.com/                     登录:提交到搜索引擎的行为。                     常用工具:登陆奇兵                       登陆类型:GOOGLE 和百度,只需要填写网址和说明(网站描                 述)。yahoo  目录式搜索引擎,采用人工方式,必须注册有YAHOO 的帐号才能提交网址。国外的部分搜索引擎,有部分会通过EMAIL                 确认你提交的网址。 外部链接             外部连接:指向友情链接和其他网站连接到您的某个页面外部的                 链接。外部链接越多,表示您的网站有更多的人关注。和大网站交换                 友情链接,可以使得网站的权重增加。  Tips                Tips:不是所有的外部网站的链接是有用的链接。PR 值越高的网                 站,搜索的权重越高。为了增加链接数量而引入垃圾链接网站,会遭                 到搜索引擎的惩罚。                      查看搜索引擎收录的外部链接数量:link:网站域名                      例如:link:www.baidu.com 搜索频率             搜索频率:搜索引擎对网站的访问频率。网站内容更新越快,一                 定的周期内搜索引擎对网站的访问次数增多。                      引用以前公布的《搜索引擎行为分析》为例,抽取某个网站的某                 天0:00-24:00 的访问记录,百度的spider访问地址为:202.108.23.70,                 一天访问的次数为20 次,crawler 的IP 地址是202.108.250.246,访                 问次数为2312 次。访问时段如下:企业数据的页面收录时间为分插                 在各个时间段,对于文章的收入在 14:00-20:00,这个时间和网站                 更新新闻的时间比较一致。                      yahoo 的spider 访问IP为202.160.178.114 和202.160.179.127                 和202.160.180.172 天天的访问频率25 次,crawler 访问次数为2976                 次。收录侧重于文章系统。                      Google 访问 154 次,只访问有更新的页面。        用 site:http://www.???.com 在搜索引擎查搜索引擎收集数量                为:                              Google 收录数量                 20,000                              Baidu 收录数量                  22,900                              Yahoo 收录数量                   6,170   Tips                     可见,搜索引擎的访问频率不等于网站被收录的数量。Baidu 和                yahoo 收集的方式需要耗费更多的服务器的CPU 和硬盘访问的资                源。  Tips                       检查网站被收录网页的数量,可以在搜索引擎中输入                site:www.???.com  假设网站为http://www.abc.com,  输入                为:site:www.abc.com Sandbox        sandbox                     沙盒效应指的是,新的网站在 Google 里面很难得到好的排名,                无论你怎么优化这个网站。换句话说,一个新的网站,可以有很丰富                的相关的内容, 可以有大量的高质量的链接,网站既搜索引擎友好,      也用户友好,所有一切都优化的很好。但是在一段时间之内,就是很                 难在 Google 里面得到好的排名。                     通常沙盒效应会维持六个月,应该利用这段时间来增加网站的内                 容,寻求更多的导入链接。 内部连接               (内部连接):网站内部中某个网页的其他站内页面的链入的数                 量。内部链接越多,表示该页面在整个网站中的权重越重要。  Tips                       内连接数量不适宜太多,否则搜索引擎可能认为存在桥页,对网                 站进行惩罚。 PR 值                 pr 值:Google  使用  PageRank(TM) 技术检查整个网络链接结构,                 并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些                  网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定                 查询的相关性之后,Google  可以将最相关最可靠的搜索结果放在首                 位。                       PageRank  技术:通过对由超过  50,000  万个变量和  20  亿个                 词汇组成的方程进行计算,PageRank  能够对网页的重要性做出客观                  的评价。PageRank  并不计算直接链接的数量,而是将从网页  A  指                  向网页  B  的链接解释为由网页  A  对网页  B  所投的一票。这样,                 PageRank  会根据网页  B  所收到的投票数量来评估该页的重要性。                     此外,PageRank  还会评估每个投票网页的重要性,因为某些网                 页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较                 高的价值。重要网页获得的  PageRank  (网页排名)较高,从而显示                 在搜索结果的顶部。Google  技术使用网上反馈的综合信息来确定某        个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么                 Google  会成为一个广受用户信赖、不受付费排名影响且公正客观的                 信息来源。                              不同网页的地址,有不同的pr 值。查询网页的  pr 值,                          可以通过安装google toolbar 进行查询。也可以通过查询软                          件查询。Google toolbar 下载地址为:                          http://toolbar.google.com/T4/intl/zh-CN/index.html?pro                          mo=abt-tb-cn 搜索深度        搜索深度                      理论上,搜索引擎可以搜索到网站的每一个链接。搜索引擎每增                 加一个访问的层次,就会产生组合爆炸,对于高权重的网站,搜索引                 擎会增加网站的搜索深度,对于普通的网站,搜索的深度为一般为3                 层。对于访问深度4 层以上的页面不再继续收集。                     访问层次,假如搜索引擎访问网站的首页为访问入口,首页上所                 有列出的链接,为访问的第一层,第一层连接进去的页面上的链接为                 第二层、以此类推。    Tips                            网站的SEO 优化方向就是尽量降低页面的层次,有效的方                      法可以是:1)把重要的栏目和内容的链接提到首页,2)在页面                      尽可能多设置链接,3)建立网站地图4)优化分页的显示方法,                      将传统的“首页、上一页、下一页、尾页”,可以采取如下的方                      法,降低访问的层数: url 收录优先      url 收录优先规则                        搜索引擎优先收录网页权重或者 pr 值比较高的页面。象博客类、                   gov 类网站,由于其权重比较高,搜索引擎会优先收录。经常更新的                   网站,可以提高其网站的权重。 crawler           爬虫 crawler                        搜索引擎根据spider  收集回来的 URL 链接库去收集网站的程                   序。 sitemap           sitemap                        GOOGLE 的定义为:Google Sitemaps  是您向  Google  索引提                   交所有网址并具体了解您网页在  Google  可见度的一条捷径。通过                   Google Sitemaps,我们始终可以自动得到您所有网页的信息及您更                   改网页的时间,帮助您提高在  Google  抓取中的覆盖率。                        Google Sitemap 最直接的作用体现在:                        提供了一个向 Google 介绍自己网站信息、内容的迅捷途径。                        了解Google 对自己网站价值的判定及如何对待自己网站。                        Google Sitemap 正是Google 着力于改善这种误区的体现。通过                   google Sitemao,网站建设者可以告诉Google,自己认为网站中哪                   些页面更为重要哪些页面则无关紧要。实现方法为给相应页面设定                   0.0  到  1.0 的优先级,比如说,可以将主页的优先级设为1.0,栏目                   优先级为 0.8,内容页面优先级为0.5,而其他网页如联系信息之类设                   为0.2 等,这样,Google 便会对高优先级的网页更为关注。                      更重要的是,网站建设者可以告诉 Google 网站更新的频率,以               及每个网页的创建或最新修改时间,让 Google 在规定期限内检查相               应网页的更新。比如说主页天天更新,而某些内容网页则可能每月更               新甚至以年计。                   Google Sitemap 另一个重要的功能是自2006 年2 月后提供的网               页分析功能。这项功能分两部分表示:网站内容中涉及的常用字词和               主要的外部链接字词,这两项内容直观地反映 Google 对相应网站的               看法,假如 Google 认为的您网站的主要字词与您希望强调的要害词               不一致,或者,网站的反相链接中包含的字词与待强调的要害词有异,               那么,意味着网站的优化工作还有很长的路要走。 Tips                    Sitemap 申请入口有Gmail 的帐号就可以申请               https://www.google.com/webmasters                    Google  可接受多种格式的  Sitemap,但  Google  鼓励使用采用               Sitemap  协议的  Sitemap。因为这使网站拥有者可以提供除网址以外               的其他有关网页的信息,同时也因为  Google            是按创意公用授权-相                   同方式共享  (Attribution-ShareAlike Creative Commons License)            的                条款提供此协议的,这样其他搜索引擎也可以使用此协议。我们希望                 网站所有者只创建一个  Sitemap  文件供所有搜索引擎使用。                    Sitemap  文件的可用格式为:                      Sitemap  协议  -  这是  Google  创建的开放源码的  XML  格式的                协议。使用  Sitemap  协议的  Sitemap  文件可包含您网站的网址列表                 以及有关这些网址的有用信息。您可以使用  Google Sitemap              生成器                创建使用此协议的  Sitemap,还可以手动创建或者使用第三方生成工                具。Google  建议使用此协议,因为它可扩展并且能让您向  Google                提供关于您每个网址的具体信息(如,每个网页上次修改的时间以及                哪个网页拥有最高优先级)。                      RSS2.0  和  Atom 0.3  供稿源。请注重可能仅提供有关最近网址                 的信息。                      文本文件  -  可以向  Google  提供纯文本文件,其中每行包含一                个网址。不过,Google  建议在拥有您网站的文本  Sitemap  文件后,                 即使用  Sitemap    生成器,根据  Sitemap  协议,通过这一文本文件来                创建  Sitemap。然后您可以修改此文件,提供有关您网址的其他信息,                如网址的上次修改时间以及更改频率。                             Sitemap 可以是xml 文件,可以是ASP 程序,可以是PHP Tips                       程序,可以是文本文件…只要遵循SITEMAP 的格式就可以,                       具体的格式可以参见下图。Sitemap 的文件不能超过2M 或者2                       万条记录。xml 文件必须是utf-8 的编码格式。        我的sitemap 文件       <?xml version="1.0" encoding="UTF-8" ?>     -                                                                   <urlset         xmlns="http://www.google.com/schemas/sitemap/0.84">       - <url>             <loc>http://www.XXX.com/company/view.asp?comp              anyid=1459284</loc>            <lastmod>2004-11-08T23:00:00Z</lastmod>            <changefreq>always</changefreq>            <priority>1.0</priority>         </url>       </urlset>                         XML 标签                                                                     :"always", "hourly",                     changefreq:页面内容更新频率可用参数:                     "daily", "weekly", "monthly", "yearly",                                                        。                     lastmod:页面最后修改时间                     loc:页面永久链接地址                     priority:相对于其他页面的优先权,介于  0.1-1 之间                     登陆Google 提交你的 SiteMap 文件,给 Google 提交你                      的Sitemap URL 后可以看见在列表里已存在,不过这时                     候还没有生效,必须过几个小时后 Status 栏变成 OK 表                     示正式生效。            我的  sitemap 程序,替换黑体字部分,可以成为你的 sitemap        程序。 <% ' sitemap_gen_db.asp ' A simple script (using database) to automatically produce sitemaps for a webserver, in the Google Sitemap Protocol (GSP) ' by Francesco Passantino ' www.iteam5.net/francesco/sitemap_gen ' v0.1b released 5 june 2005 ' v0.2 released 17 june 2005 iso8601dates http://www.tumanov.com/projects/scriptlets/iso8601dates.asp MAXURLS_PER_SITEMAP = 50000 'modify this to change website, baseurl and table baseurl="http://www.gdgsyp.com/company/view.asp?companyid=" xDb_Conn_Str = "provider=sqloledb;server=localhost;database=数据库;uid=SQL 用户;pwd=密码" 'strsql = "SELECT ID,date from cor_data where id >= 1430000 AND id < 1460000 order by datex desc" 'see http://www.time.gov/ for utcOffset utcOffset=1 response.ContentType = "text/xml" response.write "<?xml version='1.0' encoding='UTF-8'?>" 'response.write "<!-- generator='http://www.iteam5.net/francesco/sitemap_gen'-->" response.write "<urlset xmlns='http://www.google.com/schemas/sitemap/0.84'>" Set conn = Server.CreateObject("ADODB.Connection") conn.Open xDb_Conn_Str Set rs = Server.CreateObject("ADODB.Recordset") rs.Open strsql, conn Do while not rs.eof       if URLS<MAXURLS_PER_SITEMAP then            'modify this to change database field            id_page=rs("id")            filelmdate=rs("datex")            'priority=rs("priority")            if not isdate(filelmdate) then filelmdate=now()            filedate=iso8601date(filelmdate,utcOffset)            if priority="" or priority>1.0 then priority="1.0"            response.write "<url><loc>"&server.htmlencode(baseurl&id_page)&"</loc><lastmod>"&filedate&"</lastmod><priorit y>"&priority&"</priority></url>"            URLS=URLS+1            Response.Flush       rs.movenext end if Loop response.write "</urlset>" rs.Close           Function iso8601date(dLocal,utcOffset)                 Dim d                 ' convert local time into UTC                 d = DateAdd("H",-1 * utcOffset,dLocal)                 ' compose the date                 iso8601date = Year(d) & "-" & Right("0" & Month(d),2) & "-" & Right("0" & Day(d),2) & "T" & _                     Right("0" & Hour(d),2) & ":" & Right("0" & Minute(d),2) & ":" & Right("0" & Second(d),2)           & "Z"           End Function           %> 要害字             要害字                            当用户使用搜索引擎的时候,在搜索框输入的字是要害字。当                    要害字查询次数名列前矛的时候,就是热门要害字。百度查阅热门关                    键字的网址是:http://top.baidu.com/。在很多行业,所选的要害字是                    查询次数非常少的,因此只要做要害字的堆砌,就可以轻易把要害字                    排名做上去,这也是 SEO 行业的主要操作点。                          百度指数—SEO 的利器。查询你的要害字是否热门及天天/月/  Tips              季的查询次数,可以使用百度指数。百度指数入口:                    http://index.baidu.com/,以“坏人”为要害字                         热门的要害字更轻易引起客户的关注,带来的点击流量。热门的                  要害字的排位也相对难做。                        同一个要害字在同一个页面出现更多,会增加此页面在搜索引擎                  中此要害字的权重。要害字的挑选,关系到客户是否有更大的机率访                  问到你的网页。同义词由于语言的使用习惯,在搜索引擎中的搜索比    Tips                  率差别非常大,通过百度指数可以选择热门的要害字带来更多的潜在                  客户。大量的要害字堆砌能迅速提高baidu 的排名,已经是不争的事                  实。尤其是alt 注释,baidu 似乎不认为是作弊,alt 注释的堆砌成为                  当今最快捷安全的作弊方法了。控制要害词密度(Keyword Density),    Tips                  一般认为2%-8%比较适合。文章的标题也是放置要害字的首选位置。                  一页中要害字的出现不是根据内容的需要而安排,而是为了讨好搜索    Alert                  引擎人为堆积要害字(Stuffing)。这已经被搜索引擎归入恶意行为                  (Spamming),  有网站遭到惩罚的危险。可以使用要害字密度查询工                  具查询。  

奥运您知道

动漫情报

影视广场

IT技术

相关文章

QQCAT(www.qqcat.com),资源信息,免费观看。本站所有信息均来自网上,如损害到您的利益,请及时联系我们!
QQCAT版权所有©2007