百度

搜索引擎爬虫的基本需求和考核标准

需要包含以下基本功能: (1)网站下载流速控制 国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。 (2)网页抓全 将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。 (3)网页抓新(更新及时性) 网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。 (4)网页重复抓取的避免 为了及时捕捉网页的更新,对同一个网址必须经常去抓取,同样网络是一个网状结构,同一个网址可能被多次引用,这些都导致重复抓取的可能性,如果避免网页抓重,同时控制合理的更新频率,是非常关键的。 (5)DNS自动解析 如果抓取每个网页都进行一次DNS解析,那成本就太大了,维护一个DNS自动解析系统,可以大大降低域名服务器的负担,且大大提高效率。 (6)镜像站点的识别 网页内容相同,但域名不同的情况比比皆是,其中镜像站点的识别尤为关键 (7)抓取的优先级调整 抓取队列总是满的,周而复始,但在抓取的时候会出现,重要的,紧急的,不重要的,不紧急的内容,如何处理好排队的关系尤为重要,是单独开辟绿色通道,还是将其排队号前提都是需要细心打磨的。 (8)抓取深度控制 链接展开的深度控制,避免出现单个站点过分抓取,而使得其他站点持续饥饿 (9)多爬虫的协作 爬虫间的通行量要尽可能少,爬虫出现故障后的自动恢复,抓取主机的异地化等等,据说百度在国外部署的爬虫来抓取国外的站点。 (10)网页下载的存储 网页下载后的本地存储,链接提取,锚文本,链接关系的存储等等。 (11)死链、跳转的识别和处理 在抓取网页失败后,判断是死链还是当机,错误下载的网址再次抓取的时间间隔的控制,redirect的网页收集等等。 考核标准 (1)总有效的网页数(单机) (2)新站发现数(单机) (3)无效抓取的网页数(单机) (4)镜像站点数(单机) (5)全网站点的基本信息(更新周期,死链率,错误率) (6)重要网页的抓取及时性(随机抽取盲测) (7)抓取稳定性,故障率等

关于人像修饰与磨皮

先来说一下这个片子的处理思路步骤: 首先,用”污点修复画笔”就是长的象创可贴的那个工具,将MM脸上的斑点去除,这个很容易,只要在上面轻轻一点既可 经过分析发现原片的面部偏暗,用曲线将面部调亮,我想这一步不需细说 之后进入到皮肤的处理环节。 关于皮肤的处理,我想在此处多说几句,在这之前,我对皮肤的处理基本依赖于工具,(既neat image)这个软件非常好用,关于这个软件的使用 方法,大家可以百度一下,教程有很多,既可单独用,也可以做为photosop 插件来使用;使用非常便利,当然,我现在也还会经常使用它,它可以迅速 的处理面部的光泽,噪点,与斑痕。缺点就是磨的皮肤太假,太过于光滑,会失去细节.调整透明度又不会让皮肤看起来那么自然; 百思不得其解之后,突然有一天在网上看到一个教程,就是制作皮肤. 方法是这样的:在整个皮肤上挑选一块最为理想的地方,选中—定义图案—新建文件—填充;OK,到此完成第一步,这时我们会发现填充的边缘极不 协调,如下图: 这时候我们需用利用印章,将那些接缝整理均匀,关于印章的使用,如果还不太明白的,请去百度里查找,做人不要太懒哟~~~~~ 调整完之后,再去新建一个跟原图大小一样的新图,用调整好的图定义图案,再次进行填充,一般到这步我们需要再一次进行皮肤填充的接缝调整. 调整完成之后,存成PSD格式(注意,一定要存成PSD格式) 回到原图,将底图复制一层,选择滤镜—-纹理—纹理化,看右侧,在选择纹理类型的框框右侧有一个小三角,点开它,出现一个”载入纹理”,点中 之后,找到刚才我们存的PSD文件,OK,确定之后,我们看看效果~~~~~~没效果???嗯,我开始也是这样的,那就多尝试吧!!!居里夫人说:业精于勤, 荒于嬉,不想动脑子的孩子不是好丈夫,再聪明的牛顿也得挨苹果砸~~~~~~~ ***蒙板的使用*** 处理完以上步骤请留意看一下,除皮肤以外的地方是否也被填充了纹理?如果是,那么使用蒙板吧,将不需要的擦除…..(怎么擦除??问强大的百度) 关于蒙板的使用,接下来我们会在另一处用到 | | ***瘦脸*** 说到瘦脸,有人就想到了液化,OK,你很聪明,没错就是液化;但我要说的是,液化怎么来液??请留意一下你的液化窗口,左侧是不是还有很多选项??? 好了,首先,先选用那个铅笔吧,把你不需要液化的地方,好好的摭盖起来.这样能保证你液出来的不是一个鬼. 然后,选择”褶皱工具”(S) 不要再只会用那个向前推的傻手指了;沿着肌肉的走势将边缘向内收缩.直到变成满意的脸形.这时是不是发现脸的边缘 看上去极不舒服?没关系,点击确定,跳出液化窗口,用”多边型套锁”设置好羽化值,向脸边缘的下缘选中,之后用印章在附近区域选择合适的皮肤 在选区内填充.这样可以保证边缘的真实区分; ***套锁与曲线的配合*** 上面几步完成之后,我们该来完成面部的光影对比了,如何让鼻子看起来更挺?如何让眼睛看起来更亮?如何让脸看上去更立体?? 其实说白了,影像的成立,无非就是光影的结合,光与影形成的透视,使用套锁与曲线的配合,人工的修饰光影透视,可以让脸看上去更加立体; 步骤: 1,高光:设置羽化值,选取鼻梁部,鼻尖部,面部三角区,额部T形区,之后利用曲线调亮 2,明暗结合部:方法同上,部位:鼻侧,眼窝,眼线,发际线等; 3,加暗:如眼线,眉毛,脖子上的不同明暗光区,下颌的结合区鼻下等; 4,调整眼睛与眼神,选中眼球,曲线调亮,选中瞳,调暗,选中高光,如眼神光,唇反光,调亮 最后:上妆. 其实关于上妆,我也没太搞明白,化妆实际还是女人擅长一些,估且按自己的想法糊乱涂抹一下吧,不过方法可以说一下 唇彩:上唇彩的方法是这样的:首先,选中唇形,新建一层,添加杂色,调整色彩,叠加,再调整透明度,之后用画笔点上星芒,OK 眼影:方法同上,最后用曲线稍做调整. 大体思路如上,我这里的网络不太好,估计一会儿就断了,先发这么多吧> 另外提醒大家一下,请不要把图片转出去,我为大家分享了我的算是小小的经验吧,希望你们也能尊重我的劳动,也尊重你们自己,多谢了. 我的QQ:1005099,如有不太清楚的,可以加我.但这几天我都不在线,过几天吧,过几天我回去,网络状况好了,一并回答…… 愿佛祖,上帝,观音菩萨,太上老君和居里夫人都能保佑你有收获

浅谈。。。。。

2009,注定是一个不安稳的一年,以IBM为首的国际巨头,已经开始了更为吃惊的复杂大型数据处理–云计算,在云计算横向演绎出来的则是相关的技术,比如百度即将推出暗网搜索,goole更疯狂开始自己分布在世界范围内所有数据的集中处理。自己很认真的想过,如果不接触大型数据,那么,其实很多复杂的架构以及数据处理可以不去接触,把精力放到业务处理上,更为人性的工作流,时机成熟,去做一套自己研发的ERP。 先不提目前比较成熟的各类工作流,自己会将类似pushmail加入到系统之中,自己可以作为一个sp,加入移动和联通网关,客户根据自己需求通过网关发送需要的信息,可以制定,可以以一种规律发送。其次,开始真正意义的远程会议模式,企业级高级IM系统。其次进行软硬整合,加入类中间件的处理,将数据处理为软件按所需要的数据格式,进行业务逻辑处理。这些技术,自己认真点去研究,应该不是什么问题,问题的难度在于有多少人愿意放弃几年的收入,和我去开发,又有多少人愿意去推销这套软件,如果说年轻没有经验,其实去做自己的产品则更能激发人的潜力,可以慢慢脱离业务层,进入到更为高级的一个层面去思考。软件不等于数学,这是我一直以来的看法,要分清何种软件,企业级开发用到的数据结构远远没有类OS系统复杂。有时候很烦因为一个开源框架的某些要点不清楚,而去被别人指责为不精通,我即使精通这些傻瓜式的开源使用方法又能如何,能证明自己是个天才?太过于安逸,年轻人没有好处 我喜欢的是宏观认识,宏观开发,而不是仅仅局限某个知识点 希望志同道合的人会出现,时机成熟,实现我的理想

戏说“富士康起诉案”(配图)

戏说“富士康起诉案”(配图) 文/飞天含雪 最近富士康是“公务繁忙”啊,先是要起诉两名记者,并提出3000万巨额赔偿,相信很多人都为两名记者暗涅了一把冷汗,刚刚看到形势好转—-“目前被诉记者财产已经解冻,富士康则将诉讼标由3000万变更为1元。”却又急转直下,估计富士康领导人看到快“偷鸡不成反蚀把米”,于是尽快转移对象。此番富士康将目标转移至富士康两名离职员工以及比亚迪股份有限公司,理由是侵害商业技术秘密,此次将赔偿金额提高至7000万。这一连串的“巨额起诉”,不禁让我们“大惊失色”的同时也颇为感叹,感叹富士康真是太会用法律武器了,而且目标明确,两番起诉都面向“单一弱势群体”。 第一案,无论在可看性和幽默性上都远胜过第二案,表面上好像是冠冕堂皇的起诉,实际上更像一场哗众取“骂”的闹剧。故今天只谈它,其前因后果不必赘述,网络上讨论的是热火朝天,想必大家都清楚。只是有一个问题,很多人认为富士康起诉记者,目的是“想警告媒体不要乱报道”,起到杀鸡吓猴的作用。但实际看来,富士康此举不仅尚未达到目的,反而“听取骂声一片”。而且,即使富士康获胜(假设哈),3000万对财大气粗的富士康来说也不过是小Case,到时候,拿了小钱却成了“遗臭万年”,千夫所指的“靶心人物”,“以图小利而绝四海之旺事”,实乃“杀鸡取卵”。更何况,从目前的情况看来,鹿死谁手还尚属未知,但富士康却已经饱受唾骂,臭名远扬,此举,难道富士康的领导没有看到吗? 非也,富士康某个员工也表示“这一招老郭(指郭台铭,编者注)曾经用过,非常有效。虽然曾经招致一大片反对声。” 看来,老郭这次是豁出去了,眼看就要因两名记者而“晚节不保”,老谋深算的他岂能善罢甘休,与其输给他人倒还不如输给自己,与其甘受“凌辱”倒还不如“破釜沉舟”,“拼死一搏”,更何况“曾经用过,屡试不爽” 更有趣的是,老郭此次“将计就计”,还大玩了一把“曲线救国”,“围魏救赵”—- 成功转移大众视线,要知道,揭露富士康违法《劳动法》才是对富士康具有颠覆性影响的,当然也是富士康最惧怕的。结果现在大家都去关注他起诉记者去了,尽管“听取骂声一片”,“身与名,一齐臭”,但比较好的保全了“城池”,实为“弃车保帅”的一招妙棋。那么,富士康到底有没有压榨劳动力呢? 信心十足的老郭接受挑战 有关媒体称富士康为“血汗工厂”,空穴来风,有凭有据。除了相关记者的调查外,苹果公司也曾向富士康派出调查组,就调查情况看来,确实有违反劳动法的地方,证据确凿。那么,按理说对此次记者的如实报道,富士康一方理亏,应该虚心接收并致力于改正错误才对,结果不仅不承认,还“猪八戒吃西瓜,倒打一丁耙”。这是为何? 其实,中国目前有不少公司为了短暂的利益而背离了基本的社会道德和社会责任感,甚至仗势欺人。具有“宁带千军万马,不带八百杂耍”精神的百度就是一个很好的例子,过河拆桥,卸磨杀驴式的“闪电裁员,强力执行,剥夺期权,低价补偿”……“血淋淋”的现实折射出了公司社会道德的欠缺。公司“唯利是图”,高速发展的背后却是以牺牲道德为代价,“自绝后路”。这无异于“饮鸩止渴”,不能做为行业的标杆,更不利于公司的长久发展。 俗话说,“有则改之,无则加勉”,无论是否正确,指出错误都有助于这批公司能更好的生存发展。可悲的是,有的公司犯了错误还矢口否认,屡教不改,甚至不以为耻,反以为荣。富士康“死皮赖脸”不承认,还道记者“恶搞”“毁谤”,“报道失实”。百度也是,明显有违常理还裁的“心安理得”,自称是公司“拆东墙补西墙”的“正常布局”。另一方面,对这种不正之风的处罚力度又不够,这批公司长期得不到应有的处罚,继续铤而走险,变本加厉的对员工进行大肆剥削,但“玩火者必自焚”,这种“视员工如草芥”的公司终究还是会走向衰亡的。不过在他们苟延残喘,混天度日直至消亡的那一刻,受折磨的不只是广大工人,天长日久,恐怕国家经济都会饱受牵连,难道说就要因为这几颗耗子屎而坏掉一锅汤吗? 富士康猖獗的另一原因是中国目前的工人还属于“弱势群体”,各方面的权益都无法得到保障。今天笔者和朋友讨论到,富士康如此压榨,为什么还有那么多人“趋之若鹜”,难道他们就不懂得“良禽择木而栖”吗?这种现象很值得思考。答案很简单,其实中国大部分的工厂也不过如此,有的工厂极力抨击富士康,岂不知是“五十步笑百步”而已,相信在沿海一代,“血汗工厂”不胜枚举,富士康只是其中典型。因此,那些工人不论在富士康还是在其他工厂,其待遇都几近相同,那么跳槽还那么有意义吗?作为弱势群体的工人只能承受“血汗工厂”的压榨,而大部分不懂得用法律武器维护自身合法权益,只得“哑巴吃黄连”,有苦说不出。 像王佑这样的良心记者应该多多益善 笔者很佩服那两位记者,“泰然正气,大义凛然”,敢于和社会的不正之风做大无畏的斗争,他们是新时代的“精英”。但这还远远不够,希望能有更多的有志之士能挺身而出。此番富士康案不过是冰山一角,希望大家能透过他看到中国更多的血汗工厂,并呼吁相关制度能切实起到作用。此举方能釜底抽薪,否则治标不治本,杀掉一个富士康,还会有千万个富士康站起来。 本人近期稿件 (联系方式QQ:543415188) 特别推荐:我的书法作品 我的照片 深度剖析“考研现象” 胡灵,我不为您伤心!(感人) 独家策划:让三大门户联合运营超女 (非常经典) 大学恋爱为哪般? 王婆卖瓜—–看我传授“英语学习”秘笈 昨夜星辰昨夜风,只因见您在梦中 最让男孩感动的“五大金曲”(组图.限于女声) 张朝阳先生,您能不能踏实一点? 看我们这代被中国教育戕害的80后(组图) 分享到新浪微博