技术

Stanford CS224n: Natural Language Processing with Deep Learning 课程笔记

Stanford CS224n: Natural Language Processing with Deep Learning 课程主页:http://web.stanford.edu/class/cs224n/ 已完成的课程作业代码:https://github.com/xingjian-f/Standford-cs224n-assignments 一些笔记: lec1 1 什么是自然语言处理? 让机器能够“理解”自然语言,从而能够做一些有意义的任务。 2 人类语言有什么特点? 语言不是大自然的产物,是人造的,所以处理它和处理视觉、声音会有很多不同。 语言是离散的。但人类传递语言的载体,图像、语音是连续的。不同的载体对应的语言含义却是不变的。 3 自然语言处理为什么很难? nlp的难点在于歧义性和,需要推理性(人类说话有时不是完整的表达,而需要听者的推理) 4 (词汇形态学,语法,语义,篇章)各个层级的表示形式? 向量 lec2 1 怎样表示一个词的含义? (1)使用分类学的方法,例如WordNet。离散表示,one-hot。 (2)分布式表示 lec3 1 Word2Vec 和 Glove 训练后,都得到了两组词向量,这两组要怎么用呢? 经验主义,把它们叠加。不过最好先自己试一试各种情况。 2 怎么评估词向量? 词的相似度,类比性,之类的测试集,或者作为下游任务的输入,评估下游任务的好坏。 后者更“实际”,但评估消耗时间更长。 lec8 1 RNN中为什么梯度消失或爆炸会带来问题? 爆炸导致导数无法评估,clip解决。 消失导致“远”一点的参数几乎不更新,对角线初始化,relu,LSTM,GRU解决。 2 神经翻译模型中使用RNN有哪些trick? 1 encoder 和 decoder 的参数不共享。 2 decoder中,把上一个隐层,encoder最后一层,上一个输出结果都最为当前隐层的输入。 3 多层RNN。 4 双向RNN。 (以上都是想办法增加参数) 5 GRU 和 LSTM lec11 1 LSTM 和 RNN记忆力的比较 RNN最多记8-10步,LSTM可以到100步。(实验性结论)

好玩的API调用之—天气预报的API调用与爬虫

更多技术文章请访问我的个人博客http://www.rain1024.com 好玩的API调用之—天气预报的API调用与爬虫 平时写程序经常需要用到一些服务,像翻译,天气预报,星座什么的,我一般都是用Python写个爬虫去提供这些服务的网站爬数据,但是有些网站对爬虫有很多限制,一些关键字会定时更改,就像中国天气网经常变更HTML标签的class值,这就需要时常维护爬虫,而聚合数据API只对普通用户提供一个免费API接口,简直垃圾,而网上的一些网站其实有开放的API供开发者调用,所以我想着把自己发现的好玩的API和自己写的爬虫写个博客专题供大家参考,我会继续补充和维护。 第四个专题是关于天气预报的API调用与爬虫,聚合数据里的天气预报接口还收费,真是lj,我一开始用爬虫爬中国天气网里的数据进行分析,后来发现了和风天气这个良心网站,不仅提供免费的接口,而且天气预报数据也很多很丰富。今天就写中国天气网的爬虫和和风天气的api调用。 1.中国天气网的网址http://www.weather.com.cn/,先在里面找到自己的城市,然后把网址复制下来,就像我的是呼和浩特市http://www.weather.com.cn/weather1d/101080101.shtml,就是下图这样的。 下面是我爬虫的代码,就不做详细解释。 #-*- coding=utf8 -*- import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import urllib2 from bs4 import BeautifulSoup import time def download(url,headers): try: request = urllib2.Request(url,headers=headers) html = urllib2.urlopen(request).read() # html = urllib2.urlopen(url).read() except urllib2.URLError as e: print "error" print e.code #可以打印出来错误代号如404。 print e.reason #可以捕获异常 html = None return html def save(html): f = open('thefile.txt', 'w') f.write(html) f.close() def read_file(): f = open('thefile.txt', 'r') html = f.

Tor–anonymity network介绍(PPT)

最近有人向我了解Tor, 于是突然想到了以前自己专门做过一份介绍Tor的PPT,顺便拿出来共享下啦…… 三言两语介绍 摘自维基百科和FREEBUF Tor是互联网上用于保护您隐私最有力的工具之一,但是时至今日仍有许多人往往认为Tor是一个终端加密工具。事实上,Tor是用来匿名浏览网页和邮件发送(并非是邮件内容加密)的。 Tor(The Onion Router,洋葱路由器)是实现匿名通信的自由软件。通过Tor可以在因特网上进行匿名交流。最初该项目由美国海军研究实验室赞助。2004年后期,Tor成为电子前哨基金会(EFF)的一个项目。2005年后期,EFF不再赞助Tor项目,但他们继续维持Tor的官方网站。 PPT随机截图 PPT共享下载 PPT是15年12月底做的,个别统计数据未更新百度网盘下载地址 提供的是pdf版本下载,需要PPT的请私信或邮件!

搞笑–网络小说-紫川 高考题-(附答案)

搞笑–网络小说-紫川 高考题-(附答案) 2010年01月10日 西川大陆高考试卷。(共 47题 200 分) 友情提示:书写分 5分 请各位考生注意书写工整 卷面整洁 (另还有3分只要著名即可得到 阿门) 出题人:紫川暗影 印刷:帝都”白菜青蛙萝卜薯片我还要吃”复印 社兼小吃店 考试复习资料友情提供:看紫川不下二十遍 紫川 编年史 一、选择题。 1.紫川秀大败流风西山在哪一年? A.帝国历七七零年 B.帝国历七七一年 C.帝国历七七二年 D.帝国历七七八年 2.远东军校内谁是前无古人的大流氓头子? A.紫川秀 B.帝林 C.斯特林 D.沙布罗 3.帝林用来战胜斯特林和紫川秀的武器是什么? A.洗月刀 B.光华剑 C.101宪兵弩 D.灌了水银和磁铁的筛子 4.下面那一只部队不算是紫川三杰的部下? A.101特种部队 B.秀字营 C.十字军 D.不死营 5.副旗本和小旗之间的官衔是什么? A.副统领 B.小旗武士 C.上尉 D.红衣小旗 6.下列那一位不是魔族军团长? A.黑纱 B.云浅雪 C.裴玛 D.780年的鲁帝 7.秀字营官兵来自家族哪一地区? A.西南地区 B.东南地区 C.远东地区 D.帝都 8.长老会罢免总长必须出席多少人?通过多少选 票? A.4000人,65% B.4000人,75% C.3000人,65% D.4000人,75% 9.帝国历七七八年俘虏卡丹的会战是第几次恒川 会战? A.第二次 B.第三次 C.第四次 D.第五次 10.帝林在第一次大征讨中率部多少万远东军? A.五万

3D版四国军棋 – 概要设计

军棋是群众喜爱的一种棋类。因为它规则简单但又不乏趣味性。传统军棋由两人对战,有翻棋和暗棋两种下法。二十世纪后,社会分工已经深入人心。勤劳智慧的老百姓在伟大的二人对战军棋的基础上研制出了四国团战军棋。四国军棋大大丰富的军棋的战术技巧和趣味性,是军棋发展史上的一个重要里程碑,也是中华民族的智慧结晶。 棋盘 规则 (还在调试中。。。。。) 因为网络支持在后期才能完成,所以前期只能玩翻棋。 翻棋规则: 对家结盟,任何一家坚持到最后就是胜利 连横合纵Both OK;或者不结盟,或者中立,或者易织,或者。。。 Tips: 因为棋盘是3D的,所以可以在两个表面下,要不每个国家都有一次“翻盘”机会? 编程语言 曾经好一段时间我们都纠结于WPF与SilverLight。经过大量调研之后,我们作了一个艰难的决定: 使用SilverLight,卸载WPF。因为, 一、SilverLight作为一种网络媒介,能让我们艰辛研究的3D版四国军棋走得更远,传得更广,给分更多 二、SilverLight程序比WPF程序小 三、邹老师更看好SilverLight 四、小林老师手把手教我们SilverLight 可惜的是, 我们希望四国军棋运行在本地,并能在局域网组队团战。WPF貌似能提供更多支持。我们查阅了相关文档,SilverLight支持Socket。这是说明SilverLight有网络通信的能力。。。但给力太少了 在3D编程方面,貌似SilverLight也很复杂啊~大牛们给把牛刀? 开发环境 正版VS2010(经常重启,为什么?)+ SilverLight插件 Blend只是玩玩而已 计划 今天:棋盘棋子 明天:翻棋、3D 后天:联网、暗棋 之后:发布、测试、改进 欢迎拍砖~ MicroTeam Hui

各种网址登录入口

http://www.baidu.com/search/url_submit.html” target=_blank>百度登录入口 http://www.google.com/intl/zh-CN/add_url.html” target=_blank>Google登录入口 http://search.help.cn.yahoo.com/h4_4.html” target=_blank>Yahoo登录入口 http://search.msn.com/docs/submit.aspx” target=_blank>Live登录入口 http://www.dmoz.org/World/Chinese_Simplified/” target=_blank>Dmoz登录入口 http://www.alexa.com/site/help/webmasters” target=_blank>Alexa登录入口 http://ads.zhongsou.com/register/page.jsp” target=_blank>中搜登录入口 http://iask.com/guest/add_url.php” target=_blank>爱问登录入口

使用Manual for UrlRewriteFilter美化适合google的URL

最近准备做一个自己的blog,浏览了一下现在比较红火的个人blog,大多数都是用的 Movable工具做的,Movable是使用cgi的方式,Movable的使用比较简单,还有详细的 Movable Type 完全手册,手册中对blog的特点作了描述,其中一条就是: 静态链结 这些文章必须公开于网络之上,并且能够让其它读者藉由某个固定、不变的网址链结而直接读取得到;这暗指著这些文章的存取会是直接而公开的。 所以基于动态的url http://aaa.com/aa.jsp?id=1&id2=44应该美化成http://aaa.com/1_44.html静态网页的方式。 apche的mod_rewrite模块具有此功能,但是对于租用虚拟主机的用户来说就比较麻烦。有一个解决方法,通过 Manual for UrlRewriteFilter来美化url.你可以将它直接应用到你的web应用中,不管你用的是jsp+javabean还是struts. 下面是使用方法: 1、下载 urlrewritefilter-1.1.zip (about 500kb) ,解压缩后将文件考到相应的web-inf/lib和web-inf下。 2、配置web.xml UrlRewriteFilter org.tuckey.web.filters.urlrewrite.UrlRewriteFilter UrlRewriteFilter /* 根据自己的需要,将相应目录下的url转给UrlRewriteFilter来处理。 3、配置urlwrite规则文件WEB-INF/urlrewrite.xml 添加自己的urlwrite规则,如将 http://localhost/aaa/bbb.jsp?id=99&name=abc 表现为: http://localhost/aaa/bbb/99_abc.html 配置如下: /aaa/bbb/([0-9]+)_([a-z]+).html /../aaa/bbb.jsp?id=$1&name=$2 注意:有多个参数时,中的连接符号&应该是& 更多的配置可以参照 Manual for UrlRewriteFilter 1.1。 DD 下载地址 Url Rewrite Filter。