记一次Python作业

以下是上交给老师的word文档,源码及相关文件可以通过这个链接获取:Onedrive分享或者到我的github上看。

现运用python语言对豆瓣电影TOP250进行电影信息的爬取、保存和统计等操作,以方便找出排名靠前的电影的一些简单特征。
数据源为: https://movie.douban.com/top250

基本过程:

  • 使用requests库提供的功能获取网页源代码

  • 从网页源代码中可以发现每部电影有标题、国家/地区、上映年份、类型、摘引等信息。

    提取方法:其中,标题和摘引可直接利用BeautifulSoup库按照标签进行提取。而年份、国家、类型这三种信息没有和标题、摘引类似的分类标签,不方便用BeautifulSoup进行直接提取,便采用BeautifulSoup获取大致区块,然后用正则表达式(re)的方法对其进行具体提取。

  • 利用csv库将获取的信息写入csv文件,因为utf-8编码的csv文件在Microsoft Excel中打开会出现中文乱码,故使用utf-16编码方式。然而用Microsoft Excel直接打开utf-16编码的csv文件不能实现自动隔列,于是又借助Excel自带的数据导入功能将csv文件的数据导入到Excel表中,并保存为一个新的xlsx文件,便于查看。

  • 从生成的csv文件读取信息,统计国家/地区,类型,上映年份所处年代出现的次数,分别将其排序,并输出到控制台。

  • 运用matplotlib库,根据前一步的统计,绘出三幅表示不同种类信息的饼状图(国家/地区,类型,年代)。其中还利用了numpy库的arange函数返回均匀间隔的值实现颜色的渐变。

文件目录结构解释:

结果分析:



  1. 从电影的制片国家/地区占比来看,美国占据第一的位置,表现了美国作为文化强势国家的地位,其好莱坞文化也正是大众所知的。
    其次是日本、英国、香港等发达国家或地区,说明电影工业的发展与经济发达程度有一定关系。
    日本、香港的表现突出,它们都处于东亚,这说明和观众所处的文化环境也有关系。
  2. 从电影的类型占比来看,“剧情”占据第一的位置,这是意料之中的。剧情是大多数电影的一个特性。
    其次是爱情、喜剧、犯罪等类型,从中可看出一部好电影是要能引起观众的感情共鸣,抓住观众兴趣的。
  3. 从电影的上映年份来看,近三十年的电影占了大部分,每个年代的占比相当,其中2000年到2010年间的数量最多。而80年代及之前的电影在TOP250相对很少。
    对于近三十年和三十年前的这个差距,一方面,和电影工业的发展有关,90年代开始可能迎来了电影的蓬勃发展阶段,而之前电影总数量本来就少,技术也不先进,做电影、看电影的成本大;另一方面,也与网站用户的接触面有关,现代人几乎不可能回过头去找寻时间过于久远的好电影,但也有例外——经典的电影即便是1950年以前上映的,也出现在这个榜单中。

金陵一日游(1)

从南大出来后,便乘坐地铁前往南京大屠杀遇难同胞纪念馆。上午南昌的朋友发条消息说他正在纪念馆排队,中午时他告诉我仍在排队。→ →排这么久的队可真是痛苦啊。 当我到达时,看到纪念馆前满满的人海,顿时理解了他为什么排了这么久的队了。 实在不想在这种情况下排队,就坐公交在夫子庙一带下车了。 相较于史料和相关展品,建筑更能吸引我。于是在夫子庙没停留多久又离开,前往总统府。地铁站人非常多,即使开设了临时的人工售票点也是排了长长的队。到总统府门口后,看到的同样是窜动的人头。不过还好,围墙边摆设了许多二维码广告牌,可通过扫码购票然后直接刷身份证进门。买票倒是挺方便的,因为在扫码地点人实在是多,手机网络变得十分糟糕,不过影响不大,买好票后就可以溜之大吉了。 说好的总统府,没想到进去还看到了许多太平天国的内容。里面有些讲解员和导游,不过我向来对讲解不感兴趣,就随便走动去了。 总统府里最拥挤的地方就是总统办公室外的走廊了,摩肩接踵,都想一睹总统的办公室。在我前面有一位蓝眼睛的外国小姐姐,面对这种场面一脸的不适,估计她内心有点崩溃吧,见识到了什么叫中国人多。说起外国人,除了特别明显的黄头发白皮肤,其他的我都不能凭肤色马上认出来,记得在地铁站时看到的黑人女生,第一感觉不是肤色不一样,而是五官和我们有差异,然后才意识到是黑种人。这次在总统府也是一样的情况,是根据五官认出来的差异,而不是肤色(当时的光线对此也有一定影响 从办公楼出来后,休息了一会儿,就从临近的出口出去了。出来后竟不知去哪,随便乱逛了起来。话说在玄武区(尤其是总统府附近)还真是多民国遗迹,每走几步便遇到了民国旧宅。这些楼房至今还有人居住。 走着走着,发现不远处就是东南大学,于是又开动马力,前往下个目的地。 与南大一样,东南大学的历史感也很浓厚。不同的是,看得出来,这边建筑有着更多的西方古典气息和斯大林风格。 从东南大学出来,又是漫无目的地游走。经过了中科院地质古生物研究所和古鸡鸣寺,路上有不少穿汉服的女生,应该是参与樱花美食节的。 接着又到了明城墙下,一路上如来时那样的清风拂过,即使商业文化的存在也没有令我感到有任何喧嚣,只不过落霞的加入使得这座城市的底蕴更加凸显出来。真是非常舒服的行走…… 兜兜转转竟又回到了玄武门————出发的地方,离火车站也不远了,没想到是以这种方式回到南京站的。 早上出发,晚上回来,一天的行程结束了。

金陵一日游(0)

因为雨天,清明节当天哪也去不了。于是和室友选择了在清明假期的第二天前往南京游玩。巧的是,来自南昌的一个朋友去了南京,比我早两个小时到达。不过时间紧凑,也就没有会合计划。更巧的是,上火车的那一刻看见了实验室的一位学长,不过好像并没有在同一个车厢。

经过近三个小时的颠簸,终于到达南京站,我认为旅途中所花的时间并不算长,如果能有直达高铁,那当然又更好了。多次在火车上的观察告诉我,大城市周围,尤其是快到站的时候,观感是真的不好,废弃的建筑材料乱堆乱放,板棚房随处可见,可能由于我去的城市的城郊都属于建设阶段 → →

出站后,传说中美丽的南京站好像有点让我失望,并没有以前在网上看到网友说的那种惊艳感觉。南京站前的玄武湖由于雾天原因也逊色不少。

其实,出发前我们并没有什么计划,几乎就是随缘,跟随着走到哪算哪的感觉。下站后,却不约而同地想到先到玄武门,然后坐地铁去鼓楼。其中有个小插曲,就是本想骑共享单车去玄武门,没想错过了路口,而环湖的道路不允许游客骑车或开车进去,于是就绕着玄武湖走到了玄武门。

没有做过多的计划,随心而走,惊喜自然也就接连不断了。没过多久,明城墙也就出现在了眼前。

一路上柳絮纷飞,清风拂过,感到很愉悦,还听到有人在公园里演奏乐器。之后转向了右边的树林,虽然温度升高不少,但走在里面十分凉爽。

到了玄武门后,发现附近正在举行樱花美食节,有不少游人。看到有些跟团游的大人,觉得我们真是自在。我对跟团游当然没什么意见,但导游把棋子举得高高的挡我视线,就不太友好了。

我们的目的地是鼓楼,并没对樱花美食节做过多探索,就出玄武门,穿过街道准备坐地铁去鼓楼。后来由于要换乘,刚好碰到了一大片共享单车,就又骑车走了。路上看到几个外国友人,貌似是自助游的,外国人独自来中国“探险”已不是新鲜事了。

快到南京大学鼓楼校区时,路边的建筑就已告示我这里接近目的地不远了。果不其然,栅栏上的校徽就是南大的。

接着就看到了一处校门, 并不大,就如普通巷子里的那种门。走进去后,右侧就是计算中心楼,再往前左转,竟就到了北大楼下。


经过一番走访,发现这里的楼都挺古旧甚至可以说是破旧,可至今仍在使用,还有些研究所研究院。你不知道里面可能就是研究加速器或是其他什么的。

肚子饿了,干脆就在南大食堂吃一顿好了。往南前进,看到了街道对面就是生活区。穿过街道要出校门,而发现这个校门才是这个校区的正门。

未完待续……

telescope-名字的由来

关于telescope,起初来源于和一个朋友间的一个隐晦交流。由于众所周知的原因,聊天软件telegram不能被直接访问。于是,在某种微妙的特色气氛中交流时,telescope成为了telegram的别名。 当朋友问我起一个什么域名好的时候,我顿时想起了这个名字,无意间将telescope定为了本站的名字。 telescope的中文翻译为望远镜(🔭),看似一个和我生活中不相关的东西恰好成为了一个有标志意义的意象。在我的初步而浅显理解中,它暂仅为“探索”之意。 恰巧的是,最近我玩了一个小游戏,名叫”OPUS地球计划”,讲的是寻找地球的故事,其中大部分时间就是用望远镜来探测可能为地球的星球。和前段时间火热的旅行青蛙一样无聊,不同的是剧情和音乐为它增色了不少…… 下面为wikepedia关于这个游戏的部分介绍:

《OPUS 地球计划》的故事是发生在数百万年后,人类因为科技进步而开始进行基因改造,但长久下来也造成基因上的缺陷,因为缺乏人类原始基因的记录,因此决定寻找已经成为神话的地球,希望找到弥补基因缺陷的方法。《OPUS 地球计划》主要通过游戏中的望远镜来探测太空,找寻可能是地球的行星,同时也会随着剧情发展解答游戏中的谜团。

telescope暂时就走到这里,接下来的更新或许有也或许没有……