【导读】微软远程实习项目
本期主人公
实习生:C同学
实习地点:微软(远程)
参与项目:启德【善·任】名企实习项目
刚刚过去的暑假,我参与了为期一个月的微软远程实习项目,对人工智能的了解又多了一分。
工作内容:开发网页爬虫软件
这次在微软人工智能团队的实习是开发一个网页爬虫软件,提取关键的标题、主体以及图片等有关信息。我主要被分配到的任务是熟悉整个信息提取的代码框架以及之后对于代码的优化。在经过半个月导师的指导和自己的查疑解惑后,对于代码的结构和整体的框架有所把握,并对标题,主体文本以及图片标题提取等三个函数进行了优化。对于标题的函数添加了两个原先遗漏的网页范围,主体文本函数也扩大了搜索范围并且添加了无关信息的搜索关键词。在优化之后,增加了提取有效网页的数量,并且删去了一些不必要的广告信息。
自我挑战:IDE搭环境跑程序
因为web scrapping需要大量的page支持,一开始另外一个团队开发的在一个网页中提取博客的page的函数没有完成,我们团队就按网页字母顺序进行人工的搜索,近六千个网页,每个网页需要找到三个以上的博客。我被分到了一千五百个网页,原本以为需要耗费大量的时间搜索,最后仅仅只花了两天就完成了搜索,整个团队的人也都在第三天完成了全部的搜索。后来才知道这样数量的资料库原来只是杯水车薪,对于专业的团队来说处理大量的数据是必须需要面对的。
整个实习阶段最困难的阶段是最开始在IDE搭环境跑程序的时候。这次实习用的语言是python,IDE是pycharm,虽然以前读书的时候学过相关的内容但是之后这个语言是完全忽视的状态因为所有本科的功课都是使用java的,导致很多module和package是没有载入的。导师说搭环境是身为程序员必要的一个技能,在上手一个新的项目时,团队使用的package个人的电脑是不是兼容以及使用的软件版本是否正确都要有十足的信心和把握。在下载调试好内置的package之后,程序仍然不能运行。在调试多次无解后,询问导师,导师提供了几个文档供我参考。原来这个程序之中使用的几个package是需要呼叫cmd安装在电脑中,然后打开服务端才能使用的。在完成好这个部分的安装后,有一个自定义文件路径的问题又出现了,我的电脑搜索不到对应路径的文件,在经过长时间对软件版本以后module的检查后,发现移动文件到代码所属的文件夹可以解决这个问题。在经过长时间的努力后,代码的环境总算是搭好了,也能运行出需求的结果了。
本次项目的代码中使用了大量的正则以及python内置的bs语言是我以前从没有接触过的。导师与我分享,在做这次项目之前,他也很久没有接触python,对于以后的工作来说,遇到没有学过用过的语句乃至于整个语言都是很正常的。要如何通过手边的资源让自己在短时间内掌握需要的知识这个技能是做这个工作必不可缺的。他完全以一个过来人的身份直接告诉我解决的办法以及语句的用法,但是对于实习来说重要的不是一两个知识点的掌握,而是领会自我学习和领悟技能的能力。于是在理解代码的过程中遇到不熟悉的语句就返回到该语句或者函数的文档查询,学会如何使用该语句。最后我大部分理解了整个框架,并使用不熟悉的语言完成了本次优化。
未来规划:以AI作为求职方向,磨练编程水平
在未来规划方面,我还是会以AI为主要的求职方向,这也是我选择这个实习项目的原因之一。因为自己学的专业是Electronic and Information Engineering,是编程以及EE的混合专业,在本科之前要主要做的项目是心理学以及人机交互的课题研究,这几个方面都是AI相关的。在这次实习后越来越发现AI的研发目前还是看重编程的能力,在今后自己还是要多磨练自己编程的水平。
团队里面的导师和其他组员都很乐于助人,工作效率也很高,尤其是带我的导师让我学到了很多。作为一个新人,在团队里要保持一个谦虚的态度,不能一碰到问题就问,要先尝试这自己通过手边的材料进行解决。但是保持沟通和反馈也是非常重要的,遇事不能拖拉,就算是还没有完成任务,也要及时的反馈和交流碰到的问题。
免费获取留学规划方案,您可以通过以下4种方式联络我们:
1、欢迎致电启德教育客户服务中心400-1010-123;
2、欢迎 点击这里 进行网络咨询;
3、添加启德官网微信,可立即咨询;
扫一扫 立即咨询
4、填写表单,我们会在1-3天内为您提供专业的服务。
手机请直接输入:如1860086xxxx
座机前加区号:如01059992xxxx
请输入您的电话号码,点击通话,稍后您将接到我们的电话,该通话对您完全免费,请放心接听!