第(2/3)页 唐苏不管其他人了,她开始操作了。 她先进行了hadoop相关组件安装部署,主要是安装hive组件。 第一步完成之后,她开始使用python语言爬取数据。 唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。 第二步,爬取到了数据,唐苏开始提取有效数据,然后对数据进行格式转化,转化为json格式。这一步唐苏很熟练的完成了,因为以前就做过。 第三步,需要对数据进行清洗和分析。这一步是非常关键的一步。唐苏考虑了一下后,使用了java语言编写了用于数据清洗的mapreduce程序。清洗好数据之后,她将可用数据加载到hive数据库中,通过运行hql命令完成数据的分析与统计。最后在hive中执行sql脚本,查看表中的数据。 这一系列操作花了不少的时间,唐苏看到两个小时已经过去了。 她仅剩一个小时完成赛题。 第四步是完成数据可视化,唐苏思考了一下后分别采用柱状图,折线图,以及雷达图来输出自己分析的数据。 这次赛题的主题是对各地it行业从业人员的薪资情况进行对比分析,得出分析结果。 第五步,是写数据分析报告。 第(2/3)页