第978章 她已经尽力了-《大小姐她不学习就会变丑》


    第(2/3)页

    唐苏不管其他人了,她开始操作了。

    她先进行了hadoop相关组件安装部署,主要是安装hive组件。

    第一步完成之后,她开始使用python语言爬取数据。

    唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。

    第二步,爬取到了数据,唐苏开始提取有效数据,然后对数据进行格式转化,转化为json格式。这一步唐苏很熟练的完成了,因为以前就做过。

    第三步,需要对数据进行清洗和分析。这一步是非常关键的一步。唐苏考虑了一下后,使用了java语言编写了用于数据清洗的mapreduce程序。清洗好数据之后,她将可用数据加载到hive数据库中,通过运行hql命令完成数据的分析与统计。最后在hive中执行sql脚本,查看表中的数据。

    这一系列操作花了不少的时间,唐苏看到两个小时已经过去了。

    她仅剩一个小时完成赛题。

    第四步是完成数据可视化,唐苏思考了一下后分别采用柱状图,折线图,以及雷达图来输出自己分析的数据。

    这次赛题的主题是对各地it行业从业人员的薪资情况进行对比分析,得出分析结果。

    第五步,是写数据分析报告。
    第(2/3)页