大小姐她不学习就会变丑_落月儿_第978章她已经尽力了

    第(2/3)页

    唐苏不管其他人了，她开始操作了。

    她先进行了hadoop相关组件安装部署，主要是安装hive组件。

    第一步完成之后，她开始使用python语言爬取数据。

    唐苏以前也去一些网站爬取过数据，这一步对于她来说难度并不是很大，这也是作为大数据专业的学生需要掌握的基本技能之一。

    第二步，爬取到了数据，唐苏开始提取有效数据，然后对数据进行格式转化，转化为json格式。这一步唐苏很熟练的完成了，因为以前就做过。

    第三步，需要对数据进行清洗和分析。这一步是非常关键的一步。唐苏考虑了一下后，使用了java语言编写了用于数据清洗的mapreduce程序。清洗好数据之后，她将可用数据加载到hive数据库中，通过运行hql命令完成数据的分析与统计。最后在hive中执行sql脚本，查看表中的数据。

    这一系列操作花了不少的时间，唐苏看到两个小时已经过去了。

    她仅剩一个小时完成赛题。

    第四步是完成数据可视化，唐苏思考了一下后分别采用柱状图，折线图，以及雷达图来输出自己分析的数据。

    这次赛题的主题是对各地it行业从业人员的薪资情况进行对比分析，得出分析结果。

    第五步，是写数据分析报告。
    第(2/3)页

第978章 她已经尽力了-《大小姐她不学习就会变丑》

第978章她已经尽力了-《大小姐她不学习就会变丑》