加入收藏 | 设为首页 | 会员中心 | 我要投稿 温州站长网 (https://www.0577zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

telling/全栈数据主要技术点

发布时间:2022-12-03 10:33:00 所属栏目:大数据 来源:互联网
导读: 全栈数据,主要技术点
用技术催眠自己
任柳江 《全栈数据之门》作者2017.06.25
1. 平台技术分布式计算平台 (Hadoop)深度学习平台(GPU)
重点:环境搭建,部分做数据分析的人,可能会卡在环

全栈数据,主要技术点

用技术催眠自己

任柳江 《全栈数据之门》作者2017.06.25

1. 平台技术分布式计算平台 (Hadoop)深度学习平台(GPU)

重点:环境搭建,部分做数据分析的人,可能会卡在环境的搭建上,主要需要Linux技能。

2. 全栈基础SQL技术Linux及Shell, vim/find/grep/sed/awk/git统计、概率基础编程能力(以工程为导向)大数据框架数据处理&算法笔记与文档(markdown)

重点:全面的熟悉数据科学中的知识点。

3. 分布式技术hadoop(hdfs&mr)Hive(sql)Spark(rdd,df,sql)SqoopHbase/Cassandra采集与消息队列:Flume/Kafka/Storm全文索引(solr, elasticsearch)

重点:熟悉处理海量数据的常用工具,存储与分析,每个工具的适用场景

4. 数据库技术MySQLPostgresqlMongoDBRedis

重点:数据库是数据分析中最常用的依托,熟悉SQL语句,以及如果使用Python来进行数据处理。

5. 语言技术SQL语句(常用join语句)pythonpython2与python3的问题库:numpy, pandas, scikit-learn,nltk, pyltp, pyspark、anacondaR学术界,快速建模Scala、java

重点:学习语言,是自动化处理数据和建模的必备工具,SQL必备,Python与R至少需要熟悉一种。要工程应用,Python是必备。

6. 数据挖掘数据采集:rsync, api, MQ, 爬虫(scrapy)数据清洗:SQL,Linux,py,R特征工程:特征选择,特征变换算法建模:各种框架与算法模型评估:precision,recall,f1,mse应用与可视化

重点:了解数据处理的一些常用方法,理解特征工程的方法,熟悉主流挖掘算法的基本过程,会调用相应的库来建模,理解算法评估的常用指标。

7. 机器学习

聚类、分类、回归kmeans, knn, logistic regression, linear regression, navie bayes, 决策树、随机森林、神经网络、Xgboost

自然语言处理CRF、分词、识别、语义分析,word2vec,深度学习(cnn,rnn)

个性推荐,用户画像

深度学习应用(非结构化):图片,语音,视频,自然语言处理算法:auto encoder, cnn, rnn, lstm框架:tf/keras/mxnet/caffe/pytorch

遗传算法:优化,gp

重点:理解主流算法的应用场景及其主要参数,熟悉自然语言处理中一些基本的方法大数据堆栈,理解深度学习的主要思想,熟悉一、两个深度学习框架,能使用迁移学习做一些图片分类的任务。

8. Web与可视化Excel, matplotlib, seabornDjango/Flask,JS/Html5/css3(Web开发)superset(druid, mysql, postgresql, 简单易用的数据可视化界面)zeppelin(支持分布式环境的Web笔记)beakernotebook(ipython、jupyter,支持多种语言的Web笔记)Orange3(图形化的Web挖掘工具)airflow(Data pipeline监控)DataScienceStudio(基于Web的数据分析、建模工具)

重点:数据可视化工具,数据可视化挖掘工具,交互式笔记工具,事半功倍的工具,数据分析入门的好工具,个人珍藏收集。

9. Spark全栈RDD/DataFrameML/MLLibSQLStreamingGraphX(PageRank)spark/pyspark/sparkR

重点:当今世界最流行、不可多得的、分布式的,全栈数据处理、分析、挖掘环境。

10. H2O框架h2o-flow(基于Web的自动化建模环境)算法(drf, gbdt, word2vec,glrm)sparkling water(结合Spark的优势)deepwater(深度学习环境)steam(建模与部署一体化)

重点:如生命离不开水一般,简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度,高精度的算法产出。

(编辑:温州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!