斯帕克(Spark)(Spark) 2.x+英特尔liJ IDEA 2017.3开发条件搭建和开发示范

 

【原创】Helenykwang 于2018-01-13 18:10:18编写

Git 版本控制器

(本文档由XDL教师黄超,使用马克(Mark)Down构建而成,转载请声明出处)

绝不maven,不用sbt,只需三个库

1.什么是Git

当今世界伊始进/最好用的分布式版本控制系统,没有之一

一、环境认证

集群:Spark 2.1.2 + hadoop2.3

开发机OS:win7

Jdk 1.8.0_151

下载jre即可
http://www.oracle.com/technetwork/java/javase/downloads/index.html

注:JDK是一个阳台特定的软件,有针对Windows,Mac和Unix系统的例外的安装包。
可以说JDK是JRE的超集,它包含了JRE的Java编译器,调试器和主旨类

scala 2.11.8
http://www.scala-lang.org/download/

IntelliJ IDEA 2017.3

spark 源码spark-2.1.2-bin-hadoop2.3

2.什么样是版本控制系统?

版本控制 — <<维基百科>>

版本控制是一种软件工程技术,能在软件开发的历程中,确保由不同人所编写的同一代码文件案都赢得同步.
版本控制能使项目标设计者,将品种苏醒到事先任意的图景,这种采取权在规划过程中特意重要.
辩驳上具备的音讯记录都得以加上版本控制:利用版本控制来追踪、维护源码、文件以及部署文件等等的变更


二、环境搭建

3.版本决定发展史

1. 基本配置

安装java、scala,配置环境变量JAVA_HOME、SCALA_HOME为对应安装路径

PATH后边添加%JAVA_HOME%\jre\bin; %SCALA_HOME%\bin

【WIN】%JAVA_HOME%

【Linux】$JAVA_HOME

在意:scala 安装路径不可以有空格,否则会报错

>>找不到或无法加载主类scala.tools.nsc.MainGenericRunner

检验标准

打开CMD,分别执行java、scala命令。

3.1 文件名艺术

往昔的软件开发过程,代码管理以手动和邮件等形式,文件命名及保存存在问题

如图 : 毕业杂文版本
图片 1

2. 装置配置AMDliJ IDEA 2017.3

最先化后,在file –settings 中添加scala插件,重启

3.2 集中式

概括库和工作区两部分:工作区编码,再上传至库的点子成功四个人搭档。
题材:工作机与库机需要联网才能决定版本,传输速度较慢。
图片 2

三、开发示范

3.2 分布式

每台电脑都有工作区和库自己控制版本,数据进一步安全,有逻辑上的焦点。
图片 3


1. 新建工程

其实这里选个java工程就行了,不用搞那么复杂,记住紧假如借助库java、scala、spark源码库添加好就行。

下图显示了创办工程时添加java-sdk、scala-sdk的经过。

创制一些必需的目录,我的demo的目录树如下:

在scala目录右键mark Directory as — Source Root

4.宽广版本控制系统

图 : 版本管理器的发展史

图片 4

这张图上分为了多少个时期 :

● 史前一代:1982年的RCS。现在你也许仍是可以在Unix的揭破包中找到它。


古典时期:1990年的CVS自身弱点已经过时;1985年的PVCS、1992年的clearcase(费用高昂、功效复杂沿用至今);微软VVS反人类;Perforace(广泛,Google里面最大代码管理器)


中世纪一代:SVN解决了CVS的问题,集中式领域王者。AccuRev(扶助分支合并让洋洋小卖部拜托cvs和clearcase)。


文艺复兴:BitKeeper(SUN集团大量施用),2002年Linux内核使用BitKeeper,二零零五年闭源时有人试图破解BitKeeper,于是出现了Git。

2. 增长spark源码倚重

从File – Project Structure 进入,添加Lib,按下图操作截至后,点击apply –
ok

文本树的外表库会产出以下四个:分别是java、spark、scala【重点强调唷~
三者缺一不可,其他随意】

Git问世

Git的首先个版本是Linux之父Linus
Torvalds亲手操刀设计和促成的(两周内用C写完),Linus不仅仅给出一个本来设计,并在向世人介绍Git时一目精晓批评了CVS和SVN等,Git消除了分层和集合的担惊受怕。很多巨型开源项目由SVN迁移至Git。

二零零六年www.github.com也变成世界最大的SCM系统(软件配置管理),它使用的就是Git版本库的技术.从此Git成为版本控制系统的主流。

GitHub上的资深项目 :
Linux内核、安卓、jQuery、Bootstrap、Ruby …


3. 编写程序

新建一个scala文件斯帕克(Spark)(Spark)Demo.scala,代码如下:

package demo

importorg.apache.spark._

objectSparkDemo{

  def main(args: Array[String]): Unit = {

        val masterUrl = “local[1]”

        val sparkconf =
newSparkConf().setAppName(“helenApp”).setMaster(masterUrl)

        //spark配置,提出保留setMaster(local)

        //调试的时候需要,在实质上集群上跑的时候可在命令行自定义

        val sc = new SparkContext(sparkconf)

        val rdd=sc.parallelize(List(1,2,3,4,5,6)).map(_*3) 
//将数组(1,2,3,4,5,6)分别乘3

      rdd.filter(_>10).collect().foreach(println) 
//打印大于10的数字

        println(rdd.reduce(_+_))  //打印 和

        println(“hello world”)  // demo必备的一句代码!!! [认真脸]

  }

}

这会儿,scala编辑界面可能出现这句话,点击setup scala SDK就足以了。

倚重库添加成功的查看专业是,import org.apache.spark._不报错。

点击肉色三角形,run~

在console界面正常输出!(*^__^*)

5.Git的装置 和 基本配置

4. 打包jar包

一如既往是从老朋友File–Project Structure 进入,在Artifacts下添加jar。

留意:打包的jar包不需要把spark源码也搞进去的,因为集群上自我就有spark代码,所以就留下以下这五个文本即可~~~
点击apply –ok

在主界面,Build—Build Artifacts。初步编译~~~
编译OK后会多出一个out目录,里面有最终jar包

翻开主类,MANIFEST.MF文件内容如下:

Manifest-Version:1.0

Main-Class:demo.SparkDemo

5.1 安装

Linux安装

二进制包(在线)
yum -y install git //RedHat系列
apt-get git install //Debian系列
源码包(官网下载)

Windows安装

Git在Windows使用模拟条件msysgit
下载地址:
https://git-for-windows.github.io/
小心:假如想让windows作为git服务器则需要搭建ssh服务。


本课程使用windows版本来做示范:

设置步骤:

1.挑选设置路径
图片 5
2.拔取创制图标,拔取设置Git Bash和Git GUI
图片 6

3.摘取创建起头菜单
图片 7
4.增选:use git and optional unix tools from the windows command
prompt(红字指示)
图片 8

5.选择: windows-style
图片 9
6.拔取 : use mintty 默认终端
图片 10

7.选取 : 系统文件缓存 和 git的管理器(需要.net v4.5.1)
图片 11
8.点击 Install 安装
图片 12
9.设置完成,采取运行git bash工具


5. 集群上运行jar包

Jar包放到/home/hadoop目录下

>>spark-submit  –class demo.SparkDemo–master spark://:7077
project_name.jar

证实:–class <主类名>
最终跟的参数是大家的jar包。–master指定了集群master,中间还是可以自定义一些spark配置参数,例如:

–num-executors 100 \

      –executor-memory6G \

      –executor-cores4 \

      –driver-memory1G \

      –confspark.default.parallelism=1000 \

      –confspark.storage.memoryFraction=0.5 \

      –confspark.shuffle.memoryFraction=0.3 \

集群上运行成功~~~

5.2 配置

无论Linux仍旧Windows,安装完成后都要开端化

git config [--global] user.name "Your Name"
git config [--global] user.email "your@email.com"

 

中括号内的参数:

 --local 本地
    --system 系统
    --global 全局
    无参,则为当前库配置身份

 

总结

实则看了累累怎么maven工程、scala工程构建形式,其实龙岩小异,重点无非是java、spark、scala的依靠搞好,这才是基本问题。

专注版本一致性,包括:

· 开发机和集群的spark源码版本相同

· 开发IDE中scala插件和系统装置的scala和集群上scala版本一样

· scala 和spark 版本匹配。(spark2.x 相比较 1.x 有这么些例外,请使用scala
2.11+版本)

===================分割线=======================

踩过的坑 ~ (๑ŐдŐ)b,欢迎小伙伴们和自我分享碰着的题目 (*^__^*) ~

6. Git常用操作

荒谬集锦

阴差阳错意况:

命令行运行scala时,找不到或无法加载主类scala.tools.nsc.MainGenericRunner

出错原因:

scala安装目录出现了空格。

问题化解:

将Scala 移动到没有空格的文件夹下。重新安装SCALA_HOME。文件解决。

阴差阳错意况:

编写程序时,调用rdd.saveAsTextFile 报错NullPointerException

阴差阳错原因:

和hadoop文件输出配置有关,下个补丁,配置一下即可

釜底抽薪办法:

1)下载文件winutils.exe

2) 将此文件放置在某个目录下,比如D:\hadoop\bin\中。

3)在scala程序的一从头声明:System.setProperty(“hadoop.home.dir”,”D:\\hadoop\\”)

阴差阳错意况:

maven起头化工程时,连接https://repo.maven.apache.org/maven2过期失利

阴差阳错原因:

PC网络本身的题目。不可能访问外网。

釜底抽薪办法:

利用maven离线格局,手动把依赖库导入 <用户目录>\\.m\\
repository

Q:哪一天需要maven离线形式吧?

A:没有网络,只有本地库,又是用maven来保管项目,在编译或者下载第三方Jar的时候,老是去主旨仓库上电动下载,导致出题目。

1)    全局设置Work offline 如下图所示

2)    编辑 <用户目录>\\.m\\
settings.xml,写一行:<offline> true</offline>

6.1. 生成新的版本库

  1. 新建空目录
  2. 进去该目录—单击右键—采取Git Bash Here
  3. 弹出git的命令行工具
  4. 开头化该目录为版本仓库,键入 git init
  5. 显示 Initialized empty Git repository in xxxxxx
  6. ls -a 查看该目录下出现.git的隐没目录,即版本库
  7. 初步化完成

6.2.添加文(加文(Gavin))件到版本库

  1. 新建文件 1.txt

  2. 翻开当前版本状态

    git status     #查看当前版本状态
    

     

  3. 红字提醒有文件未跟踪(未参加版本控制)

  4. 在工具内输入以下,添加文(加文)件至版本库:

    git add 1.txt
    # 添加文件至缓存区
    git commit -m "描述"
    # 提交文件至版本库
    
    git add newfile1 newfile2 ...
    # 多文件添加
    git commit -m "描述"
    # 将缓存区的多次添加一次提交
    
    ps:
    git add .
    # 添加所有改动过的文件到缓存区
    git add --all
    # 添加所有文件到缓存区
    

     

  5. 进行完后,指示提交完成.

  6. git status 提示

    nothing to commit, working directory clean
    

     

  7. 至此最简便易行的增长文件到版本库已做到


— PS部分: Git 实现原理 —

  1. 干活区 : 就是程序员平常编写代码的公文夹
  2. 本子库 : 负责代码版本控制,就是.git隐藏目录
  3. 版本库原理图 :

图片 13

版本库包括:暂存区(index/stage),HEAD(指针),分支(默认为master主分支)等。

文件提交至版本库总共分两步:

1).git add filename # 添加至stage缓存区
2).git commit -m "描述" # 将stage的内容提交至版本库的master分支

 

实验:
修改文件->查看情形->
累加到缓存区->查看情形->
再次修改->提交->查看情形

查阅区别:
1). 修改文件->查看意况 :
显示红字,文件没在缓存区(工作区修改,还没有提交到缓存区)
2). 添加到缓存区git add . -> 查看状态 : 呈现绿字,已提交到缓存区
3). 继续修改文件->git commit -m "第1次修改 1.txt" ->
再度查看境况 : 显示红字:文件有改变未出席到版本库

4).
本次提交,只是提交了add到缓存区的情节,第二次修改的情节并不曾add到缓存区,所以版本库与工作区文件不一致.
5). 此时亟待将眼前的文书add到缓存区,再一次提交即可

— PS.部分截止 —


6.3.查看文件修改意况相关

git status
# 查看当前版本状态(是否修改)

 

修改文件测试以下 :

git diff
# 查看所有添加到缓存区的变更(工作区与版本库的区别)
git diff index.php
# 查看工作区文件和库文件区别
git diff --cached
# 查看所有已添加到缓存区,但还未commit的变更(缓存区与版本库的区别)

 

Git日志,分析日志构成 :

git log
# 查看提交历史
git log --oneline
# 以简短的方式查看提交日志

 


6.4. 本子回退

git reset --hard HEAD
# 将当前版本重置为HEAD(通常用于清空缓存区,或merge失败回退)

git reset --hard HEAD^   # 回退上一个版本
git reset --hard HEAD^^  # 回退上两个版本
git reset --hard HEAD~n  # 回退上n个版本

git reset --hard <commitid>
# 回退到指定版本,commitid根据log获取

 


6.5. 行事日志

git reflog
# 行为日志,显示所有提交,回滚等..
git ls-files
# 显示缓存区的所有文件

 


6.6. 撤销

目标:将从未提交至版本库的修改撤回。

  • 状态一 : 文件修改后并未添加至缓存区

    git checkout --filename
    # 在工作区撤销文件的修改
    

     

  • 情景二 : 文件修改已添加至缓存区

    git checkout HEAD [filename]
    # 撤回添加至缓存区的修改,不指定filename则撤回所有
    

     


6.7. 删除

git rm index.php
# 删除index.php文件
git rm --cached index.php
# 将index.php文件移出缓存区,但不删除( -r * 递归目录)
git rm -f 1.html
# 将缓存区中的1.html文件移出并删除

 


7. Git两个人合作

7.1. 赢得远程的版本库

可以行使两种办法来赢得远程版本库:

  • 在某个指定的文件夹下使用,即可取得远端版本库及代码

    git clone <远端版本库url> <本地存放该库的文件夹名>
    

     

  • 手动添加版本库,并拉取文件

    git init
    #初始化本地仓库
    
    git remote add <remote> <url>
    # 添加远程版本库 <remote>可自行取名,默认origin
    
    git remote -v
    # 查看远程版本库信息
    git remote show <remote>
    # 查看指定远程版本库信息
    
    git pull <remote> <branch>
    # 下载代码及快速合并
    

     


7.2. 推送分支代码

得到远端版本库后,可以在该地按常规的步子编辑 :
新建或转移文件–>添加至缓存区–>提交到版本库

此时,要想将地面版本库发给远端,只有commit提交是不够的.
还亟需下面的操作 :

git push <remote> <branch>
# 上传代码及快速合并

 

实践以上代码,会有报错 : 无法直接推送到远端的主分支

这儿,可以曲线救国,推送自己的分层到远端即可 :

git push origin master:dev

 

这时,推送成功!


8.Git分支管制

8.1. 查看版本库分支

git branch
# 显示本地分支
git branch -a
# 显示所有分支
git checkout 分支名/标签名
# 切换到指定分支或标签

 

8.2. 开立分支/删除分支

git branch 分支名
# 新建分支
git checkout -b dev
# 创建并切换到dev分支

git branch -d 分支名
# 删除本地分支 -D 强制删除

 

8.3. 统一分支

要将B分支合并到A分支里
请切换来A分支内,合并B分支的操作在A分支内举行

git merge 分支名
# 合并分支到当前分支 

 

8.4. 化解统一争持

多分支修改同一文件,合并或者现身争辨。争持部分用<<<===>>>表示

图片 14

缓解方法:
先手动修改争辩部分,再度提交即可。


8.5. 分支管理策略

图片 15


9. 用到代码托管系列

市面上知名的Git托管系统 :

以下以开源中国为例,来读书应用

9.1. 当地生成SSH密钥

1). 本地打开git bash
,cd切换来用户的家目录
2). 使用pwd来查阅目录是否正确
3). 使用 ssh-keygen.exe -t rsa
来生成SHA256的SSH密钥(按回车确认即可)
4). cd .ssh/
切换至ssh目录
5). ls 查看目录下文件
6). cat id_rsa.pub
查看生成的密钥,并复制

7). 打开git@osc开源中国,登录自己的账户.点选个人资料
8). 选择SSH公钥
9).
在添加公钥界面,将刚刚复制好的密钥粘贴进来,再自己取一个该密钥的名字,以便于分别管理

10). 本地新建一个索引,用于拉取远端版本库
11). 使用
git init起初化该目录
12). 使用git remote add origin <SSH地址>
来添加远程版本库

13). 使用git remote -v
来查看远程版本库信息
14). 使用git pull origin marster来拉取版本库及代码


Git常用命令速查

  • master 默认主分支
  • dev 默认开发分支

创造版本库

git init
# 初始化本地git版本库(创建新仓库)

git config --global user.name "xxx"
# 配置用户名

git config --global user.email "xxx@xxx.com"
# 配置邮件

git config --list
#查看当前配置列表

git clone <url>
# clone远程仓库

 

修改、提交、删除

git add index.php
# 添加index.php文件到缓存区
git add .
# 添加所有改动过的文件到缓存区
git add --all
# 添加所有文件到缓存区

git commit
# 提交缓存区内的文件(回车后需要键入描述:wq保存退出)
git commit -m "描述"
# 提交缓存区内的文件,并提供描述

git commit -am '描述'
# 将add和commit合为一步
git commit --amend -m 'xxx'
# 合并最后一次提交(用于反复修改)

git rm index.php
# 删除index.php文件
git rm --cached index.php
# 将index.php文件移出缓存区,但不删除( -r * 递归目录)
git rm -f 1.html
# 将缓存区中的1.html文件移出并删除

 

查看

git status
# 查看当前版本状态(是否修改)

git diff
# 查看所有添加到缓存区的变更(工作区与版本库的区别)
git diff index.php
# 查看工作区文件和库文件区别
git diff --cached
# 查看所有已添加到缓存区,但还未commit的变更(缓存区与版本库的区别)

git log
# 查看提交历史
git log --oneline
# 以简短的方式查看提交日志

git reflog
# 行为日志,显示所有提交,回滚等..
git ls-files
# 显示缓存区的所有文件

 

回退 与 撤销

git reset --hard HEAD
# 将当前版本重置为HEAD(通常用于merge失败回退)

git reset --hard HEAD^   # 回退上一个版本
git reset --hard HEAD^^  # 回退上两个版本
git reset --hard HEAD~n  # 回退上n个版本

git reset --hard <commitid>
# 回退指定版本,commitid根据log获取

git checkout --filename
# 在工作区撤销文件的修改
git checkout HEAD [filename]
# 撤回添加至缓存区的修改,不指定filename则撤回所有

 

分段操作

git pull origin master
# 获取远程分支master并merge到当前分支

git branch
# 显示本地分支
git branch -a
# 显示所有分支
git checkout 分支名/标签名
# 切换到指定分支或标签

git branch 分支名
# 新建分支
git branch -d 分支名
# 删除本地分支 -D 强制删除

 

长距离协作

git remote add <remote> <url>
# 添加远程版本库
git remote -v
# 查看远程版本库信息
git remote show <remote>
# 查看指定远程版本库信息
git remote remove <name>
# 删除远程remote链接
git remote rename <old> <new>
# 重命名远程链接名

git pull <remote> <branch>
# 下载代码及快速合并

git push <remote> <branch>
# 上传代码及快速合并

git merge origin master
# 将本地的远端库合并

git fetch origin
# 将远端库获取本地但不合并

 

Post Author: admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注