CMS程序网 加入收藏  -  设为首页
您的位置:CMS程序网 > 知识库 > 正文
在hadoop 2.4.1下面怎么搭建hive 0.13
在hadoop 2.4.1下面怎么搭建hive 0.13
提示:

在hadoop 2.4.1下面怎么搭建hive 0.13

修改配置文件hive-env.sh中的以下几处,分别制定Hadoop的根目录,Hive的conf和lib目录
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/fulong/Hadoop/hadoop-2.2.0

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/home/fulong/Hive/apache-hive-0.13.1-bin/conf

# Folder containing extra ibraries required for hive compilation/execution can be controlled by:
export HIVE_AUX_JARS_PATH=/home/fulong/Hive/apache-hive-0.13.1-bin/lib
修改配置文件hive-site.sh中的以下几处连接Oracle相关参数

javax.jdo.option.ConnectionURL
jdbc:oracle:thin:@192.168.0.138:1521:orcl
JDBC connect string for a JDBC metastore



javax.jdo.option.ConnectionDriverName
oracle.jdbc.driver.OracleDriver
Driver class name for a JDBC metastore



javax.jdo.option.ConnectionUserName
hive
username to use against metastore database



javax.jdo.option.ConnectionPassword
hivefbi
password to use against metastore database

如何在ubuntu上安装hadoop2.4.1
提示:

如何在ubuntu上安装hadoop2.4.1

1、创建hadoop管理员帐号
直接在终端执行如下命令行:
1 sudo adduser hadoop
然后要求你设置hadoop帐户密码,这个命令是添加一个名为hadoop的标准帐户,我们需要的是管理员帐号
可以直接在图形界面下修改hadoop权限,将鼠标点击右上角的一个人头处,浮现列表,点击“用户账户”,解锁,然后更改为管理员权限

2、安装ssh服务
ssh可以实现远程登录和管理,详细情况请google百度
ubuntu默认并没有安装ssh服务,如果通过ssh链接ubuntu,需要自己手动安装ssh-server。命令行:
1 sudo apt-get install ssh openssh-server
3、ssh无密码验证登录
创建ssh-key,这里我们采用rsa方式,命令行如下:
1 ssh-keygen -t rsa -P ""
出现一个图形,出现的图形就是密码,不用管它
1 cat ~/.ssh/id_rsa.pub >> authorized_keys
然后即可无密码验证登录了,如下:
1 ssh localhost
退出命令行为:
exit
4、解压hadoop源码包
终端下进入hadoop源码包所在目录,使用复制命令把hadoop源码包复制到/home/hadoop下
1 cp hadoop-1.2.1.tar.gz /home/hadoop
然后解压,命令行如下
tar -xzvf *.tag.gz

5、配置hadoop的hadoop/conf下的hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml
配置hadoop-1.2.1/conf/hadoop-env.sh,命令行:
1 gedit /home/hadoop/hadoop-1.2.1/conf/hadoop-env.sh
ctrl + f 搜索到JAVA_HOME
把前面的#去掉,加上本系统jdk路径,保存退出
配置hadoop-1.2.1/conf/core-site.xml,命令行:
gedit /home/hadoop/hadoop-1.2.1/conf/core-site.xml
在hadoop新建hadoop_tmp目录,
将如下 之间的添加进入,保存退出







fs.default.name
hdfs://localhost:9000


hadoop.tmp.dir
/home/hadoop/hadoop-1.2.1/hadoop_tmp
A base for other temporary directories.



配置hadoop-1.2.1/conf/mapre-site.xml,命令行:
1 gedit /home/hadoop/hadoop-1.2.1/conf/mapre-site.xml.xml
将如下 之间的添加进入,保存退出







mapred.job.tracker
localhost:9001


配置hadoop-1.2.1/conf/hdfs-site.xml,命令行:
1 gedit /home/hadoop/hadoop-1.2.1/conf/hdfs-site.xml
将如下 之间的添加进入,保存退出







dfs.replication
1



至此hadoop的安装配置已经完毕,稍后的是hadoop的初次运行操作
6、格式化hdfs文件系统
进入hadoop-1.2.1
/bin/hadoop namenode -format

7、启动hadoop服务
/bin/start-all.sh
出现如下画面
jps
jps是查看java虚拟机运行的java线程
然后出现如下画面
不计jps,有五个hadoop相关线程,恭喜你,hadoop安装配置成功,运行正常。
然后可以退出hadoop。,以后再用时再启动,导入数据

信息检索的主要环节
提示:

信息检索的主要环节

信息内容分析与编码,产生信息记录及检索标识。组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。它按对象分为文献检索、数据检索和事实检索;按设备分为手工检索、机械检索和计算机检索。由一定的设备和信息集合构成的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘检索系统、多媒体检索系统等。信息检索最初应用于图书馆和科技信息机构,后来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,并与计算机应用技术相互交叉。

信息检索的热点
提示:

信息检索的热点

智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。知识挖掘主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。异构信息整合检索和全息检索在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。