ElasticSearch Mapping映射 发表于 2016-10-19 | 分类于 ElasticSearch | | 阅读次数: 1. 概述为了能够把日期字段处理成日期,把数字字段处理成数字,把字符串字段处理成全文本(Full-text)或精确(Exact-value)的字符串值,Elasticsearch需要知道每个字段里面都包含什么数据类型。这些类型和字段的信息都存储在映射(mapping)中。 索引中的每个文档都有一个 ... 阅读全文 »
ElasticSearch 分析与分析器 发表于 2016-10-19 | 分类于 ElasticSearch | | 阅读次数: 1. 分析过程分析(analysis)过程如下: 首先,将一个文本块划分为适用于倒排索引的独立的词条(term) 然后对这些词进行标准化,提高它们的’可搜索性’或’查全率’上面的工作就是由分析器(Analyzer)来完成的。 2. 分析器组成分析器(Analyzer) 一般由三部分构成,字符过滤 ... 阅读全文 »
ElasticSearch 索引 发表于 2016-10-18 | 分类于 ElasticSearch | | 阅读次数: 1. 背景假设我们刚好在一家工作,这时人力资源部门出于某种目的需要让我们创建一个员工目录,它有以下不同的需求: 数据能够包含多个值的标签、数字和纯文本。 检索任何员工的所有信息。 支持结构化搜索,例如查找30岁以上的员工。 支持简单的全文搜索和更复杂的短语(phrase)搜索。 高亮搜索结果中的关 ... 阅读全文 »
ElasticSearch Java API之索引文档 发表于 2016-07-07 | 分类于 ElasticSearch | | 阅读次数: Index API 允许我们存储一个JSON格式的文档,使数据可以被搜索。文档通过index、type、id唯一确定。我们可以自己提供一个id,或者也使用Index API 为我们自动生成一个。 这里有几种不同的方式来产生JSON格式的文档(document): 手动方式,使用原生的byte[]或 ... 阅读全文 »
ElasticSearch安装与启动 发表于 2016-06-23 | 分类于 ElasticSearch | | 阅读次数: 1. 检查JDK版本使用如下命令检验JDK版本:xiaosi@Qunar:~$ java -versionjava version "1.7.0_40"Java(TM) SE Runtime Environment (build 1.7.0_40-b43)Java HotSpot ... 阅读全文 »
Python Numpy 数组 发表于 2016-05-17 | 分类于 Python | | 阅读次数: NumPy(Numeric Python,以numpy导入)是一系列高效的、可并行的、执行高性能数值运算的函数的接口。numpy模块提供了一种新的Python数据结构——数组(array),以及特定于该结构的函数工具箱。该模块还支持随机数、数据聚合、线性代数和傅里叶变换等非常实用的数值计算工具。 下 ... 阅读全文 »
Python 列表,元组与集合 发表于 2016-05-17 | 分类于 Python | | 阅读次数: 1. 选择合适的数据结构列表、元组、集合和字典是Python中最常用的复合数据结构,它们都属于容器类的数据结构。 (1) 列表 Python用数组的方式实现列表。列表的搜索时间是线性的,因此用列表来存储大量可搜索的数据是不切实际的。 (2) 元组 元组是不可变的列表,创建后就无法再更改。元组的搜索时 ... 阅读全文 »
Python 字符串操作 发表于 2016-05-17 | 分类于 Python | | 阅读次数: 字符串是 Python 中最常用的数据类型。我们可以使用引号(‘或”)来创建字符串。创建字符串很简单,只要为变量分配一个值即可。例如:s = "Hello World"print s # Hello World 1. 大小写转换函数大小写转换函数返回原始字符串s的一个副本: ... 阅读全文 »
Python 数据库操作 发表于 2016-05-17 | 分类于 Python | | 阅读次数: 1. MySQLPython使用数据库驱动模块与MySQL通信。诸如pymysql等许多数据库驱动都是免费的。这里我们将使用pymysql,它是Anaconda的一部分。驱动程序经过激活后与数据库服务器相连,然后将Python的函数调用转换为数据库查询,反过来,将数据库结果转换为Python数据结构 ... 阅读全文 »
Python 文件处理 发表于 2016-05-17 | 分类于 Python | | 阅读次数: 1. csv文件处理记录中的字段通常由逗号分隔,但其他分隔符也是比较常见的,例如制表符(制表符分隔值,TSV)、冒号、分号和竖直条等。建议在自己创建的文件中坚持使用逗号作为分隔符,同时保证编写的处理程序能正确处理使用其他分隔符的CSV文件。 备注:有时看起来像分隔符的字符并不是分隔符。通过将字段包含 ... 阅读全文 »