建议提前检查,为yellow直接提醒运维去维护为green。不过我这边用的es6.2.3yellow是正常查询的。建议你检查一下环境配置应该不是yellow的问题。试了一下;为red都可以正常查询的(java代码查询结果和下图es-head查询结果一致)
,代码主要逻辑如下:// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
bulkRequest.add(client.prepareIndex("test", "all")
.setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
运行后发现一个问题,我100多万条的数据,导入到es中怎么生成了1000多万条,而且还是在没有完全导入的情况下
然后用小批量数据导入到es,再把这些数据导出来,发现有好多重复的数据
为什么会重复呢,原因是在每一千条提交一次代码这块,第一次一千条提交了,并没有把bulkRequest置空,所以第二次提交的时候,会提交两千条,包括第一次已经提交的一千条,然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据,搞清楚了原因,下面来说解决方法,主要有两种:
第一种就是在提交了一千条后,对bulkRequest进行重置,因为bulkRequest并没有重置的方法,所以可以新建一个bulkRequest,类似于重置,具体代码如下:
// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
bulkRequest.add(client.prepareIndex("test", "all")
.setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
//此处新建一个bulkRequest,类似于重置效果
bulkRequest = client.prepareBulk()
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话,即使数据重复了,因为_id是一样的,所以es会进行更新,这样的话并没有从根源上解决数据重复的问题,只是重复数据会更新,这样的话效率会慢,具体代码如下:
// 读取要导入数据的文件
BufferedReader br = new BufferedReader(new FileReader(
"D:\\test\\test.txt"))
String json = null
int count = 0
// 开启批量插入
BulkRequestBuilder bulkRequest = client.prepareBulk()
while ((json = br.readLine()) != null) {
//设置_id为count
bulkRequest.add(client.prepareIndex("test", "all",
String.valueOf(count)).setSource(json))
// 每一千条提交一次
if (count % 1000 == 0) {
bulkRequest.execute().actionGet()
//此处新建一个bulkRequest,类似于重置效果
System.out.println("提交了:" + count)
}
count++
}
bulkRequest.execute().actionGet()
System.out.println("插入完毕")
br.close()
登录后复制
建议使用第一种方法,效率会快很多。
如何与es交互取决于你是否使用Java,这里默认我们都是使用Java语言的。es为Java用户提供了两种内置的客户端。节点客户端(node client):
节点客户端是以无数据节点的身份加入到集群中,即它本身并不存储数据。但是它知道数据在集群中的位置,并且能够直接转发请求到对应的节点上。
传输客户端(Transport client) :
这个更轻量级的传输客户端能够发送请求到远程集群。它自己不加入集群,只是简单转发请求给集群客户端。
需要说明的是,两个Java客户端都通过9300端口与集群进行交互,使用es自己的传输协议。集群中的节点之间也通过9300端口进行通信。如果此端口未开放,你的节点将不能组成集群。
Java客户端所在的es版本必须与集群中其他的节点一致,否则,它们可能相互无法识别。
如果不是基于客户端的交互,该怎么办呢?es还为我们提供了基于http协议——以json为数据交互格式的restful API。通过9200端口与es进行通信,你甚至可以通过curl命令与es通信。
curl -x
'
://
总结一下就是大概有三种交互方式。两种是客户端(9300),一种是restful接口(9200)。
0
© 著作权归作者所有
推荐阅读
Ceph块存储-1·Client客户端使用
技术老男孩
阅读302
基于Telegram二次开发 --- MTProtoKit 架构
Google重度依赖者
阅读169
498. 【kubernetes】好用的 kubectl 命令
七镜
阅读665
506.【kubernetes】在 k8s 集群上部署 Minio Operator 和 Minio Plugin
七镜
阅读457
511.【kubernetes】部署 CoreDNS 服务
七镜
阅读511