关于 NodeJs 处理超长字符串问题的分析

更新日期: 2023-02-12 阅读: 1.3k 标签: 字符串

问题:对于超大的 string V8不能支持


问题背景

在 Nodejs 计算服务中,对端上上报的内存信息二进制数据进行预处理+缓存时,遇到了一个奇怪的报错:RangeError: Invalid string length 。根据该报错信息,查找得知是字符串长度超过了 node.js 的限制,即 2^29-1 (约 5 亿+)个字符。整体流程如图所示。
关于 node.js string 的长度上限,主要和 V8 引擎「压缩指针」技术有关。按个人理解,其通过压缩指向变量的地址(64 位)中固定的 32 位的方式,从而减少引擎的内存占用。



代码细节

由于需要快速访问某地址,因此缓存的数据结构必须是个对象,即 INodeGraph。具体结构如下:

type IAddr = string;
// 内存图谱
declare interface INodeGraph {
[addr: IAddr]: IParsedNode;
}
// 内存节点信息
declare interface IParsedNode {
addr: IAddr;
// size, nodeType 等辅助信息
parentNodeAddr: IAddr[]; // addr
childNodeAddr: string[]; // addr
edgeMap: {
[addr: IAddr]: {
// 当前节点与父子节点之间的边(关系)的信息
};
};
}

我们目的很明确,就是实现这样一个 js 大对象的持久化存储,并且能够方便快速的转回 js object。为解决此问题,首先想到的能否利用 protobuf 替代 JSON 实现持久化。可惜的是 protobuf 并不适用于动态 key 的场景,它适用于处理数组中存储多个相似结构对象的数据结构。

随后尝试了减少对象中不必要的信息,即缩短对象的固定 key,例如用「pNode」取代冗长的「parentNodeAddr」。对于一个百万个键值对的 object 而言,虽然牺牲了代码的可读性,但在实际的 case 中,能承载的键值对数量大约多了 20%。
事实上回过头来看,更好的处理方式或许是用另外的 Map 存储对象的 key。例如 : 将 nodeGraph.parentNodeAddr 这个 key 最大程度缩短为 nodeGraph.p
声明 const GraphKey = { parentNodeAddr: 'p' } 保存一个 key 的映射,需要访问某属性时,使用nodeGraph[GraphKey.parentNodeAddr]


更进一步

上述手段只是治标不治本,对于 key 更多的大对象并不能彻底解决问题。因此在不改变项目整体架构的前提下(如使用图数据库/改用 go 开发等),提出以下两个最终方案:
方案 1:借助 Node.js C++ Addons 的能力,绕开 js string 的限制,将相关序列化逻辑交给 C++ 处理,并直接将处理好的引用树 js object 进行后续处理。

  • 优势:如果能实现,性能会获得优先提升;扩展了 Node.js 的能力
  • 劣势:实现难度大;维护可能是个问题

方案 2:生成引用树缓存时,拆分为多个较小的对象,分别进行序列化和存储,使用时再合并为一个大对象。

  1. 优势:无需 C++ 侧开发,难度更小;维护方便
  2. 劣势:合并对象需要额外的时间,这一步骤可能会让未命中缓存时的首次请求更慢


来源:https://www.cnblogs.com/yiyi17/archive/2023/02/09/17107397.html

本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!

链接: https://fly63.com/article/detial/12367

相关推荐

js中字符串截取的几种方式

众所周知,js提供了很多字符串截取的方式。下面主要介绍js中slice(),splice(),split(),substring(),substr()的使用和区别,主要介绍了JavaScript截取、切割字符串的技巧,需要的朋友可以参考

JavaScript:生成重复的字符串(字符串乘法)

看到一个题目要求写一个函数times,输出str重复num次的字符串。除了利用循环还有几种方法:递归,结合三元表达式更简洁。数组的 join() 方法。ES6的 repeat() 方法。ES6目前没有全部兼容。

js 字符串比较大小

数值是合乎常理的操作,其实字符串也可以比较大小;两个字符串比较大小,比较的是组成它们字符的ASCII码的大小,比较原则如下:比较的是字符的ASCII码的大小。

原生js去掉字符串2端空格Trim()方法总汇

在我们使用JavaScript编写脚本的时候,经常会遇到把字符串两边的空格进行清除,它不想其它语言会有内置方法函数处理,js需要我们自己代码来实现。如果用过jquery库的话,它提供了trim方法,我们可以直接使用。

JS判断字符串小括号是否成对合法

要判断()是否成对;运用栈的后进先出 的特点,定义一个空数组,作为栈;for循环遍历字符串,当遇到(的时候就把(添加到空数组最顶端,push方法,记录发现一个左括号;

js中String.prototype实现string过滤空格_字符串空格过滤

我们都知道prototype可以向对象上添加属性和方法,语法如下:object.prototype.name=value。这篇文章就是利用prototype,为字符串扩展过滤空格的方法

es6中新增的字符串方法

es6中新增的字符串方法:字符串模板用法${变量名}、字符串查找方法string.includes(要找得字符串)、检查字符串是否已xxx开头、字符串重复方法string.repeat(次数)、字符串填充string.padStart

js提取字符串中的数值

1.像生于1999年这样字符串中只含有一个整型数值的字符串,直接使用正则表达式将数字的字符删除掉就行:2.对于字符串中含有多数值,使用字符串的match方法,通过正则表达式提取字符串的所有数字(包含整数和小数):

ES6 字符串之模板字符串、标签模板、实用方法集

模板字符串:1.可写多行字符串 2.使用${}添加变量,模板字符串之中还能调用函数。标签模板的一个重要应用,就是过滤 HTML 字符串,防止用户输入恶意内容。

Js实现字符串压缩

字符串压缩。利用字符重复出现的次数,编写一种方法,实现基本的字符串压缩功能。比如,字符串aabcccccaaa会变为a2b1c5a3。若“压缩”后的字符串没有变短,则返回原先的字符串。你可以假设字符串中只包含大小写英文字母

点击更多...

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!