如何不借助 contentEditable 实现富文本编辑器？¶

统计信息：字数 4585 阅读10分钟

问题¶

现在主流的web富文本编辑器几乎都是基于contentEditable的，我们之前的编辑器引擎就是基于TinyMCE魔改的，这个引擎目前只有我一个人负责。富文本编辑器是我们的核心业务，现在leader要搞一个专门的富文本编辑器团队，开发类似于Google docs那种不基于contentEditable的编辑器引擎，这完全是另一个级别的事情了，我找遍了全网也找不到类似还活着的开源项目。除了代码编辑器ace之外真的一无所获，有没有做过的大佬稍微讲一下思路，要实现那些关键组件？或者讲一下大家团队一开始是怎么入手的？

链接：https://www.zhihu.com/question/366666295/answer/976815981

解决¶

能提出这个问题，说明题主有过很仔细的思考。我尝试借此澄清一个大家入门 Web 富文本编辑时可能的误解吧：

在浏览器里，打开了 contentEditable 不等于**借助了** contentEditable。这是什么意思呢？

打开了 contentEditable，意味着页面这个区域内**具备了进行富文本编辑的能力**。
借助了 contentEditable，意味着**依赖了浏览器默认的富文本编辑行为**。

粗略看来，一个 DOM 元素加上 contentEditable 属性后，就大致具备了这些能力：

选区的拖选编辑和光标闪动支持
方向键控制时的默认行为
输入文字时的默认行为（牵扯到输入法）
复制粘贴时的默认行为（牵扯到富文本剪贴）

主流浏览器都会给你一套开箱即用的方案，让你用一行代码即可实现富文本编辑器。但天下没有免费的午餐，像这种最简单的方案就有传说中的不兼容的问题。比如同样一个加粗操作，没人规定浏览器是应该给文本套个 <b> 标签还是给 <span> 加个 font-weight:bold; 的 CSS 样式来实现（印象里 Chrome 是直接套 span 的，说好的语义化呢）。于是最后在 Chrome 和 Firefox 里互相编辑的产物，就必然是不可控、不可预期的了。很多人说富文本做起来很脏，这就是原因之一。

所以还是那句老话，完全依赖别人现成的技术是会被卡脖子的。相应地，Facebook 的 DraftJS 虽然不太好用，但代表了一种 React 思潮引领下的富文本新思路（大概率不是它首创，但这么说起来方便前端同学们理解），简单来说是这样的：

同样用 contentEditable，但只关心它的选区 (Selection) 状态。
输入文本时，以 nextState = f(selection, input) 理念计算出新状态。

这样看来，整个编辑器就像是一个 React 中的受控组件了。关键的受控行为大概包括这些：

按键输入被拦截，基于 f(selection, input) 计算出新状态
复制粘贴被拦截，基于 f(selection, input) 计算出新状态
DOM 更改被拦截，基于 nextState 单向地渲染出 DOM 状态

那么，还有哪些地方需要依赖 contentEditable 呢？其实就是和 Selection 强相关的东西：

**选区高亮状态**依赖 contentEditable，否则你需要自己渲染那个「拖蓝」区域。
**点击后的选中状态**依赖 contentEditable，否则你需要自己计算某个坐标下对应了哪个文字，意味着要自己去解析字体参数做文本排版，这是天坑。
**方向键操作后的状态**依赖 contentEditable，理由同上。

我相信看到这里，有经验的前端同学已经知道怎样开始尝试「不借助 contentEditable 的默认行为来实现富文本编辑器」了吧。当然，我已经挺久没做富文本了，上面一些概念可能与具体细节有些出入，欢迎大家指正。

注意，许多实际工程做起来，绝不是知道个原理就够了。富文本在细节层面有非常多麻烦的地方，除非实力雄厚如 Google，否则不推荐大家在商业项目里完全从头做起。具体可参考我的这个回答：有多大比例的前端工程师，能在合理时间内独立开发出一个足以商用的富文本编辑器？

具体到实际项目，ProseMirror 和 Slate 的框架化设计都很不错。我相信它们是开发「自主可控」的富文本编辑器时的正解。许多历史经验已经告诉我们，自主可控未必意味着完全自己从头写，而是要掌控对满足自己未来需求的控制权。在这小小的富文本编辑器里，不也是这样吗？

Last update: November 9, 2024