作者 | 李晓蕾
编辑 | 郑玄
贝贝调侃自己是一个「生僻字患者」。她的名字左边一个王,右边一个莹,意为「光洁像玉的石头」。在数字世界,这却是一个无法被计算机语言识别的生僻字,常常被显示为一个问号或者白色方块「⿰」,有时只能改用拼音「yíng」。
麻烦从未停止过。在买一根大葱都能扫码支付的时代,名字有生僻字的她,无法完成实名认证,是一个被线上支付隔绝在外的人。微信抢红包的热闹,支付宝、微信支付的便捷,在 2022 年 1 月 28 日之前,她都未曾体验过。
这样的权利是通过反复多次,长时间地沟通才重新找回的。贝贝一边找支付宝、微信客服反馈,一边找人民银行监管投诉寻找解决方案。最后通过绑定 3 个账户姓名一致银行卡的办法,才终于「变成了正常人」。
她把经历发在社交平台,2 年里,陆陆续续有相似经历的人和她互动。有相同困扰的人不在少数,据统计,名字中有生僻字的人大概有 6000 万。背后的原因是:在电子设备上可以无障碍使用的常用汉字大概在 3 万左右,也意味着,有超过 70% 的汉字被排除在数字世界之外。
这些生僻字往往暗藏着最初起名时,对人希望的寄托。被最多人提到的「由页」是美好,「华韦」是光亮,䶮意为「飞龙在天」。但在数字化越是深入的地方,这些寓意美好的生僻字带来的困扰就会越多。
从出生前在医院建档案,到上户口,办理身份证,银行卡,医院挂号,再到保研时信息录入学信网、玩游戏时的实名认证、乘飞机在线选座……有一个有生僻名的名字,生活中的困难几乎会伴随一生。一些人被迫改名、换姓。
在数字化时代,生僻字困扰的不止是人,还有地。有生僻字的地名,因为无法正常输入、显示而彻底消失在电子地图上。山东省潍坊市奎文区,在元明更替之际就已经存在的「贝亅 (zhī)」尔庄,就因为生僻字问题,两度更名,一开始叫则尔庄,后又在 2019 年更名为芝尔庄。存在 600 余年的「贝亅」就这样消失了。
中国从 1974 年,开始源源不断地帮助汉字「上网」,最先在计算机语言中通行的,是只有 26 个字母的英文,但汉字是表意文字,只有将字、形状、编码,三者一一对应,一个汉字才可能出现在数字世界。当编码或者字形不被系统所支持时,就成了数字世界的「门外汉」,被归类为生僻字。
除了让汉字有统一的编码之外,它仰赖输入法、手机厂商、APP 制造商的一套完整且成规模化的体系。生僻字带来的问题,很难依靠市场的商业选择而解决,「很少人会为了输入或者显示输入法而买单」。
50 年时间过去,变化正在发生。越来越多汉字拥有了数字世界的「身份证」,2022 年 7 月 19 日,国家市场监管总局批准发布《信息技术中文编码字符集》(GB 18030-2022 国标),收录的汉字已经达到 88115 万个。这其中,最重要的更新就是收录了公安人口信息专用字库新增的 614 个汉字。
今年 8 月开始,这将会作为强制性国家标准,政府服务和公共服务的信息产品都必须执行这一标准。而在这之前,这是一个很难衡量得失的产品改进,在做任何选择都要更考虑投入产出比的今天,一群人正在努力拉回这些被落下的名字。
01
一个名字带来的难题
云南丽江永胜县的一个傈僳族村子里,一群姓「鸭」的人最懂得生僻字为生活带来的苦楚。
在更换第二代身份证时,原本姓「nia」,字为「上鸟下甲」姓的村民们,集体将姓氏换成了鸭。
傈僳族有氏族文化,「nia」在他们的语言中,是鸟的意思。但曾经靠手写传承的氏族之名,在电脑系统中无法输入,让他们遭遇了办证件、出行、求学的困难。全村 700 多人,集体改名,姓「鸭」。
从那之后,这个有氏族文化的民族,姓氏就从天上飞的鸟,变成了地上跑的鸭。人们甚至找不到这个姓氏更改的由来,谁做的决定,谁定下了「鸭」这个字。在数字化升级的过程中,他们的名字被落下了。
一位村民提到了他们对此仍有避讳,不愿意让孩子继续姓「鸭」。
在越是信息化、数字化的时代,生僻字带来的难处就更加明显。
一位从英国回国的女生,因为名字中有生僻字无法输入,申请不到健康码,反复给大使馆打电话希望能特殊处理。回国后,无法实名做核酸检测也成了问题,最后跑了上海的四五家医院,才通过手填的方式才做上了当时随便在小区楼下就能做上的核酸检测。这次的困扰之后,她果断改掉了名字。
一部分人选择死磕。贝贝不愿意改名,但名字无法输入的问题必须要解决。
知道症状出现在哪里,贝贝就成了这个名字的专业「医生」。她几乎可以反射性地告诉同样因为这个名字而困扰的人,在各个场合输入「ying」字的诀窍:身份证 U+E362、安卓 U+2C386、搜狗输入法 U+E052。
这是她长期通过各种渠道反馈,才终于赢回来的名字。甚至在哪些银行,这个名字能通过什么方法办下银行卡,她也门儿清。名字同样有「王莹」的一位女生,至今都只能绑定父母的信息,才能正常使用微信。
侯先生名字有「㙟」字,他能使用的银行卡只有两张,一张靠拆字,一张靠拼音,「只能祈祷别出什么幺蛾子。」
也有人未能掌握要领,打不出自己的名字。只能在互联网上求救。用最原始的办法,让别人先用可以输入的键盘打回来,再进行复制。而在多数需要人脸识别的场合,他们多数情况会被拦住,向各种工作人员一遍遍解释。
蒋燡出生于 70 年代,在越来越多手机 APP 都需要实名认证的今天,生僻字带来的麻烦越来越大。
她曾遇到过在医院看病,门诊收费处可以打出名字,但医生的问诊系统却没有的情况。交得了钱却看不了病,得不到检查报告。这背后的问题是,即便是在同一个体系,使用的程序有差别,生僻字也照样会带来问题。
「数字化都已经很发达了,打出这个字不应该是一个很复杂的问题,毕竟科技在发展,生僻字不应该成为一个难题。」蒋燡说。
02
生僻字到底难在哪里?
让生僻字能被输入和显示,无障碍地穿梭于数字世界,需要依赖多方的意识与决心,也是一场不能以商业收益衡量的共谋。
一个生僻字变成「正常字」,从被找到,到考证、赋码、扩容国标、字形设计、再到最终的推广应用,中间是漫长的过程。只有从工信部电子工业标准化研究院、字库厂商、输入法、手机厂商,APP 制作方等软硬件厂商,中间各方彻底地打通,才有正常输入、显示生僻字的可能。
有时,生僻字只是被阻拦在赋码环节,都会折损大量的时间。
工信部电子工业标准化研究院中文信息研究室主任黄姗姗长期在跟汉字打交道,她说,一个字的编码依赖于国际标准化组织 ISO/IEC 10646 的工作,他们会对全世界各国提交的所有汉字进行统一编码,涉及不同国家之间的汉字细微差异和连接认同与查证,因此,生僻字赋码的过程非常复杂且漫长。
每年中国提交的汉字都在 1000 字左右,而负责给汉字编码的国际标准化组织,每年工作组只开两次会,「这次无法解决的问题就留到下次」。这就导致,一个汉字从提交到最终获得国际标准化组织认定的编码,基本都需要 4 至 5 年的时间。
生僻字编码的过程是漫长的,但用字的需求随着数字化的到来却更加紧迫。
搜狗输入法生僻字项目负责人辜海玻记得,他们拨通蒋燡电话时,她在电话的那头哽咽了,她觉得自己的需求受到了重视,问题有了被解决的可能性。
去年 11 月,搜狗输入法中新增了「生僻字征集」功能,希望征集在 8 万字新字库基础上,仍然无法打出来的生僻字。蒋燡迫切地希望新的公共字库中,能增加自己的名字,分别在第 1457、5528、7327 次重复提交了这个字。
她遇到的问题中,最显著的就是跨系统使用的障碍。尽管在公安、社保系统中,蒋燡的名字已经能显示,但在其他场合,例如银行、医院,这仍然是一个生僻字,无法通用。有一家银行曾经多次给她打电话说,银行已经能打出她的名字,但她不敢用,也不敢改,因为她担心这会打破现在的平衡,反而让要给她汇款转账的人无法继续正常使用。
受限于这样的机制,标准化研究院也在考虑,通过自主性更强的国家标准,先收录汉字解决未来的问题。
本质上,两者技术上工作并无大的差别。但新提交的生僻字有了一个更快速的响应流程,涉及到急用的人名、地名等,通过数据考察和有实际应用需求的汉字就会更早通过国家标准先流通起来。时间也能缩短到 2-3 年,甚至更短。
根本上,生僻字的问题要彻底解决,跨系统的显示才是棘手的问题。一部分机构为了解决用户的困扰,会通过不同的编码来登记名字,但这带来的问题是,一旦涉及到联网环节,又会造成一个接一个的差池。
从今年 8 月开始,随着将会强制执行新标准,过去各方落下的功课,也需要快速补足。建立统一的标准只是解决生僻字问题的第一环。
据不完全统计,汉字的总数约为 10 万个,其中仍有许多生僻字尚未被编码,但具有实用价值。数字世界的汉字从 3 万到 8 万,花了 50 年,而之所以从规则人要求把生僻字重新捡起来,大扩容,本身也在为了避免过去被忽视的生僻字会从「罕用」变成「不用」。
03
商业公司并不商业的选择
「适配需要成本,大家都不动,这件事就没有实现的可能」,搜狗输入法 2022 年去寻找厂商合作时,吃到了不少的闭门羹,「这不是我们 KPI 里最重要的事」。
尽管生僻字影响着 6000 万人的生活,但解决生僻字问题,却几乎带不来任何的商业利益。在互联网公司都在「降本增效」时,生僻字的改造很难被划在优先级更高的位置。
而此时,生僻字在搜狗输入法内部,已经与无障碍化的改造划上了等号。搜狗输入法 CEO 鲁剑告诉极客公园,从 2023 年开始,公司的 OKR 里面除了用户增长和商业价值之外,多了一项「社会价值」。
事实上,搜狗输入法至今一直处在亏损状态。「在腾讯内部做一个亏损产品,确实是有压力的」,鲁剑说。但好在,过去搜狗输入法做的通过眼睛控制输入的眼动仪,2022 年搜狗输入法重投入的「众声无障碍计划」,在社会价值层面都有其回报,也契合近几年腾讯力求的,投入更多钱做更多有社会价值的贡献。
这些支撑搜狗输入法去做市场上第一家快速响应投入到解决生僻字问题的商业公司。而随着新中文编码字符集将在今年 8 月 1 日开始强制执行,生僻字的解决开始变成一件「不得不」解决的问题。
从解决编码到让各个场景都支持,这是一条走了很久的路。
一群以商业银行、相关政府机构、微信支付宝相关人士,受生僻字所困扰的普通网友共同创建了的「生僻字交流群」。群从 1 个扩散到两个,如今已经超过 700 人,他们在群里提供尽可能的帮助,从各个平台如何解决生僻字认证,到具体的生僻字编码,在处理各类公共事务时可以采取的方法,在这里,可以围观到「一个普通人因为生僻字导致的充满麻烦的一生」。
事实上,系统对字符的支持分为数据库和客户端,能输入却未必能显示。腾讯搜狗输入法早在 2021 年 11 月就上线了「生僻字键盘」,这个特殊的输入法拥有笔画、拼音、「拼音+笔画」三种输入方式,帮助生僻字都能被打出来。但在不同的手机系统、电脑系统,甚至不同的 APP 中,显示仍然是一种麻烦。
让生僻字显示,手机厂商起至关重要的作用。鲁剑举了一个例子,集成生僻字虽然不会影响手机的运行,但假设字库分别搭载在各个手机软件中,一个 10M,100 个手机 APP 就会用掉 1 个 G,字库占据的内存就会指数级增加;但假设是厂商接入,那各个产品就可以直接调用厂商字库,「厂商一旦适配,下面的各个应用的适配就水到渠成,产生多米诺骨牌的效应。」
但问题仍未被完全解决。在未能有统一的国家标准时,「一字多码」的状况层出不穷。在不同系统之间,统一生僻字的代码一旦不相同,仍然会出现无法显示的问题。「王莹」在搜狗输入法使用的 PUA 码与户籍系统仍不相同,PUA 码(Private Use Areas)是解决未被 Unicode 标准收录文字,在某些特定场景使用文字的一种方法,搜狗输入法、乃至户籍管理系统中,都存在这样的 PUA 码。这样的状况同样需要时间去一一解决。
另外,8 万字的新标准还未能囊括全部的汉字。2023 年 4 月 20 日,腾讯联合工信部电子工业标准化研究院等发起的生僻字征集小程序,第一天就收到用户提交生僻字 1404 个。提交次数最多的是陕西知名的 biangbiang 面,有些人用手写,有些靠拍照,更多人参与进来试图让更多汉字留在中文数字世界。
这些都是问题正在被解决的信号——很多人也都不再需要主动或者被动地换掉名字。曾頔初中升高中时,正值全国统一更换户口本。工作人员找不到「頔」,就打成了「硕」,直到中考前夕这个错误才被发现,「差点耽误了高中升学」。折腾许久,换回来后,她的户口本上就多了一个她从未用过的曾用名:曾硕。
工作时她也有一个「替代名」,单位打卡机上也找不到頔,她只好选取别的汉字代替,胡乱选了「曾翟」,这个名字陪她打了四年卡。8 月新标准强制实施后,意味着生僻字问题有了第一条休止线,在数字化的世界中,像曾頔一样的人找到自己的名字未来就不再是问题,也不应该是问题。