超1.5万温州市民热心教AI说温州话,这个年龄段过关率超低
“太感谢家乡父老的热情发声了!我们已经超预期完成原定目标了。”4月10日,“温州方言系统化采集工程”首席专家、温籍学者姜淑珍告诉温度新闻,因为温州市民保护乡音的热情极高,报名人数现已超过1.5万人。据悉,报名人数还在持续增长中,该征集工程将于近日关闭报名通道,逐步收官。在这次征集过程中,研究人员也发现了许多有趣的现象。

姜淑珍教授 受访者供图
市民热情让征集超额完成
3月31日,媒体报道了本次“温州方言系统化采集工程”,用前沿科技定格温州话,建立永久“数字声音档案”,训练AI听得懂、说得出地道温州话。本次征集由浙大城市学院承办,浙江大学文学院指导,阿里巴巴AI data团队与国家语言文字推广基地(温州大学)联合支持。
报道刊发后受到许多市民的关注。浙大城市学院外国语学院教授,博士后合作导师姜淑珍作为首席专家,相继负责杭州话、温州话征集工程。据她介绍,报名人数在报道刊发当天破千并在此后几天稳步上升。“市民参与热情非常高,报名总人数已经超过1.5万,远超杭州话征集时的报名人数。”
AI挑战最难懂的温州话,你身边的老底子温州人参与这场挑战了吗?“真的挺有意思的。”许多网友在朋友圈晒出顺利通过测试的提醒短信截图。今年50多岁的市民项女士说,参加这个项目既能练习自己的温州话,也能帮助AI听懂温州话,是一件特别开心的事情。80多岁的市民朱老伯专门赶到温州市新闻传媒中心,带来自己梳理的好几页温州俚语。他希望将这些整理的资料分享给专家,朱老伯感叹,“很多温州的俚语再不保护,知道的人就越来越少了。”
姜淑珍教授介绍,截至4月9日15时,项目便累计征集录音时长3500小时,但有效时长还需要经过人工初筛+算法初审+人工复核三重检测才能最终确定,确保每一条语音都标准、可用。她笑言,温州市民的热情让研究团队成员有些“肝不动了”,工作量比原定计划大大增加。但考虑到温州话复杂度极高,为了让 AI更精准、更地道地学会温州话,也为了答谢市民的热情,主办方一度将征集总目标从原定的2000小时增加至4000小时,“但目前来看,我们的征集总目标时长预计将超过5000小时。”
为何征集限地域?
很多热心市民想参加项目,但一看征集范围仅限鹿城、瓯海、龙湾、瑞安、永嘉五个县(市、区)而被劝退。这是出于什么考虑呢?
姜淑珍教授介绍,考虑温州话内部差异实在太大,十里不同音。如果一次性全面铺开,口音太杂,很难统一标准,也无法保证采集质量。所以团队首期先聚焦核心城区,兼顾口音统一性与多样性,再把瑞安、永嘉等周边区域作为补充,先建立一套规范、严谨的采集与审核体系,为后续覆盖全市打下基础。
此外,本次征集文本,团队基本上按照鹿城的表达习惯来设计,即便对瑞安的发音人来说,也已经存在一定挑战。考虑到其他县市区的用词、发音习惯,跟温州市区差异更大,为了保证首期采集的规范性和准确度,所以暂时没有纳入本次征集范围。
20岁以下用户过关率低
虽然有超1.5万市民报名,但并非人人都能过关。除了地域限制在先,市民的温州话水平也各有高低。
姜淑珍教授介绍,从现有的征集来看,研究团队发现年龄差异非常明显。其中,40—60岁发音人地道度、稳定性最好,是最核心、最优质的语料来源。而20岁以下年轻人报名人数最少,而且过关率(不足30%)也是最低。这部分用户的不少发音已经普通话化,对传统用字、地道词汇掌握不足。这提醒我们,随着温州话的日常使用场景大幅收缩。很多00后、10后温州人只能听懂简单的日常用语,无法流利表达;不少老派发音、特色俚语,以及和传统民俗、生产生活相关的专属词汇,正在随着老一辈的离去快速消亡。
其次是高频错字高度集中,主要集中在一批温州话特有字上,比如爻、忒、恁、物事等。这些字口语常用,但书面少见。大家看到这些文本不知道该如何“对号入座”发音,所以用户念错、读偏的情况比较突出,也反映出温州方言在书面传承存在断层。
第三是内部差异大,即便在同一个片区,乡镇之间发音也有区别,这对文本准备、标注和审核要求很高。
此外,这次征集需要用户逐字逐句朗读,很多用户虽然发音准确但没有按标准朗读,这也是不能过关的一个常见原因。
有市民不舍“加密”温州话被AI破解
为了保护温州话,许多市民积极参与这一工程,但亦有市民不舍得“加密”温州话被AI破解。
对此,姜淑珍教授坦言,作为温州人非常理解市民的这份心情,这恰恰体现了大家对温州话的珍视与守护之心。从语言学学术标准和跨方言交流的实际体验来看,温州话是全国公认最难懂的方言之一。温州话保留了大量中古汉语的语音、词汇和语法特征,内部又形成了相对独立的演化体系,与普通话及国内多数方言的差异度都处于较高水平,因此对外辨识度极低,非母语者极难习得。温州话的难是语音、词汇、用字、语法多维度叠加的结果,这也是AI学习它门槛极高、必须依赖大量人工语料的核心原因。因此,广大市民贡献的真实语料尤为格外珍贵,姜淑珍教授率团队特别感谢每一位参与者对温州话的爱惜之情。她介绍,本次采集的所有语音语料,仅用于温州话保护、方言文化研究及AI方言能力建设,发音人隐私与数据安全均有严格规范与保障,请市民放心。她期待,让AI学习温州话,本质是用数字技术为方言续命、活化传承,让温州文化根脉在智能时代继续被使用、被听见、被下一代记住,比如未来智能设备、教育工具、公共服务都能支持温州话,帮助方言重新融入日常生活。
来 源:温度新闻
尤豆豆
本文转自:温州新闻网 66wz.com
相关新闻
为你推荐
-

对话温州园博园总体规划与园林设计负责人赵鹏:期待园博答卷被世界“批阅”
社会04-10
-

早育秧、抢农时!园博园门前3000亩早稻为盛会添绿增彩
社会04-10
-

古港公园邂逅桃源秘境 双“园”惊艳亮相
社会04-10
-

丽水古街:堤上长廊“丽”影浮波 人借山势“水”润一方
社会04-10
-

马鞍池公园“夜樱”迎来最佳观赏期 今年新增主题市集
社会04-10
-

楠溪江滩地音乐公园:千亩滩林“声”动蝶变 金色旋律“音”振八方
社会04-10
-

中雁牡丹园进入盛放期 200多个品种3万余株!
社会04-10
-

“饮水思源·助力共富”四年资助近200名库区学子共计55万元
社会04-10
-

“安居暖阳”再次照进深山 两位独居老人的旧房改造启动
社会04-10
-

春假带娃坐飞机省心了 温州机场推出亲子专属服务
社会04-10



