第128章手搓工具之神
洛北的思路很清晰:
语音识別有现成的开源方案,比如阿里的funasr。大语言模型现阶段不少,不过闭源居多,他可以先花点小钱调用gpt看看效果。伺服器嘛,先用自己电脑顶著,不上云端,先做离线录音,回宿舍再联网处理。
有了想法,说干就干。
虽然原理简单,实际做起来洛北发现,需要处理的细节不少。
一节课90分钟,如果上传无损的音频文件,体积高达几百b。如何调整比特率和採样把录音压缩得儘可能小又不影响识別,是门有技术的活。
不过洛北凭藉著“实用主义”的buff,只试了几次,很快就找到了最合適的参数。
然后是手机端预处理,再到伺服器文件存储,接著用funasr將语音转为文字。
再经过洛北搭建的工作流,搭配精心调校的提示词,传到大语言模型,返回指定的arkdown格式文字。最后再转换成word或者pdf格式的笔记。
而在这个过程中,提示词是重中之重,极大影响笔记的质量。
所以在网上也被大家称呼为“炼丹咒”,能炼出什么品质的丹药,还真就要看炼丹师们的调教水平了。
一开始,洛北给的提示词很简单:“你是一个专业的数学系助教,请將以下的课堂录音文本整理成结构清晰的笔记。要求:1.识別並修正数学术语的同音错误;2.使用tex
格式输出所有公式;3.提炼核心知识点去除口语废话;4.输出为arkdown格式。”
但试了几次,靠著“实用主义”的稟赋,他很快发现光这样是不够的。
所以洛北参考了网上范例,针对微积分这门课程,对提示词反覆做了很多调整,最后才得到满意的结果。
另外对於理工课程,老师需要经常板书公式,对於这些,光靠语音转文字,很难完全还原实际內容。
这是笔记助手的痛点。不解决这个问题,始终不能称之为真正的智能。
要根本解决,恐怕得靠视频+语音的双重识別,再输出ai才能实现了。但现在的视频识別技术基本都是闭源的而且要价不菲。
洛北决定迁回一下。他把录音设置为后台运行,然后加入时间轴拍照模式。生成笔记时根据拍照时间,在对应位置插入照片的板书,一定程度绕开了这个问题。
这样一番折腾,花了洛北大半周的时间。
这是笔记助手的第一版deo,因为洛北没有美工基础,没做酷炫的界面,主界面很简单:按钮“开始记录”,
周四上午,又是微积分课。
肖崖生无可恋地瘫在座位上:“完了,作业写得一塌糊涂,昨晚又梦见伍老头追著我问泰勒展开的题目,半夜给嚇醒了。”
他厚著脸皮蹭到洛北身边,说:“这次笔记详细一点好不好,求求了,北哥,义父,拜託拜託!”
洛北掏出手机,打开了界面还很简陋的app。
“这是啥”肖崖好奇。
“你的义父。”洛北语带双关。
这时,上课铃声响了。伍锡走进教室,开始狂飆板书:“今天我们讲定积分————”
他讲得唾沫横飞,语速极快。周围一圈人都在埋头狂记,肖崖就指望著洛北呢,结果看到洛北那是双手插兜,很悠閒地听课,只是偶尔拿著手机咔嚓拍下板书。