字:
关灯 护眼
岁月文学 > 股海弄潮 > 第386章 能读研报,还能写摘要

第386章 能读研报,还能写摘要

最新网址:www.wenxue.la
    2024年9月23日,星期一,上午九点。

    深圳,默石资本,技术部。

    这是陈曦暑假结束返回伯克利后的第三周。技术部的空气中弥漫着一种久违的兴奋——不是因为市场大涨,不是因为客户追加,而是因为星海平台的一次重大升级。陆方站在白板前,面前是一张他亲手绘制的系统架构图。密密麻麻的方框和箭头,标注着数据流、模型层、接口、缓存。他已经连续工作了整整十天,每天只睡四五个小时。但精神很好,因为那个卡了他三个月的难题,终于解决了。

    周寻坐在台下,手里端着一杯热咖啡。他今天没有加班,但来得比平时早。因为他知道,今天是星海3.5正式上线的日子。陈默站在门口,双手抱在胸前。他没有进去,只是安静地听着。沈清如也来了,站在陈默旁边。她知道,这是技术部的大日子,应该来看看。

    陆方转过身,面对会议室里的十几个人——技术部全体工程师,以及研究部、交易部的几位代表。他的眼袋很深,但眼神很亮。

    “今天,星海3.5正式上线。”他的声音有些沙哑,但每个字都很清晰,“新版本的核心升级是——大模型接入。现在,星海能自动阅读券商研报、提取关键信息,还能生成初步的研究摘要。效率提升了三倍,准确率也有提高。”

    他走到电脑前,点开一个界面。屏幕上是一份刚出炉的券商研报——关于某半导体设备公司的深度报告,全文二十几页,密密麻麻的图表和数据。他点击“星海摘要”按钮,屏幕右侧弹出了一个文本框。几秒钟后,摘要出现在文本框里——公司主营业务、核心产品、技术壁垒、财务数据、估值水平、风险提示,一条一条,清晰明了。台下有人低声说了一句“这么快”,也有人点头。

    陆方说:“以前,研究员读一份研报需要30分钟,写摘要需要20分钟,合计50分钟。现在,星海读研报需要30秒,生成摘要需要10秒,合计40秒。效率提升约75倍。但准确率不是100%。星海的摘要准确率现在是92%,意味着100份研报里,有92份摘要准确,8份有错误。所以,不能完全信任。需要人工复核。”

    周寻举手。“这个92%,是怎么测的?”

    陆方调出另一张图。“我们随机抽取了100份研报,让星海生成摘要,然后让研究员逐份核对。准确率92%,误差主要来自两个方面。第一,大模型的‘幻觉’——生成一些原文没有的数据。比如,某公司的营收增速是15%,星海写成18%。第二,语义理解错误——比如,把‘目标市占率’理解成‘实际市占率’。这两种错误,都需要人工复核。”

    周寻点头。“人机结合,永远是这样。”

    陈默从门口走进来,站在白板旁边。“这就对了。机器做它擅长的快,人做我们擅长的准。”

    陆方继续说:“下一步,我们计划把星海摘要的范围从券商研报扩展到上市公司公告、行业新闻、招股书。目标是在年底前,覆盖所有投研所需的中文文本。”

    陈默问:“幻觉问题,能彻底解决吗?”

    陆方想了想。“不能。因为大模型的本质,是预测下一个词。它不知道什么是‘事实’,什么是‘虚构’。所以,幻觉永远存在。我们能做的,是降低幻觉率,但不能归零。”

    陈默点头。“那就接受它。人机结合,它出活,人复核。”

    上午十点,研究部。沈清如带着研究员们测试星海3.5的摘要功能。她随机选了十份研报,让星海生成摘要,然后让研究员逐份核对。结果:十份摘要中,八份准确,一份有幻觉(把营收增速15%写成18%),一份语义理解错误(把“研发投入占比”写成“研发费用资本化率”)。准确率80%,低于陆方说的92%。她皱了皱眉,叫来陆方。

    “陆方,这十份的准确率只有80%。你测的100份是92%,为什么?”

    陆方看了一眼测试数据。“因为这十份研报里,有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中,港股研报的比例较低。”

    沈清如点头。“那就增加港股研报的训练数据。”

    陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”

    沈清如笑了。“她比我们当年强。”

    陆方也笑了。“对。”

    上午十一点,陈默办公室。沈清如推门进来,手里拿着测试结果。

    “星海3.5的摘要准确率,A股研报92%,港股研报80%。总体88%。”

    陈默接过报告,看了一遍。“88%已经很高了。人也就90%。”

    沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了,星海摘要也跟着错,我们就会踩雷。”

    陈默点头。“所以,不能完全信任。人机结合,它出活,人复核。”

    沈清如说。“我让研究员每天下午三点前,复核当天的星海摘要。错的地方标注出来,反馈给技术部优化模型。”

    “好。”

    下午两点,技术部。陆方收到研究部反馈的第一批错误数据。他打开日志,一行一行地看。幻觉——某公司营收增速15%,星海写成18%。语义理解错误——“目标市占率”理解成“实际市占率”。数据遗漏——某公司经营性现金流为负,星海摘要没提。他一一把问题记录下来,然后开始调参数。

    周寻走过来。“怎么样?”

    陆方头也没回。“幻觉率还是高。需要更多的训练数据。”

    周寻想了想。“让陈曦在伯克利那边多爬一些数据。英文研报也行,可以翻译成中文。”

    陆方点头。“已经在做了。”

    下午四点,陆方收到陈曦发来的一批新数据——5000份英文研报,覆盖美股、港股、A股。她写了爬虫,从公开渠道抓取,然后用开源模型翻译成中文。数据量有十几G,用云盘传了一下午。

    陆方给她发消息:“收到了。谢谢你。”

    陈曦回复:“不客气。星海3.5上线了?”

    陆方:“上了。准确率88%。”

    陈曦:“不错。继续优化,争取到95%。”

    陆方笑了。“好。”

    下午五点,陈默走进技术部。陆方正在调试模型,屏幕上是一行行代码。

    “进展如何?”陈默问。

    陆方转过身。“收到陈曦发来的5000份英文研报,正在清洗。下周可以加入训练数据,准确率应该能再提高。”

    陈默点头。“辛苦了。”

    陆方摇头。“不辛苦。比当年建星海容易多了。”

    陈默笑了。“当年,你们用了三年才把星海做到这个水平。现在,几个月就做到了。”

    陆方想了想。“因为技术在进步。大模型,比我们当年用的自然语言处理强太多了。”

    陈默看着他。“那你觉得,星海4.0会是什么样?”

    陆方想了想。“星海4.0,应该能自己写研报了。不是摘要,是完整的研报。分析、判断、结论,都能做。但准确率可能还是达不到100%,需要人工复核。”

    陈默点头。“那就够了。人机结合,永远是这样。”

    晚上,陈默和沈清如坐在书房里。窗外,深圳的秋夜安静而深邃。远处的平安金融中心,灯光在夜色中闪烁。

    “今天,星海3.5上线了。”沈清如说。

    陈默点头。“效率提升三倍,准确率88%。”

    “你觉得,它能替代研究员吗?”

    陈默想了想。“不能。因为研究不只是读研报、写摘要。研究是判断——什么重要,什么不重要;什么可信,什么不可信。这些,机器做不了。”

    沈清如看着他。“那研究员以后做什么?”

    “做机器做不了的事。判断方向、识别风险、与管理层交流、与客户沟通。这些,都需要人。”

    沈清如笑了。“所以,人不会失业?”

    陈默也笑了。“不会。但不会用机器的人,会失业。”

    沈清如点头。“你说得对。”

    陈曦的房间里,灯还亮着。

    2024年9月24日,星期二,上午九点。

    技术部晨会。陆方站在白板前,手里拿着马克笔。

    “昨天,星海3.5正式上线。测试结果:A股研报摘要准确率92%,港股研报80%,综合88%。效率提升75倍。”他在白板上写了几个数字:效率↑75倍,准确率88%。

    “下一步,增加训练数据。陈曦从伯克利发来了5000份英文研报,正在清洗。预计下周加入训练数据,准确率可提升至90%以上。”

    周寻举手。“港股研报准确率低,是因为训练数据少。我们已经安排人专门爬取港股研报,预计下个月数据量翻倍,准确率有望提升到88%以上。”

    陆方点头。“好。”

    陈默站在门口,听着陆方的汇报,转身离开。

    2024年9月30日,星海3.5的港股研报摘要准确率提升到了88%。A股研报摘要准确率提升到了93%,综合90.5%。陆方在月底复盘会上说:“星海3.5,达到了预期目标。效率提升75倍,准确率90.5%。下一步,我们要把摘要范围扩展到上市公司公告和招股书。目标:年底前,覆盖所有投研所需的中文文本。”

    陈默点头。“好。”

    2024年10月8日,星海3.5正式覆盖上市公司公告。研究员们发现,以前需要花半天时间读完的几十份公告,现在星海几分钟就能生成摘要。虽然偶尔会有幻觉和语义错误,但人工复核后,效率仍然提升了十几倍。

    研究员小赵感叹:“以前,我每天要花三四个小时读公告。现在,一个小时就够了。星海3.5,真的帮了大忙。”

    沈清如听到,对他说:“不要因为效率高了,就放松研究深度。省下来的时间,用来做更深的分析。比如,行业趋势、竞争格局、管理层变化。”

    小赵点头。“明白。”

    2024年10月15日,星海3.5正式覆盖招股书。这是难度最大的文本,因为招股书动辄几百页,信息密度高,专业术语多。陆方用了整整一周时间调试模型,准确率勉强达到85%。他有些沮丧,但陈默说:“85%已经不错了。人读招股书,也就90%。人机结合,它85%,人15%,够了。”

    陆方点头。“好。”

    2024年10月31日,星海3.5全面上线。覆盖研报、公告、招股书、行业新闻四大类文本。日均处理文本量超过1万份,效率提升超过50倍。准确率稳定在90%左右。

    陈默在月底复盘会上说:“星海3.5,是星海平台的一个重要里程碑。它证明了大模型在金融投研中的应用价值。但我们要清醒——它只是工具,不是主人。它犯的错,要人来纠正;它漏的信息,要人来补。人机结合,永远是这样。”

    他合上笔记本。“散会。”

    晚上,陈默和沈清如坐在书房里。窗外,深圳的秋夜安静而深邃。远处的平安金融中心,灯光在夜色中闪烁。

    “星海3.5上线了。”沈清如说。

    陈默点头。“效率提升50倍,准确率90%。”

    “你觉得,它会改变行业吗?”

    陈默想了想。“会。因为以前,研究员把大部分时间花在信息收集和整理上。现在,这些工作可以由机器完成。研究员可以把时间花在更有价值的事上——判断、决策、交流。这是行业的进步。”

    沈清如看着他。“那你觉得,陈曦回来以后,会用星海做什么?”

    陈默笑了。“她会用星海4.0,做我们想象不到的事。”

    沈清如也笑了。“也许。”

    陈曦在大洋彼岸,在伯克利的图书馆里熬夜写代码。她不知道星海3.5已经上线了,但她知道,她会回去,带着新东西,升级星海。

    她打开电脑,给陆方发了一条消息:“陆方叔叔,星海3.5怎么样了?”

    陆方秒回:“上线了。效率提升50倍,准确率90%。”

    陈曦:“恭喜!”

    陆方:“谢谢你的数据。5000份英文研报很有用。”

    陈曦:“不客气。还需要什么数据?我继续爬。”

    陆方:“港股研报。越多越好。”

    陈曦:“好。我明天开始爬。”

    陆方:“别太累。学业重要。”

    陈曦:“没事。我晚上写代码,不影响白天上课。”

    陆方笑了。“你比你爸当年用功。”

    陈曦也笑了。“那当然。”

    她关掉电脑,继续写代码。窗外,伯克利的夜,星光闪烁。她想起2019年,自己第一次来公司,画了那张产业链图谱。那时候,她才11岁。现在,她在伯克利,帮陆方爬数据、做模型。时间过得真快。

    她知道,她会回去。不是现在,是以后。等她学好了,带着新东西回去,升级星海。这是她答应爸爸的,她会做到。

    她伸了个懒腰,继续敲代码。窗外,夜色深沉,星光点点。明天还有课,但她不困。因为她在做自己喜欢的事。做喜欢的事,不会累。

    她笑了。
最新网址:www.wenxue.la
『加入书签,方便阅读』