第386章能读研报，还能写摘要_股海弄潮

最新网址：www.wenxue.la

    2024年9月23日，星期一，上午九点。

    深圳，默石资本，技术部。

    这是陈曦暑假结束返回伯克利后的第三周。技术部的空气中弥漫着一种久违的兴奋——不是因为市场大涨，不是因为客户追加，而是因为星海平台的一次重大升级。陆方站在白板前，面前是一张他亲手绘制的系统架构图。密密麻麻的方框和箭头，标注着数据流、模型层、接口、缓存。他已经连续工作了整整十天，每天只睡四五个小时。但精神很好，因为那个卡了他三个月的难题，终于解决了。

    周寻坐在台下，手里端着一杯热咖啡。他今天没有加班，但来得比平时早。因为他知道，今天是星海3.5正式上线的日子。陈默站在门口，双手抱在胸前。他没有进去，只是安静地听着。沈清如也来了，站在陈默旁边。她知道，这是技术部的大日子，应该来看看。

    陆方转过身，面对会议室里的十几个人——技术部全体工程师，以及研究部、交易部的几位代表。他的眼袋很深，但眼神很亮。

    “今天，星海3.5正式上线。”他的声音有些沙哑，但每个字都很清晰，“新版本的核心升级是——大模型接入。现在，星海能自动阅读券商研报、提取关键信息，还能生成初步的研究摘要。效率提升了三倍，准确率也有提高。”

    他走到电脑前，点开一个界面。屏幕上是一份刚出炉的券商研报——关于某半导体设备公司的深度报告，全文二十几页，密密麻麻的图表和数据。他点击“星海摘要”按钮，屏幕右侧弹出了一个文本框。几秒钟后，摘要出现在文本框里——公司主营业务、核心产品、技术壁垒、财务数据、估值水平、风险提示，一条一条，清晰明了。台下有人低声说了一句“这么快”，也有人点头。

    陆方说：“以前，研究员读一份研报需要30分钟，写摘要需要20分钟，合计50分钟。现在，星海读研报需要30秒，生成摘要需要10秒，合计40秒。效率提升约75倍。但准确率不是100%。星海的摘要准确率现在是92%，意味着100份研报里，有92份摘要准确，8份有错误。所以，不能完全信任。需要人工复核。”

    周寻举手。“这个92%，是怎么测的？”

    陆方调出另一张图。“我们随机抽取了100份研报，让星海生成摘要，然后让研究员逐份核对。准确率92%，误差主要来自两个方面。第一，大模型的‘幻觉’——生成一些原文没有的数据。比如，某公司的营收增速是15%，星海写成18%。第二，语义理解错误——比如，把‘目标市占率’理解成‘实际市占率’。这两种错误，都需要人工复核。”

    周寻点头。“人机结合，永远是这样。”

    陈默从门口走进来，站在白板旁边。“这就对了。机器做它擅长的快，人做我们擅长的准。”

    陆方继续说：“下一步，我们计划把星海摘要的范围从券商研报扩展到上市公司公告、行业新闻、招股书。目标是在年底前，覆盖所有投研所需的中文文本。”

    陈默问：“幻觉问题，能彻底解决吗？”

    陆方想了想。“不能。因为大模型的本质，是预测下一个词。它不知道什么是‘事实’，什么是‘虚构’。所以，幻觉永远存在。我们能做的，是降低幻觉率，但不能归零。”

    陈默点头。“那就接受它。人机结合，它出活，人复核。”

    上午十点，研究部。沈清如带着研究员们测试星海3.5的摘要功能。她随机选了十份研报，让星海生成摘要，然后让研究员逐份核对。结果：十份摘要中，八份准确，一份有幻觉（把营收增速15%写成18%），一份语义理解错误（把“研发投入占比”写成“研发费用资本化率”）。准确率80%，低于陆方说的92%。她皱了皱眉，叫来陆方。

    “陆方，这十份的准确率只有80%。你测的100份是92%，为什么？”

    陆方看了一眼测试数据。“因为这十份研报里，有两份是港股公司的。星海对港股公司研报的理解能力弱于A股。因为训练数据中，港股研报的比例较低。”

    沈清如点头。“那就增加港股研报的训练数据。”

    陆方说。“已经在做了。陈曦在伯克利那边也在帮我们爬数据。”

    沈清如笑了。“她比我们当年强。”

    陆方也笑了。“对。”

    上午十一点，陈默办公室。沈清如推门进来，手里拿着测试结果。

    “星海3.5的摘要准确率，A股研报92%，港股研报80%。总体88%。”

    陈默接过报告，看了一遍。“88%已经很高了。人也就90%。”

    沈清如在他对面坐下。“但幻觉问题还是存在。万一研报里关键数据错了，星海摘要也跟着错，我们就会踩雷。”

    陈默点头。“所以，不能完全信任。人机结合，它出活，人复核。”

    沈清如说。“我让研究员每天下午三点前，复核当天的星海摘要。错的地方标注出来，反馈给技术部优化模型。”

    “好。”

    下午两点，技术部。陆方收到研究部反馈的第一批错误数据。他打开日志，一行一行地看。幻觉——某公司营收增速15%，星海写成18%。语义理解错误——“目标市占率”理解成“实际市占率”。数据遗漏——某公司经营性现金流为负，星海摘要没提。他一一把问题记录下来，然后开始调参数。

    周寻走过来。“怎么样？”

    陆方头也没回。“幻觉率还是高。需要更多的训练数据。”

    周寻想了想。“让陈曦在伯克利那边多爬一些数据。英文研报也行，可以翻译成中文。”

    陆方点头。“已经在做了。”

    下午四点，陆方收到陈曦发来的一批新数据——5000份英文研报，覆盖美股、港股、A股。她写了爬虫，从公开渠道抓取，然后用开源模型翻译成中文。数据量有十几G，用云盘传了一下午。

    陆方给她发消息：“收到了。谢谢你。”

    陈曦回复：“不客气。星海3.5上线了？”

    陆方：“上了。准确率88%。”

    陈曦：“不错。继续优化，争取到95%。”

    陆方笑了。“好。”

    下午五点，陈默走进技术部。陆方正在调试模型，屏幕上是一行行代码。

    “进展如何？”陈默问。

    陆方转过身。“收到陈曦发来的5000份英文研报，正在清洗。下周可以加入训练数据，准确率应该能再提高。”

    陈默点头。“辛苦了。”

    陆方摇头。“不辛苦。比当年建星海容易多了。”

    陈默笑了。“当年，你们用了三年才把星海做到这个水平。现在，几个月就做到了。”

    陆方想了想。“因为技术在进步。大模型，比我们当年用的自然语言处理强太多了。”

    陈默看着他。“那你觉得，星海4.0会是什么样？”

    陆方想了想。“星海4.0，应该能自己写研报了。不是摘要，是完整的研报。分析、判断、结论，都能做。但准确率可能还是达不到100%，需要人工复核。”

    陈默点头。“那就够了。人机结合，永远是这样。”

    晚上，陈默和沈清如坐在书房里。窗外，深圳的秋夜安静而深邃。远处的平安金融中心，灯光在夜色中闪烁。

    “今天，星海3.5上线了。”沈清如说。

    陈默点头。“效率提升三倍，准确率88%。”

    “你觉得，它能替代研究员吗？”

    陈默想了想。“不能。因为研究不只是读研报、写摘要。研究是判断——什么重要，什么不重要；什么可信，什么不可信。这些，机器做不了。”

    沈清如看着他。“那研究员以后做什么？”

    “做机器做不了的事。判断方向、识别风险、与管理层交流、与客户沟通。这些，都需要人。”

    沈清如笑了。“所以，人不会失业？”

    陈默也笑了。“不会。但不会用机器的人，会失业。”

    沈清如点头。“你说得对。”

    陈曦的房间里，灯还亮着。

    2024年9月24日，星期二，上午九点。

    技术部晨会。陆方站在白板前，手里拿着马克笔。

    “昨天，星海3.5正式上线。测试结果：A股研报摘要准确率92%，港股研报80%，综合88%。效率提升75倍。”他在白板上写了几个数字：效率↑75倍，准确率88%。

    “下一步，增加训练数据。陈曦从伯克利发来了5000份英文研报，正在清洗。预计下周加入训练数据，准确率可提升至90%以上。”

    周寻举手。“港股研报准确率低，是因为训练数据少。我们已经安排人专门爬取港股研报，预计下个月数据量翻倍，准确率有望提升到88%以上。”

    陆方点头。“好。”

    陈默站在门口，听着陆方的汇报，转身离开。

    2024年9月30日，星海3.5的港股研报摘要准确率提升到了88%。A股研报摘要准确率提升到了93%，综合90.5%。陆方在月底复盘会上说：“星海3.5，达到了预期目标。效率提升75倍，准确率90.5%。下一步，我们要把摘要范围扩展到上市公司公告和招股书。目标：年底前，覆盖所有投研所需的中文文本。”

    陈默点头。“好。”

    2024年10月8日，星海3.5正式覆盖上市公司公告。研究员们发现，以前需要花半天时间读完的几十份公告，现在星海几分钟就能生成摘要。虽然偶尔会有幻觉和语义错误，但人工复核后，效率仍然提升了十几倍。

    研究员小赵感叹：“以前，我每天要花三四个小时读公告。现在，一个小时就够了。星海3.5，真的帮了大忙。”

    沈清如听到，对他说：“不要因为效率高了，就放松研究深度。省下来的时间，用来做更深的分析。比如，行业趋势、竞争格局、管理层变化。”

    小赵点头。“明白。”

    2024年10月15日，星海3.5正式覆盖招股书。这是难度最大的文本，因为招股书动辄几百页，信息密度高，专业术语多。陆方用了整整一周时间调试模型，准确率勉强达到85%。他有些沮丧，但陈默说：“85%已经不错了。人读招股书，也就90%。人机结合，它85%，人15%，够了。”

    陆方点头。“好。”

    2024年10月31日，星海3.5全面上线。覆盖研报、公告、招股书、行业新闻四大类文本。日均处理文本量超过1万份，效率提升超过50倍。准确率稳定在90%左右。

    陈默在月底复盘会上说：“星海3.5，是星海平台的一个重要里程碑。它证明了大模型在金融投研中的应用价值。但我们要清醒——它只是工具，不是主人。它犯的错，要人来纠正；它漏的信息，要人来补。人机结合，永远是这样。”

    他合上笔记本。“散会。”

    晚上，陈默和沈清如坐在书房里。窗外，深圳的秋夜安静而深邃。远处的平安金融中心，灯光在夜色中闪烁。

    “星海3.5上线了。”沈清如说。

    陈默点头。“效率提升50倍，准确率90%。”

    “你觉得，它会改变行业吗？”

    陈默想了想。“会。因为以前，研究员把大部分时间花在信息收集和整理上。现在，这些工作可以由机器完成。研究员可以把时间花在更有价值的事上——判断、决策、交流。这是行业的进步。”

    沈清如看着他。“那你觉得，陈曦回来以后，会用星海做什么？”

    陈默笑了。“她会用星海4.0，做我们想象不到的事。”

    沈清如也笑了。“也许。”

    陈曦在大洋彼岸，在伯克利的图书馆里熬夜写代码。她不知道星海3.5已经上线了，但她知道，她会回去，带着新东西，升级星海。

    她打开电脑，给陆方发了一条消息：“陆方叔叔，星海3.5怎么样了？”

    陆方秒回：“上线了。效率提升50倍，准确率90%。”

    陈曦：“恭喜！”

    陆方：“谢谢你的数据。5000份英文研报很有用。”

    陈曦：“不客气。还需要什么数据？我继续爬。”

    陆方：“港股研报。越多越好。”

    陈曦：“好。我明天开始爬。”

    陆方：“别太累。学业重要。”

    陈曦：“没事。我晚上写代码，不影响白天上课。”

    陆方笑了。“你比你爸当年用功。”

    陈曦也笑了。“那当然。”

    她关掉电脑，继续写代码。窗外，伯克利的夜，星光闪烁。她想起2019年，自己第一次来公司，画了那张产业链图谱。那时候，她才11岁。现在，她在伯克利，帮陆方爬数据、做模型。时间过得真快。

    她知道，她会回去。不是现在，是以后。等她学好了，带着新东西回去，升级星海。这是她答应爸爸的，她会做到。

    她伸了个懒腰，继续敲代码。窗外，夜色深沉，星光点点。明天还有课，但她不困。因为她在做自己喜欢的事。做喜欢的事，不会累。

    她笑了。

最新网址：www.wenxue.la

第386章 能读研报，还能写摘要

第386章能读研报，还能写摘要