#大语言模型

07:36 · 2026年6月25日 · 周四

解码语言神经密码：人类大脑如何用神经元构建句子？

人类语言能将新信息以无穷多样的方式表达，通过将词语组合成复杂短语和句子，实现丰富含义的传递，这是人类认知的基础。然而，大脑中精确控制语言产生的微观细胞结构和皮层布局一直是个谜。近日，一项研究结合单神经元记录与自然语言处理模型，首次揭示了人类前额叶和颞叶皮层在语言产生过程中，如何通过精细的神经元活动编码语言信息。

研究发现，不同神经元承担不同任务：部分神经元编码词与词之间的语法关系或词性，另一些则追踪句子的更高阶句法结构、短语过渡和序列。这些神经元不仅捕捉词的句法和语义属性，还能动态整合具体句子语境，实现信息的高度组合与精细表达。更重要的是，语言编码能力在左半球显著偏侧化，且在不同皮层区域存在差异，表明语言功能由广泛分布的细胞群体协同完成。

该研究首次从细胞、局部群体和区域三个尺度，描绘了人类语言的大脑景观，为理解语言如何在大脑中编码提供了关键线索。不过，研究仍基于有限样本，且方法结合了实验与人工智能模型，未来需更多实验验证，以更全面揭示语言神经机制。

原来大脑里也有“语法老师”在指挥？🧠

来源：Nature

#语言神经科学 #大脑皮层 #句法编码 #人工智能辅助研究

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

语言神经科学大脑皮层句法编码人工智能辅助研究
21:43 · 2026年5月9日 · 周六

为什么让遵守人类法律的 AI 聊天机器人如此难以实现？

很多人已经把 AI 聊天机器人当成“随时在线的助手”：写作业、查资料、做计划，几乎什么都能问。但如果有人向 AI 询问的是违法甚至暴力的问题，责任该由谁承担？2026 年，美国佛罗里达州检方对 OpenAI 展开调查，原因是一起校园枪击案嫌疑人被指曾向 ChatGPT 寻求建议。这起事件并未指控 OpenAI 犯罪，却将一个长期存在的问题推到公众面前：为什么 AI 很难真正遵守人类的法律、伦理和价值观？

报道指出，目前主流的大语言模型并不是按“法律条款”或“道德原则”运作的系统，而是通过学习互联网上海量文本，来预测“下一个最可能出现的词”。为了降低风险，AI 公司通常在模型外部加上安全措施，例如关键词过滤、行为规则限制，以及通过人工反馈训练模型给出“更合适”的回答。但研究人员指出，这些措施更像是事后加上的防护层，而不是 AI 本身具备对意图和后果的理解能力。有意图的用户仍可能通过假设、虚构或绕弯的方式，避开现有的安全机制。

专家认为，这种结构性问题与 AI 的学习方式密切相关。大语言模型本质上是在做“模式补全”，并不真正理解语言背后的意义，也无法判断行为是否违法。过去曾流行的“规则型 AI”尝试让计算机严格遵守明确规则，但在现实世界中，情况过于复杂，规则几乎无法穷举。即使采用人工反馈训练或清理训练数据，这些方法也成本高昂，且效果有限。研究人员强调，这意味着 AI 目前还不能被视为具备法律或道德责任的主体，人类仍必须对其使用方式和后果承担最终责任。

AI 会模仿人类说话，但并不理解人类社会的底线 🤖

Nature 都在追热点了，我们也看看吧，晚安~

📖 Nature
🗓2026-05-07

#人工智能 #大语言模型 #AI安全 #科技伦理 #法律责任

Via：睡前消息

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

人工智能大语言模型 AI安全科技伦理法律责任
12:00 · 2026年5月4日 · 周一

来一点医学科学前沿🤯🤯🥹🥹

近半数 AI 聊天机器人医疗回答有问题：五大模型医疗准确性审计当你用 AI 聊天机器人问健康问题时，得到的答案靠谱吗？这项研究对这一问题进行了系统审计。随着 Gemini、DeepSeek、ChatGPT、Meta AI、Grok 等聊天机器人被大众广泛当作"搜索引擎"使用——包括查询日常健康和医疗问题——其回答质量却鲜有严格审查。研究人员在 2025 年 2 月对五大主流聊天机器人进行了压力测试：每个机器人回答 10 道来自癌症、疫苗、干细胞、营养和运动表现五个领域的问题，并使用对抗性提示策略（adversarial…

AI 已经能“像医生一样思考”了吗？一项顶级研究给出了冷静答案

很多人都有过这样的体验：看病时医生时间紧、信息不全，诊断往往依赖经验判断。那问题来了——如果把这些复杂病例交给 AI，它真的能做得更好吗？4 月底发表在《Science》的一项研究，首次把最新一代大语言模型，直接拉到真实医学场景中，与数百名医生“正面对比”。

研究团队评估了 OpenAI o1 系列模型在多种临床推理任务中的表现，包括《新英格兰医学杂志》的经典疑难病例、虚拟临床推理训练案例、真实急诊室患者，以及诊断和治疗方案制定等任务。结果显示，在多个实验中，o1 模型在诊断准确率、鉴别诊断质量和管理决策评分上，整体都高于住院医师和资深医生。例如，在 NEJM 疑难病例中，模型 78% 的情况下能把正确诊断纳入鉴别诊断；在真实急诊分诊阶段，模型给出“准确或非常接近正确诊断”的比例达到 67%，高于两位资深内科医生。研究并未深入解释模型“为什么”能做到这一点，只是指出其在信息有限、时间紧迫的场景下，综合文本信息的能力更稳定。

这并不意味着 AI 可以取代医生。作者明确强调，研究仅评估了文本推理能力，而真实医疗还依赖体格检查、影像、声音和情境判断。此外，这些结果主要来自内科和急诊医学，不能代表所有专科。更重要的是，目前研究只是“性能比较”，真正能否改善患者结局，还需要前瞻性临床试验。但可以确定的是，AI 作为“第二意见”的潜力已经非常现实，医疗系统需要开始认真思考如何安全地与它协作。

AI 已经在急诊分诊赢了医生，但离“真正看病”还差好几步 🤖🩺

📖Science ︱arXiv
🗓2026-04-30

#人工智能 #医学诊断 #大语言模型 #临床决策支持

Via：一往无前啊屁林

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

人工智能医学诊断大语言模型临床决策支持
13:00 · 2026年4月3日 · 周五

AI生成X片已经能以假乱真？

随着AI技术的发展，用大语言模型（LLM）生成逼真的合成医疗影像（即“深度伪造”或deepfake）已成为现实。这给医疗诊断带来了潜在风险，比如可能被用于误导诊断。一项新研究评估了放射科医生和多种大语言模型（LLMs）能否区分由ChatGPT生成的合成X光片与真实的临床影像。

研究团队邀请了17位来自不同国家的放射科医生，评估了154张影像（77张合成，77张真实）。结果显示，在不知情的情况下，41%的医生能识别出AI生成的影像。当医生被告知部分影像是合成的后，他们的准确率约为70%至75%，但不同医生之间差异不大。在LLMs测试中，GPT-4o和GPT-5能以85%和83%的准确率区分合成影像，而Llama 4和Gemini的准确率仅为59%和56%。合成影像的常见特征包括双侧对称、均匀的噪声或颗粒，以及过于平滑的软组织纹理和骨骼表面。

研究结论指出，无论是放射科医生还是当前的大语言模型，都难以轻易区分AI生成的合成影像与真实影像。这凸显了在医疗领域识别和防范深度伪造技术的紧迫性。研究强调，为应对这一挑战，需要加强对医生和LLMs的培训，并利用像DeepFakeXRay这样的专用数据集。不过，研究也指出，样本量或模型版本可能影响结果，未来仍需更多研究来验证这些发现。

放射科医生也怕“AI画”的X光片？😅

来源：Radiology

#AI医疗 #合成影像 #放射诊断 #Deepfake #大语言模型

via: 热心群友

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

AI医疗合成影像放射诊断 Deepfake 大语言模型
15:20 · 2026年3月8日 · 周日

医疗 AI 也会被误导——研究提示“像病历的错误信息”最危险

大模型正越来越多地被用于问诊分诊、病历总结和医学问答。但如果错误信息被包装得足够“像真的”，它们会不会照单全收？这项发表于 The Lancet Digital Health 的横断面基准研究，系统测试了 LLM 在医疗虚假信息面前的脆弱性。

研究团队评估了 20 个大语言模型，在 340 万条含医学错误信息的提示词中测试其易感性，错误信息来自社交媒体、临床笔记和模拟病例三类场景。结果显示，整体有 31.7% 的基础提示会让模型接受错误信息；其中临床笔记场景最危险，易感率高达 46.1%，显著高于社交媒体场景的 8.9%。不同模型表现差异明显，GPT-4 抗误导能力更强，而部分小模型和医学微调模型反而更容易“中招”。

这项研究最重要的提醒不是“模型不行”，而是医疗 AI 的部署不能只看答得像不像，还要看它在被误导时能否守住底线。未来真正关键的，可能是事实锚定、来源校验和上下文防御机制，而不是单纯更大的参数规模。

不是 AI 太笨，而是假病历太像真的——穿白大褂的谣言果然更危险。🩺🤖
📄 The Lancet Digital Health

#医疗AI #大语言模型 #医学虚假信息 #柳叶刀 #临床安全

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

医疗AI 大语言模型医学虚假信息柳叶刀临床安全
15:17 · 2025年7月27日 · 周日

大模型精准预测生理年龄，重塑健康管理

近日，发表在《自然-医学》上的一项开创性研究指出，大语言模型（LLMs）能够仅通过常规体检报告，精准预测个体的整体及器官特定生理年龄。这项研究开发并利用了基于LLMs的框架，并在超过1000万参与者的六个大型队列中验证了其有效性和可靠性，预示着未来个性化健康评估和疾病预防的新范式。研究表明，与传统方法（如端粒长度、衰弱指数、表观遗传年龄和机器学习模型）相比，LLMs预测的生理年龄在评估疾病风险方面表现出显著优势，例如全因死亡率预测达到0.757的一致性指数，并在预测冠心病、中风、肾衰竭以及其他20多种健康结局上表现更佳。

这项创新性的LLMs评估框架，不仅能提供全面且经济高效的衰老评估，还能通过“年龄差”（即生理年龄与实际年龄的差距）有效识别潜在健康风险。研究团队发现，年龄差与多种衰老相关表型和疾病风险紧密相关，例如加速衰老与全因死亡率的风险增加1.055倍。此外，LLMs还能动态评估衰老进程，并识别出与加速衰老相关的蛋白质生物标志物，其中超过一半是此前未被报道的新发现。

这项研究的突破在于，LLMs无需昂贵的基因组或表观遗传数据，仅凭日常健康报告即可进行高效分析，大大降低了衰老评估的门槛。其强大的泛化能力和实时学习特性，使其在大规模人群健康管理中具备巨大潜力，为个性化健康干预和精准医疗提供了全新的工具。尽管如此，目前该模型在老年人群中的泛化能力仍有待提升，且主要依赖文本数据，未来有望整合更多模态数据以实现更全面的衰老评估。

以后体检完，AI直接告诉我“你比实际年龄老了五岁，该运动了！”——这感觉是福是祸呢？

Nature Medicine

#衰老 #大语言模型 #健康管理

衰老大语言模型健康管理

Search: #大语言模型