我爱自然语言处理

↧

探索STEM教育的未来：评测Coursera课程《利用PhET互动模拟体验主动学习》

October 16, 2024, 2:20 am

课程主页: https://www.coursera.org/specializations/active-learning-in-stem-with-phet-interactive-simulations...

View Article

提升写作技能的课程推荐：学术英语写作培训

October 16, 2024, 2:20 am

课程主页: https://www.coursera.org/specializations/academic-english...

View Article

Image may be NSFW.
Clik here to view.

如何利用Coursera的《大学成功学术技能》课程提升您的学习能力

October 16, 2024, 2:21 am

课程主页: https://www.coursera.org/specializations/academic-skills 课程概述《大学成功学术技能》是由悉尼大学开设的一门课程，旨在帮助学生培养必要的学习技能，帮助他们在大学中取得优异成绩。在这门课程中，您将学习解决问题的策略、批判性思维技巧，以及提高沟通能力等，这些都是大学学习中不可或缺的能力。课程大纲...

View Article

课程推荐：会计数据分析课程回顾

October 16, 2024, 2:21 am

课程主页: https://www.coursera.org/specializations/accounting-data-analytics 作为一名学生，数据分析技能在现代会计中变得越来越关键。我最近在Coursera上完成了由伊利诺伊大学香槟分校（University of Illinois at...

View Article

探索3D打印与增材制造课程：转变创意为现实的艺术之旅

October 16, 2024, 2:21 am

课程主页: https://www.coursera.org/specializations/3d-printing-additive-manufacturing 大家好！今天我想和大家分享一个来自伊利诺伊大学香槟分校的神奇课程——《3D打印与增材制造》。爱好创意与技术的朋友们千万不要错过！...

View Article

深度解读：DeepSeek-R1——强化学习如何重塑语言模型的推理能力？

January 22, 2025, 2:17 am

前两天DeepSeek发布了DeepSeek R1的报告：技术报告原文：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 我让DeepSeek做了一件事，将其全文翻译为中文，以下是技术报告中文翻译版本，仅供参考： DeepSeek-R1-技术报告中文版-由deepseek翻译下载...

View Article

Kimi k1.5 报告解读及中文版技术报告

January 23, 2025, 8:47 pm

前几天Kimi 发布了k1.5，报告原文： https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf 以下是该论文的解读，由kimi辅助完成：这篇论文是关于 Kimi k1.5 的技术报告，详细介绍了一种基于强化学习（Reinforcement Learning,...

View Article

如何构建和优化推理型大型语言模型？DeepSeek R1的启示

February 8, 2025, 10:05 pm

前两天国外大模型领域知名博主 Sebastian Raschka 发表了一篇”理解推理大模型“的文章: Understanding Reasoning LLMs Methods and Strategies for Building and Refining Reasoning Models...

View Article

Native Sparse Attention（NSA）：重新定义长上下文建模的效率与性能

February 18, 2025, 6:59 am

编者注：DeepSeek团队的最新论文：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention 论文链接：https://arxiv.org/abs/2502.11089 值得一提的是，幻方科技、DeepSeek 创始人梁文锋也是论文的作者之一。以下是论文解读：引言...

View Article

Image may be NSFW.
Clik here to view.

Qwen2.5-VL：阿里巴巴新一代多模态大模型的技术突破与应用前景

February 20, 2025, 6:18 pm

近年来，多模态大模型（Large Vision-Language Models,...

View Article

DeepSeek-V3解析及技术报告英中报告对照版

March 3, 2025, 9:07 pm

在追求AGI的道路上，模型规模与训练成本的矛盾始终存在。DeepSeek团队前期发布的671B参数MoE模型DeepSeek-V3，以仅278万H800 GPU小时的惊人训练成本，在多项基准测试中达到闭源顶尖模型水平，开创了开源大模型的高效新时代。本文将深入解析其核心技术突破。一、架构创新：效率与性能的完美平衡 1.1 注意力机制再进化：MLA架构（图1：MLA与传统注意力机制对比示意图）...

View Article

Google DeepMind 发布多模态轻量级开源模型 Gemma 3：性能与功能全面升级

March 12, 2025, 5:07 am

近日，Google DeepMind 团队推出了 Gemma 3，一款多模态轻量级开源模型，它在 Gemma 系列中引入了视觉理解、更广泛的语言覆盖和更长的上下文处理能力。本文将深入剖析 Gemma 3 的技术报告，探讨其创新之处以及对人工智能领域的潜在影响。一、Gemma 3 的核心特性（一）多模态能力 Gemma 3 不仅能够处理文本数据，还具备视觉理解能力。它通过定制版的 SigLIP...

View Article

Qwen2.5-Omni：迈向通用多模态AI的里程碑——解读首个支持实时多模态输入与输出的统一模型

March 26, 2025, 7:34 pm

引言：多模态AI的终极追求人类通过视觉、听觉、触觉等多感官协同理解世界，并通过语言、动作等方式反馈。人工智能领域近年来虽在单模态模型（如大语言模型、视觉模型）上取得突破，但如何将文本、图像、音频、视频等多模态信息统一处理并实时交互，仍是技术难点。Qwen团队近期发布的Qwen2.5-Omni，首次实现了端到端的多模态感知与生成能力，支持实时流式输入输出，堪称迈向通用人工智能（AGI）的重要一步。...

View Article

Image may be NSFW.
Clik here to view.

基于飞桨框架3.0单机部署 DeepSeek-R1-Distill-Qwen-14B 实战

April 3, 2025, 12:11 am

飞桨框架3.0发布了，有很多新特性，包括但不限于： 1）动静统一自动并行：通过少量的张量切分标记，即可自动完成分布式切分信息的推导，Llama预训练场景减少80%的分布式相关代码开发。 2）大模型训推一体：依托高扩展性的中间表示（PIR）从模型压缩、推理计算、服务部署、多硬件推理全方位深度优化，支持文心4.5、文心X1等多款主流大模型，DeepSeek-R1满血版单机部署吞吐提升一倍。...

View Article