主机论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 177|回复: 12

印度阿三搞出了自己的主权AI: Sarvam 105B

[复制链接]

42

主题

47

回帖

246

积分

中级会员

Rank: 3Rank: 3

积分
246
发表于 3 天前 | 显示全部楼层 |阅读模式
官方的“底气”:国产算力 + 海量数据
Sarvam AI 官方在 2026 年 3 月 9 日的最新声明中强调:

训练来源: 使用了印度政府 IndiaAI Mission 提供的 4,096 颗 NVIDIA H100 算力集群,耗时数月。

语料规模: 声明其 105B 模型是在 12 万亿(12T) Token 上从头练出来的,其中包含了极其大量的 22 种印度本土语言数据。

架构选择: 采用 MoE(混合专家模型) 架构,总参数 105B,但每次推理仅激活约 10B 参数。

===========开源社区态度=====================
社区发现 Sarvam 105B 使用了 MLA(Multi-head Latent Attention) 机制。这正是 DeepSeek-V3 能够平衡长文本性能与推理成本的核心秘籍。开发者社区目前的共识是:Sarvam 在架构设计上确实“深度参考”了 DeepSeek。
--------  一种技术,谁都可以用。

尽管它针对印度语做了优化,但部分开发者指出其对代码和通用英语的分词模式与 Qwen(通义千问) 的分词器重合度较高。这导致了“洗稿式训练”(Distillation)的嫌疑。
-------   这个嫌疑有问题,关键看重合比例。

Sarvam 105B 在处理印度语(如印地语、泰米尔语)时表现出了远超 Qwen 和 DeepSeek 的原生能力。这证明它确实投入了真实的国产数据进行大规模预训练或深度微调。
---------   这个说明不是纯换皮,多少有点东西,但不能证明,纯自研。
回复

使用道具 举报

1

主题

3073

回帖

6455

积分

论坛元老

Rank: 8Rank: 8

积分
6455
发表于 3 天前 | 显示全部楼层
回复

使用道具 举报

0

主题

267

回帖

894

积分

高级会员

Rank: 4

积分
894
发表于 3 天前 | 显示全部楼层
非常的印度
回复

使用道具 举报

108

主题

1011

回帖

2884

积分

金牌会员

Rank: 6Rank: 6

积分
2884
发表于 3 天前 | 显示全部楼层
回复

使用道具 举报

5

主题

849

回帖

2247

积分

金牌会员

Rank: 6Rank: 6

积分
2247
发表于 3 天前 | 显示全部楼层
很印度,也很中国。算是会抄作业了
回复

使用道具 举报

16

主题

2861

回帖

7012

积分

论坛元老

Rank: 8Rank: 8

积分
7012
发表于 3 天前 | 显示全部楼层
很正常,你开源出来他们就能抄作业,再弄点方言蒸馏下,嘿嘿
回复

使用道具 举报

5

主题

41

回帖

135

积分

注册会员

Rank: 2

积分
135
发表于 3 天前 | 显示全部楼层
中国 拆拿 搞出了自己的主权AI
回复

使用道具 举报

26

主题

322

回帖

1036

积分

金牌会员

Rank: 6Rank: 6

积分
1036
发表于 前天 09:38 | 显示全部楼层
其中包含了极其大量的 22 种印度本土语言

在印度作为母语使用的语言数量有1635种
回复

使用道具 举报

0

主题

2763

回帖

5844

积分

论坛元老

Rank: 8Rank: 8

积分
5844
发表于 前天 10:35 | 显示全部楼层
正常
回复

使用道具 举报

0

主题

1

回帖

4

积分

新手上路

Rank: 1

积分
4
发表于 前天 17:35 | 显示全部楼层
piping 发表于 2026-3-11 18:45
很印度,也很中国。算是会抄作业了

deepseek?印度就是明着抄,看看他们搞的仿制药
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|主机论坛

GMT+8, 2026-3-14 21:03 , Processed in 0.078609 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表