三体人给智子刻录集成电路belike:



目前科技公司通常使用GPU集群进行大语言模型推理,但GPU的显存成本高昂,产能受限,能耗成本也不容小觑。近日,AI芯片初创公司Taalas为了提升大模型每秒能生成的token数量(TPS),使用硬连线(hard-wired)技术,直接将大模型的权重以DRAM级密度刻录到硅芯片上,实现存储与计算融合,克服了系统中数据通信开销,大幅提升芯片TPS。他们推出的首款产品HC1采用台积电6纳米制程,芯片面积高达815平方毫米,服务器功耗仅2.5千瓦,且支持LoRA微调。

当Taalas将Meta的Llama 3.1 8B模型集成到HC1上时,推理速度可达16960 TPS,约为英伟达B200的48倍。Taalas的芯片也可以组成集群,运行更大的模型。据Taalas称,他们已经通过30芯片的配置实现了DeepSeek-R1的推理运行,速度可达12000 TPS。

为了适应AI模型的快速发展,Taalas开发了一个平台,可将任何AI模型转化为定制芯片。接受一个全新的模型后,只需要2个月就能实现定制硬件。这样的定制芯片在运行AI模型时,速度比通用GPU快1个数量级,且成本、功耗更低。(wccftech.com

2 Likes

我看到很多人都在吹这个,我觉得有点抽象。模拟电路比数字电路更快是众所周知的(

1 Like

?和模拟电路有什么关系

2 Likes

其实最快的是红石电路:skull:

2 Likes

加几个雷石东直放站就不是了

4 Likes

并非,每16格就需要延时,最短时间单位是红时刻(0.1s),而且随便一个大点的元件(比如加法器)就会有一堆红石火把,每个都是1红时刻,体积一大还会卡
我之前搓的4位计算机的时钟发生器用的是漏斗计时器,一个时钟周期1秒多。。。

5 Likes

加个红石优化的mod就行了:face_savoring_food:

1 Like

红石大蛇

2 Likes

你说得对但是再优化也没跑mc的那块板上的电路快

4 Likes

我又不会做电路板。

1 Like