Dự án Web3 với khái niệm AI trở thành mục tiêu thu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân phối để phối hợp các nguồn cung tiềm năng trong dài hạn------ qua dữ liệu, lưu trữ và tính toán; trong khi đó, xây dựng một mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI trong ngành Web3 chủ yếu được sử dụng cho tài chính trên chuỗi (thanh toán mã hóa, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung lẫn nhau giữa hai bên: Web3 có khả năng chống lại sự tập trung hóa AI, và AI có thể giúp Web3 mở rộng ra ngoài.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được ấn nút tăng tốc, cánh bướm do Chatgpt khơi dậy không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh sinh mà còn tạo ra một làn sóng ở Web3 bên kia.
Dưới sự hỗ trợ của khái niệm AI, việc huy động vốn trong thị trường tiền điện tử có phần rõ rệt hơn mặc dù đang chậm lại. Các phương tiện truyền thông thống kê, chỉ trong nửa đầu năm 2024, đã có tổng cộng 64 dự án Web3+AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt số tiền huy động cao nhất 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, dữ liệu từ các trang web tổng hợp tiền điện tử cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD; lợi ích rõ ràng đến từ sự tiến bộ của công nghệ AI chủ đạo, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%; hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực thu hút tiền điện tử là Meme: MemeCoin đầu tiên mang khái niệm AI Agent ------ GOAT nhanh chóng trở nên nổi tiếng và đạt được định giá 1,4 tỷ USD, thành công trong việc khơi dậy cơn sốt AI Meme.
Nghiên cứu và chủ đề về AI+Web3 cũng đang rất nóng, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, cảm xúc FOMO rõ ràng đã không theo kịp tốc độ xoay chuyển của những câu chuyện mới.
AI+Web3, cụm thuật ngữ đầy tiền nóng, cơ hội và ảo tưởng về tương lai này, khó tránh khỏi việc bị xem như một cuộc hôn nhân do vốn chủ động sắp đặt, chúng ta dường như khó phân biệt được dưới lớp áo choàng lộng lẫy này, thực sự là sân chơi của các nhà đầu cơ, hay là đêm trước của sự bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là liệu có thể trở nên tốt hơn với nhau không? Liệu có thể thu được lợi ích từ mô hình của nhau không? Trong bài viết này, chúng tôi cũng cố gắng đứng trên vai những người đi trước để xem xét bức tranh này: Web3 có thể đóng vai trò như thế nào trong từng khía cạnh của công nghệ AI, và AI có thể mang lại điều gì mới mẻ cho Web3?
Phần 1 AI Stack dưới Web3 có những cơ hội gì?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ đơn giản hơn: "Mô hình lớn" giống như bộ não của con người, trong giai đoạn đầu, bộ não này thuộc về một đứa trẻ mới sinh, cần quan sát và tiếp nhận khối lượng thông tin khổng lồ từ thế giới xung quanh để hiểu thế giới này, đó là giai đoạn "thu thập" dữ liệu; do máy tính không có các giác quan như thị giác, thính giác của con người, trước khi đào tạo, thông tin không có nhãn từ bên ngoài cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" đã xây dựng một mô hình có khả năng hiểu và dự đoán, có thể coi đó là quá trình em bé từ từ hiểu và học hỏi về thế giới xung quanh. Các tham số của mô hình giống như khả năng ngôn ngữ của em bé đang được điều chỉnh liên tục trong quá trình học tập. Khi nội dung học tập bắt đầu được phân chia theo chuyên ngành, hoặc khi giao tiếp với con người để nhận phản hồi và sửa đổi, thì bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Khi trẻ em dần lớn lên và biết nói, chúng có thể hiểu ý nghĩa trong các cuộc đối thoại mới và diễn đạt cảm xúc cũng như suy nghĩ của mình. Giai đoạn này tương tự như "suy luận" của các mô hình AI lớn, nơi mà mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ em thể hiện cảm xúc, mô tả sự vật và giải quyết các vấn đề khác nhau thông qua khả năng ngôn ngữ, điều này cũng tương tự như việc các mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể sau khi hoàn thành quá trình huấn luyện, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói, v.v.
AI Agent thì ngày càng gần gũi với hình thức tiếp theo của mô hình lớn ------ có khả năng thực hiện nhiệm vụ một cách độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có khả năng ghi nhớ, lập kế hoạch và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, nhằm giải quyết những điểm đau của AI trong các stack khác nhau, Web3 hiện đã hình thành một hệ sinh thái đa tầng, liên kết với nhau, bao gồm tất cả các giai đoạn trong quy trình mô hình AI.
Một, Cấp độ cơ bản: Airbnb về sức mạnh tính toán và dữ liệu
▎sức mạnh tính toán
Hiện nay, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết để huấn luyện mô hình và suy diễn mô hình.
Một ví dụ là, LLAMA3 của Meta cần 16.000 GPU H100 do NVIDIA sản xuất (đây là một loại đơn vị xử lý đồ họa hàng đầu được thiết kế cho trí tuệ nhân tạo và tải công việc tính toán hiệu suất cao.) để hoàn thành đào tạo trong 30 ngày. Giá của phiên bản 80GB của nó dao động từ 30.000 đến 40.000 đô la, điều này đòi hỏi một khoản đầu tư vào phần cứng tính toán (GPU + chip mạng) từ 400 đến 700 triệu đô la, trong khi việc đào tạo hàng tháng cần tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng hàng tháng gần 20 triệu đô la.
Việc giải nén sức mạnh AI chính là lĩnh vực đầu tiên mà Web3 giao thoa với AI------DePin (Mạng cơ sở hạ tầng vật lý phi tập trung) hiện tại, các trang web dữ liệu đã liệt kê hơn 1400 dự án, trong đó các dự án chia sẻ sức mạnh GPU đại diện bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc thực thể sở hữu tài nguyên GPU không sử dụng đóng góp sức mạnh tính toán của họ theo cách phi tập trung mà không cần giấy phép, thông qua một thị trường trực tuyến cho người mua và người bán tương tự như Uber hoặc Airbnb, nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác hết; người dùng cuối cũng vì vậy mà có được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking cũng đảm bảo rằng nếu có vi phạm cơ chế kiểm soát chất lượng hoặc ngắt mạng, nhà cung cấp tài nguyên sẽ bị xử phạt tương ứng.
Điều đặc trưng là:
Tập trung tài nguyên GPU nhàn rỗi: Các bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập nhỏ và vừa bên thứ ba, các nhà khai thác mỏ tiền điện tử với tài nguyên tính toán dư thừa, phần cứng khai thác với cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án tập trung vào việc khởi động các thiết bị có rào cản gia nhập thấp hơn, như exolab sử dụng các thiết bị địa phương như MacBook, iPhone, iPad để thiết lập mạng lưới tính toán cho việc suy luận mô hình lớn.
Đối mặt với thị trường dài hạn của sức mạnh tính toán AI:
a. "Về mặt kỹ thuật", thị trường sức mạnh tính toán phi tập trung phù hợp hơn cho các bước suy luận. Đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do quy mô cụm GPU cực lớn mang lại, trong khi suy luận yêu cầu hiệu suất tính toán GPU tương đối thấp, như Aethir tập trung vào công việc render độ trễ thấp và ứng dụng suy luận AI.
b. Ở phía cầu, các bên có nhu cầu tính toán nhỏ sẽ không tự huấn luyện mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa, tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này tự nhiên phù hợp với tài nguyên tính toán nhàn rỗi phân tán.
Quyền sở hữu phi tập trung: Ý nghĩa công nghệ của blockchain là chủ sở hữu tài nguyên luôn giữ quyền kiểm soát đối với tài nguyên, linh hoạt điều chỉnh theo nhu cầu, đồng thời thu được lợi nhuận.
▎Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, việc tính toán giống như bèo trôi, hoàn toàn vô dụng, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out". Số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc huấn luyện mô hình AI hiện nay, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là hệ giá trị và sự thể hiện nhân văn của mô hình. Hiện tại, những khó khăn trong nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Việc đào tạo mô hình AI phụ thuộc vào đầu vào dữ liệu lớn. Tài liệu công khai cho thấy, số lượng tham số mà OpenAI sử dụng để đào tạo GPT-4 đã đạt đến mức hàng nghìn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời của dữ liệu, tính đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận các nguồn dữ liệu mới nổi như cảm xúc trên mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các bộ dữ liệu chất lượng, và đang áp đặt các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quá trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp web3 được thể hiện qua bốn khía cạnh sau:
Thu thập dữ liệu: Việc cung cấp miễn phí dữ liệu thế giới thực đang nhanh chóng cạn kiệt, chi phí mà các công ty AI trả cho dữ liệu đang tăng lên mỗi năm. Nhưng trong khi đó, chi phí này không được chuyển lại cho những người đóng góp thực sự cho dữ liệu, các nền tảng hoàn toàn tận hưởng giá trị tạo ra từ dữ liệu, như Reddit đã đạt được tổng doanh thu 203 triệu USD thông qua các thỏa thuận cấp phép dữ liệu với các công ty AI.
Web3 có tầm nhìn là để những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân phối và cơ chế khuyến khích, thu thập dữ liệu của người dùng một cách riêng tư và có giá trị hơn với chi phí thấp.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung chuyển để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token;
Vana đã giới thiệu một khái niệm độc đáo về hồ bơi thanh khoản dữ liệu (DLP), cho phép người dùng tải lên dữ liệu cá nhân của họ (chẳng hạn như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt chọn xem có cấp quyền cho bên thứ ba cụ thể sử dụng những dữ liệu này hay không;
Trên một nền tảng AI nào đó, người dùng có thể sử dụng #AI 或#Web3 làm thẻ phân loại trên nền tảng mạng xã hội và @ nền tảng đó để thu thập dữ liệu.
Tiền xử lý dữ liệu: Trong quá trình xử lý dữ liệu của AI, do dữ liệu thu thập thường bị nhiễu và chứa lỗi, nên trước khi huấn luyện mô hình, nó phải được làm sạch và chuyển đổi thành định dạng có thể sử dụng, bao gồm các nhiệm vụ tiêu chuẩn hóa, lọc và xử lý các giá trị thiếu. Giai đoạn này là một trong số ít các khâu thủ công trong ngành AI, đã phát sinh ra ngành nghề người gán nhãn dữ liệu, với việc yêu cầu chất lượng dữ liệu của mô hình ngày càng cao, tiêu chuẩn cho người gán nhãn dữ liệu cũng vì vậy mà tăng lên, và nhiệm vụ này tự nhiên phù hợp với cơ chế khuyến khích phi tập trung của Web3.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào khâu quan trọng là gán nhãn dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu được gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cược điểm để kiếm thêm điểm.
Quyền riêng tư và bảo mật dữ liệu: Cần làm rõ rằng quyền riêng tư dữ liệu và bảo mật dữ liệu là hai khái niệm khác nhau. Quyền riêng tư dữ liệu liên quan đến việc xử lý dữ liệu nhạy cảm, trong khi bảo mật dữ liệu bảo vệ thông tin dữ liệu khỏi việc truy cập, phá hủy và đánh cắp trái phép. Do đó, lợi thế công nghệ quyền riêng tư Web3 và các ứng dụng tiềm năng thể hiện ở hai khía cạnh: (1) Đào tạo dữ liệu nhạy cảm; (2) Hợp tác dữ liệu: Nhiều chủ sở hữu dữ liệu có thể cùng tham gia đào tạo AI mà không cần chia sẻ dữ liệu gốc của họ.
Các công nghệ riêng tư phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi tin cậy ( TEE ), chẳng hạn như Super Protocol;
Mã hóa hoàn toàn đồng hình (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network;
Công nghệ bằng chứng không kiến thức (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng không kiến thức cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một trong những khó khăn hiện tại là chi phí tính toán quá cao, một số ví dụ là:
khung zkML E
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Hiệu ứng hợp tác giữa AI và Web3: Xây dựng hệ sinh thái AI Phi tập trung
AI+Web3: Tháp và Quảng trường
TL;DR
Dự án Web3 với khái niệm AI trở thành mục tiêu thu hút vốn trên thị trường sơ cấp và thứ cấp.
Cơ hội của Web3 trong ngành AI thể hiện ở: sử dụng động lực phân phối để phối hợp các nguồn cung tiềm năng trong dài hạn------ qua dữ liệu, lưu trữ và tính toán; trong khi đó, xây dựng một mô hình mã nguồn mở cũng như thị trường phi tập trung cho AI Agent.
AI trong ngành Web3 chủ yếu được sử dụng cho tài chính trên chuỗi (thanh toán mã hóa, giao dịch, phân tích dữ liệu) và hỗ trợ phát triển.
Tính hữu ích của AI+Web3 thể hiện ở sự bổ sung lẫn nhau giữa hai bên: Web3 có khả năng chống lại sự tập trung hóa AI, và AI có thể giúp Web3 mở rộng ra ngoài.
Giới thiệu
Trong hai năm qua, sự phát triển của AI giống như đã được ấn nút tăng tốc, cánh bướm do Chatgpt khơi dậy không chỉ mở ra một thế giới mới của trí tuệ nhân tạo sinh sinh mà còn tạo ra một làn sóng ở Web3 bên kia.
Dưới sự hỗ trợ của khái niệm AI, việc huy động vốn trong thị trường tiền điện tử có phần rõ rệt hơn mặc dù đang chậm lại. Các phương tiện truyền thông thống kê, chỉ trong nửa đầu năm 2024, đã có tổng cộng 64 dự án Web3+AI hoàn thành việc huy động vốn, trong đó hệ điều hành dựa trên trí tuệ nhân tạo Zyber365 đã đạt số tiền huy động cao nhất 100 triệu USD trong vòng A.
Thị trường thứ cấp ngày càng sôi động, dữ liệu từ các trang web tổng hợp tiền điện tử cho thấy, chỉ trong hơn một năm, tổng giá trị thị trường của lĩnh vực AI đã đạt 48,5 tỷ USD, khối lượng giao dịch trong 24 giờ gần 8,6 tỷ USD; lợi ích rõ ràng đến từ sự tiến bộ của công nghệ AI chủ đạo, sau khi mô hình chuyển đổi văn bản thành video Sora của OpenAI được phát hành, giá trung bình của lĩnh vực AI đã tăng 151%; hiệu ứng AI cũng lan tỏa đến một trong những lĩnh vực thu hút tiền điện tử là Meme: MemeCoin đầu tiên mang khái niệm AI Agent ------ GOAT nhanh chóng trở nên nổi tiếng và đạt được định giá 1,4 tỷ USD, thành công trong việc khơi dậy cơn sốt AI Meme.
Nghiên cứu và chủ đề về AI+Web3 cũng đang rất nóng, từ AI+Depin đến AI Memecoin và hiện tại là AI Agent và AI DAO, cảm xúc FOMO rõ ràng đã không theo kịp tốc độ xoay chuyển của những câu chuyện mới.
AI+Web3, cụm thuật ngữ đầy tiền nóng, cơ hội và ảo tưởng về tương lai này, khó tránh khỏi việc bị xem như một cuộc hôn nhân do vốn chủ động sắp đặt, chúng ta dường như khó phân biệt được dưới lớp áo choàng lộng lẫy này, thực sự là sân chơi của các nhà đầu cơ, hay là đêm trước của sự bùng nổ?
Để trả lời câu hỏi này, một suy nghĩ quan trọng đối với cả hai bên là liệu có thể trở nên tốt hơn với nhau không? Liệu có thể thu được lợi ích từ mô hình của nhau không? Trong bài viết này, chúng tôi cũng cố gắng đứng trên vai những người đi trước để xem xét bức tranh này: Web3 có thể đóng vai trò như thế nào trong từng khía cạnh của công nghệ AI, và AI có thể mang lại điều gì mới mẻ cho Web3?
Phần 1 AI Stack dưới Web3 có những cơ hội gì?
Trước khi mở rộng chủ đề này, chúng ta cần hiểu về công nghệ của mô hình AI lớn:
Diễn đạt toàn bộ quá trình bằng ngôn ngữ đơn giản hơn: "Mô hình lớn" giống như bộ não của con người, trong giai đoạn đầu, bộ não này thuộc về một đứa trẻ mới sinh, cần quan sát và tiếp nhận khối lượng thông tin khổng lồ từ thế giới xung quanh để hiểu thế giới này, đó là giai đoạn "thu thập" dữ liệu; do máy tính không có các giác quan như thị giác, thính giác của con người, trước khi đào tạo, thông tin không có nhãn từ bên ngoài cần được "tiền xử lý" để chuyển đổi thành định dạng thông tin mà máy tính có thể hiểu và sử dụng.
Sau khi nhập dữ liệu, AI thông qua "đào tạo" đã xây dựng một mô hình có khả năng hiểu và dự đoán, có thể coi đó là quá trình em bé từ từ hiểu và học hỏi về thế giới xung quanh. Các tham số của mô hình giống như khả năng ngôn ngữ của em bé đang được điều chỉnh liên tục trong quá trình học tập. Khi nội dung học tập bắt đầu được phân chia theo chuyên ngành, hoặc khi giao tiếp với con người để nhận phản hồi và sửa đổi, thì bước vào giai đoạn "tinh chỉnh" của mô hình lớn.
Khi trẻ em dần lớn lên và biết nói, chúng có thể hiểu ý nghĩa trong các cuộc đối thoại mới và diễn đạt cảm xúc cũng như suy nghĩ của mình. Giai đoạn này tương tự như "suy luận" của các mô hình AI lớn, nơi mà mô hình có khả năng dự đoán và phân tích các đầu vào ngôn ngữ và văn bản mới. Trẻ em thể hiện cảm xúc, mô tả sự vật và giải quyết các vấn đề khác nhau thông qua khả năng ngôn ngữ, điều này cũng tương tự như việc các mô hình AI lớn được áp dụng vào các nhiệm vụ cụ thể sau khi hoàn thành quá trình huấn luyện, chẳng hạn như phân loại hình ảnh, nhận diện giọng nói, v.v.
AI Agent thì ngày càng gần gũi với hình thức tiếp theo của mô hình lớn ------ có khả năng thực hiện nhiệm vụ một cách độc lập và theo đuổi các mục tiêu phức tạp, không chỉ có khả năng tư duy mà còn có khả năng ghi nhớ, lập kế hoạch và có thể sử dụng công cụ để tương tác với thế giới.
Hiện tại, nhằm giải quyết những điểm đau của AI trong các stack khác nhau, Web3 hiện đã hình thành một hệ sinh thái đa tầng, liên kết với nhau, bao gồm tất cả các giai đoạn trong quy trình mô hình AI.
Một, Cấp độ cơ bản: Airbnb về sức mạnh tính toán và dữ liệu
▎sức mạnh tính toán
Hiện nay, một trong những chi phí cao nhất của AI là sức mạnh tính toán và năng lượng cần thiết để huấn luyện mô hình và suy diễn mô hình.
Một ví dụ là, LLAMA3 của Meta cần 16.000 GPU H100 do NVIDIA sản xuất (đây là một loại đơn vị xử lý đồ họa hàng đầu được thiết kế cho trí tuệ nhân tạo và tải công việc tính toán hiệu suất cao.) để hoàn thành đào tạo trong 30 ngày. Giá của phiên bản 80GB của nó dao động từ 30.000 đến 40.000 đô la, điều này đòi hỏi một khoản đầu tư vào phần cứng tính toán (GPU + chip mạng) từ 400 đến 700 triệu đô la, trong khi việc đào tạo hàng tháng cần tiêu tốn 1,6 tỷ kilowatt giờ, chi phí năng lượng hàng tháng gần 20 triệu đô la.
Việc giải nén sức mạnh AI chính là lĩnh vực đầu tiên mà Web3 giao thoa với AI------DePin (Mạng cơ sở hạ tầng vật lý phi tập trung) hiện tại, các trang web dữ liệu đã liệt kê hơn 1400 dự án, trong đó các dự án chia sẻ sức mạnh GPU đại diện bao gồm io.net, Aethir, Akash, Render Network, v.v.
Logic chính của nó là: nền tảng cho phép cá nhân hoặc thực thể sở hữu tài nguyên GPU không sử dụng đóng góp sức mạnh tính toán của họ theo cách phi tập trung mà không cần giấy phép, thông qua một thị trường trực tuyến cho người mua và người bán tương tự như Uber hoặc Airbnb, nâng cao tỷ lệ sử dụng tài nguyên GPU chưa được khai thác hết; người dùng cuối cũng vì vậy mà có được tài nguyên tính toán hiệu quả với chi phí thấp hơn; đồng thời, cơ chế staking cũng đảm bảo rằng nếu có vi phạm cơ chế kiểm soát chất lượng hoặc ngắt mạng, nhà cung cấp tài nguyên sẽ bị xử phạt tương ứng.
Điều đặc trưng là:
Tập trung tài nguyên GPU nhàn rỗi: Các bên cung cấp chủ yếu là các trung tâm dữ liệu độc lập nhỏ và vừa bên thứ ba, các nhà khai thác mỏ tiền điện tử với tài nguyên tính toán dư thừa, phần cứng khai thác với cơ chế đồng thuận PoS, như máy khai thác FileCoin và ETH. Hiện tại cũng có các dự án tập trung vào việc khởi động các thiết bị có rào cản gia nhập thấp hơn, như exolab sử dụng các thiết bị địa phương như MacBook, iPhone, iPad để thiết lập mạng lưới tính toán cho việc suy luận mô hình lớn.
Đối mặt với thị trường dài hạn của sức mạnh tính toán AI:
a. "Về mặt kỹ thuật", thị trường sức mạnh tính toán phi tập trung phù hợp hơn cho các bước suy luận. Đào tạo phụ thuộc nhiều hơn vào khả năng xử lý dữ liệu do quy mô cụm GPU cực lớn mang lại, trong khi suy luận yêu cầu hiệu suất tính toán GPU tương đối thấp, như Aethir tập trung vào công việc render độ trễ thấp và ứng dụng suy luận AI.
b. Ở phía cầu, các bên có nhu cầu tính toán nhỏ sẽ không tự huấn luyện mô hình lớn của riêng mình, mà chỉ chọn tối ưu hóa, tinh chỉnh xung quanh một số mô hình lớn hàng đầu, và những tình huống này tự nhiên phù hợp với tài nguyên tính toán nhàn rỗi phân tán.
▎Dữ liệu
Dữ liệu là nền tảng của AI. Nếu không có dữ liệu, việc tính toán giống như bèo trôi, hoàn toàn vô dụng, và mối quan hệ giữa dữ liệu và mô hình giống như câu tục ngữ "Garbage in, Garbage out". Số lượng dữ liệu và chất lượng đầu vào quyết định chất lượng đầu ra cuối cùng của mô hình. Đối với việc huấn luyện mô hình AI hiện nay, dữ liệu quyết định khả năng ngôn ngữ, khả năng hiểu biết, thậm chí là hệ giá trị và sự thể hiện nhân văn của mô hình. Hiện tại, những khó khăn trong nhu cầu dữ liệu của AI chủ yếu tập trung vào bốn khía cạnh sau:
Khát dữ liệu: Việc đào tạo mô hình AI phụ thuộc vào đầu vào dữ liệu lớn. Tài liệu công khai cho thấy, số lượng tham số mà OpenAI sử dụng để đào tạo GPT-4 đã đạt đến mức hàng nghìn tỷ.
Chất lượng dữ liệu: Khi AI kết hợp với các ngành, tính kịp thời của dữ liệu, tính đa dạng của dữ liệu, tính chuyên môn của dữ liệu theo ngành, và việc tiếp nhận các nguồn dữ liệu mới nổi như cảm xúc trên mạng xã hội đã đặt ra những yêu cầu mới đối với chất lượng của nó.
Vấn đề về quyền riêng tư và tuân thủ: Hiện nay, các quốc gia và doanh nghiệp đang dần nhận thức được tầm quan trọng của các bộ dữ liệu chất lượng, và đang áp đặt các hạn chế đối với việc thu thập dữ liệu.
Chi phí xử lý dữ liệu cao: Khối lượng dữ liệu lớn, quá trình xử lý phức tạp. Tài liệu công khai cho thấy, hơn 30% chi phí nghiên cứu và phát triển của các công ty AI được sử dụng cho việc thu thập và xử lý dữ liệu cơ bản.
Hiện tại, giải pháp web3 được thể hiện qua bốn khía cạnh sau:
Web3 có tầm nhìn là để những người dùng thực sự đóng góp cũng tham gia vào việc tạo ra giá trị từ dữ liệu, cũng như thông qua mạng lưới phân phối và cơ chế khuyến khích, thu thập dữ liệu của người dùng một cách riêng tư và có giá trị hơn với chi phí thấp.
Grass là một lớp dữ liệu và mạng phi tập trung, người dùng có thể chạy nút Grass, đóng góp băng thông nhàn rỗi và lưu lượng trung chuyển để thu thập dữ liệu thời gian thực từ toàn bộ internet, và nhận phần thưởng bằng token;
Vana đã giới thiệu một khái niệm độc đáo về hồ bơi thanh khoản dữ liệu (DLP), cho phép người dùng tải lên dữ liệu cá nhân của họ (chẳng hạn như lịch sử mua sắm, thói quen duyệt web, hoạt động trên mạng xã hội, v.v.) vào DLP cụ thể và linh hoạt chọn xem có cấp quyền cho bên thứ ba cụ thể sử dụng những dữ liệu này hay không;
Trên một nền tảng AI nào đó, người dùng có thể sử dụng #AI 或#Web3 làm thẻ phân loại trên nền tảng mạng xã hội và @ nền tảng đó để thu thập dữ liệu.
Hiện tại, Grass và OpenLayer đều đang xem xét việc tham gia vào khâu quan trọng là gán nhãn dữ liệu.
Synesis đã đưa ra khái niệm "Train2earn", nhấn mạnh chất lượng dữ liệu, người dùng có thể nhận được phần thưởng bằng cách cung cấp dữ liệu được gán nhãn, chú thích hoặc các hình thức đầu vào khác.
Dự án gán nhãn dữ liệu Sapien đã biến nhiệm vụ gán nhãn thành trò chơi và cho phép người dùng đặt cược điểm để kiếm thêm điểm.
Các công nghệ riêng tư phổ biến hiện nay trong Web3 bao gồm:
Môi trường thực thi tin cậy ( TEE ), chẳng hạn như Super Protocol;
Mã hóa hoàn toàn đồng hình (FHE), chẳng hạn như BasedAI, Fhenix.io hoặc Inco Network;
Công nghệ bằng chứng không kiến thức (zk), như Reclaim Protocol sử dụng công nghệ zkTLS, tạo ra bằng chứng không kiến thức cho lưu lượng HTTPS, cho phép người dùng nhập dữ liệu hoạt động, danh tiếng và danh tính từ các trang web bên ngoài một cách an toàn mà không cần tiết lộ thông tin nhạy cảm.
Tuy nhiên, hiện tại lĩnh vực này vẫn ở giai đoạn đầu, hầu hết các dự án vẫn đang trong quá trình khám phá, một trong những khó khăn hiện tại là chi phí tính toán quá cao, một số ví dụ là: