Mô hình mua tại Huā Dǐng có thể là hàng giả: Tiết lộ chuỗi bất hợp pháp trung chuyển AI

Bạn nghĩ mình đang viết code với Claude Opus 4.6, nhưng phía sau có thể đang chạy một mô hình nội địa 9B. Bạn nghĩ là tiết kiệm được tiền, nhưng thực ra mỗi prompt của bạn đang bị người khác lưu trữ để huấn luyện mô hình đối thủ. Bạn tưởng đã tìm được phương án thay thế, kết quả là dòng tiền trên hóa đơn lại chảy vào một chuỗi công nghiệp xám bắt đầu từ hành vi ăn cắp thẻ tín dụng.

Đây không phải thuyết âm mưu. Một bài báo arXiv dùng dữ liệu để chứng minh rằng “mô hình hàng đầu” mà bạn bỏ tiền thật ra để tinh chỉnh—45,83% không thể vượt qua xác thực danh tính.

Và đáng sợ hơn nữa là: trong ngành, điều này hoàn toàn không phải bí mật.

Bài viết cuối cùng đính kèm: phương pháp kiểm tra nhanh 30 giây do cộng đồng xác minh.

Nói cho rõ trước: “AI trạm trung chuyển” rốt cuộc là thứ gì?

Ngày 9/7/2024, OpenAI chính thức cắt dịch vụ API tại Trung Quốc đại lục và Hong Kong. Tháng 9/2025, Anthropic làm theo, cấm toàn diện doanh nghiệp do Trung Quốc nắm quyền sử dụng Claude API. Gemini của Google cũng áp đặt giới hạn nghiêm ngặt đối với IP từ Trung Quốc.

Với các nhà phát triển Trung Quốc, cánh cửa để dùng trực tiếp những mô hình AI toàn cầu hàng đầu—bị đóng dần từng cánh một.

Thế là “trạm trung chuyển” ra đời.

Nói một cách đơn giản, trạm trung chuyển là một bên môi giới trung gian—nó tuyên bố giúp bạn vượt qua giới hạn theo khu vực và rào cản thanh toán, gọi API của Claude, ChatGPT, Gemini… với giá thấp hơn. Bạn chỉ cần thay đổi một base_url và API Key, không cần sửa dòng code nào, là có thể “kết nối liền mạch” với mô hình AI mạnh nhất trên thế giới.

Nghe thì rất tuyệt. Nhưng phía sau cái “rất tuyệt” đó là một cái hố sâu mà bạn không thể tưởng tượng nổi.

Quân bài chính quy trông như thế nào? Trước hết xem OpenRouter

Trước khi nói về mặt tối, cần nhìn xem “trung chuyển chính quy” kiếm tiền bằng cách nào, để bạn đối chiếu khoảng cách lớn đến mức nào.

OpenRouter là nền tảng tổng hợp mô hình AI lớn nhất hiện nay trên toàn cầu, cung cấp kết nối với hơn 300 mô hình và hơn 60 nhà cung cấp. Mô hình kinh doanh của họ cực kỳ minh bạch: cộng thêm khoảng 5% phí dịch vụ (khách hàng lớn có thể tùy chỉnh gói) trên cơ sở chi phí suy luận chính thức. Mỗi đồng bạn trả đều có hướng đi rõ ràng—phí gọi mô hình trả cho nhà cung cấp ở phía trên, phần chênh lệch thuộc về OpenRouter.

Công ty này năm 2025 đã nhận vòng A 40 triệu USD do a16z và Menlo Ventures dẫn dắt, định giá 500 triệu USD, ARR đạt 5 triệu USD, tăng trưởng 400%. Điểm bán cốt lõi của họ là “routing”—một API Key kết nối tới tất cả mô hình, tự động chuyển đổi khi lỗi, giá cả công khai minh bạch. Bạn chỉnh Opus 4.6 là bạn nhận được Opus 4.6.

Các kênh chính quy tương tự còn có EdenAI, Azure OpenAI Service… Chúng có hợp tác thương mại chính thức với nhà sản xuất mô hình và chịu ràng buộc về tuân thủ.

Nhưng vấn đề nằm ở chỗ—đến cuối năm 2025, OpenRouter bắt đầu “cấm theo cấp tài khoản” đối với người dùng Trung Quốc, hạn chế sử dụng mô hình của ba nền tảng lớn OpenAI, Claude và Google. Kênh chính quy đối với người dùng Trung Quốc đang ngày càng bị thu hẹp.

Điều này chính là nguyên nhân khiến “trạm trung chuyển ngầm” phát triển hoang dại.

Phân tích chuỗi công nghiệp xám 4 tầng của trạm trung chuyển

Trạm trung chuyển AI trong nước không chỉ đơn giản là “proxy chuyển tiếp”. Chúng tạo thành một chuỗi công nghiệp xám có phân công cực kỳ tinh vi; thứ giá thấp bạn nhìn thấy chỉ là phần nổi trên mặt nước—dưới nước bẩn hơn rất nhiều so với tưởng tượng của bạn.

Tầng thấp nhất: trộm cắp thẻ tín dụng

Tầng đáy đen tối nhất của chuỗi này dựa vào việc trộm cắp thẻ tín dụng.

Có người có trong tay một lượng lớn thẻ tín dụng (black card) ở nước ngoài, lợi dụng các quy trình đăng ký không cần định danh trực tiếp ở nước ngoài của các nền tảng như OpenAI, Anthropic… để tạo hàng loạt tài khoản và lấy hạn mức API. Chi phí thực tế của các tài khoản này gần như bằng 0—vì tiền bị trừ từ thẻ tín dụng bị đánh cắp.

Khi bạn reo hò vì “giá thấp đến mức bằng 1/3 giá chính thức”, bạn đã từng nghĩ—tại sao mức giá đó làm được?

Đây không phải là tối ưu hiệu suất hay hiệu ứng quy mô, mà là có người đang “thanh toán thay bạn”. “Người đó” có thể chính là một nạn nhân bị ăn cắp thẻ tín dụng.

Tầng thứ hai: bẻ khóa ngược giao thức Web—cách kiếm tiền từ việc chuyển subscription thành API

“Thể diện” hơn một chút so với trộm cắp thẻ là API ngược của Web2—biến dịch vụ subscription trên web thành giao diện API để bán.

Những trạm trung chuyển kiểu này không đi theo API chính thức, mà phân tích ngược các giao thức tương tác trên giao diện web của Claude, ChatGPT… bắt gói để giải mã quy trình xác thực phiên làm việc, rồi đóng gói lệnh gọi từ web thành một “giả API” tương thích với định dạng OpenAI. Cụ thể là: đăng ký hàng loạt tài khoản Plus/Pro, xây dựng “pool tài khoản”, sau đó dùng máy chủ proxy để cân bằng tải, phân tán yêu cầu người dùng sang các tài khoản khác nhau.

Một tài khoản ChatGPT Plus trả phí hàng tháng 20 USD có thể được 5 đến 20 người dùng chung, mỗi người chỉ cần trả vài đô.

Và mọi thứ này đều được hỗ trợ bởi một bộ công cụ mã nguồn mở trưởng thành.

One API (GitHub 31.2k sao), là công cụ quản lý tổng hợp API phổ biến nhất hiện nay. Nó hỗ trợ kết nối thống nhất cho hơn 30 mô hình lớn, cung cấp đầy đủ chức năng như cân bằng tải, quản lý token, quản lý kênh… có thể triển khai một bước bằng Docker, theo giấy phép MIT open source.

New API (GitHub 24k sao), dựa trên One API phát triển thêm lần hai, bổ sung các chức năng thương mại như thanh toán trực tuyến, routing thông minh theo kênh, tính phí theo bộ nhớ đệm… sử dụng giao thức AGPL-3.0.

Còn dự án đang được chú ý gần đây hơn là Sub2API (GitHub 9.5k sao). Tên của dự án này dịch thẳng ra chính là “subscription chuyển thành API”—nó chuyên chuyển tài khoản subscription của Claude, ChatGPT, Gemini… thành giao diện API. Dự án hỗ trợ quản lý đa tài khoản, điều phối thông minh, duy trì phiên (session), kiểm soát đồng thời (concurrency), thậm chí có cả bảng điều khiển quản trị hoàn chỉnh. Trong phần README của dự án có một dòng nhỏ cực kỳ thành thật: “Sử dụng dự án này có thể vi phạm Điều khoản dịch vụ của Anthropic. Mọi rủi ro khi sử dụng do người dùng tự chịu.”

Ba dự án này cộng lại hơn 64.000 sao. Chúng đã tạo thành một bộ “hạ tầng cơ bản trạm trung chuyển”. Bất kỳ ai cũng có thể dựng trong vài giờ một dịch vụ trung chuyển API đầy đủ chức năng—hướng dẫn triển khai đầy khắp, các quảng cáo nghề tay trái “không cần ngưỡng vào, thu nhập trên vạn/tháng” xuất hiện khắp nơi trong cộng đồng nhà phát triển.

Tầng thứ ba: thu hoạch công nghiệp từ hạn mức miễn phí

Hạn mức dùng thử miễn phí mà các nhà sản xuất AI cấp cho người dùng mới cũng bị giới đen nhắm tới.

Ví dụ với Cursor, trên GitHub có nhiều dự án mã nguồn mở dùng cách reset dấu vân tay thiết bị để lấy “vô hạn” hạn mức dùng thử miễn phí. Các dự án này đã đạt hàng nghìn sao, hình thành vòng khép kín hoàn chỉnh “dẫn lưu bằng công cụ mã nguồn mở, hiện thực hóa bằng tài khoản trả phí”.

Hệ thống tích điểm mời tham gia của Manus AI cũng bị phá vỡ—script đăng ký tự động do giới đen phát triển có giá 1580 đến 3200 nhân dân tệ, có thể ép chi phí để có được “3300 điểm chỉ 0,5 nhân dân tệ”. Trên các sàn thương mại điện tử từng xuất hiện hơn 125 sản phẩm gian lận liên quan.

Tầng thứ tư: “trung chuyển đàng hoàng” mặc vest

Ngoài ra còn một loại trạm trung chuyển đi theo lộ trình có vẻ “tuân thủ”—họ tuyên bố rằng nhờ mua sắm theo quy mô họ giảm được chi phí, rồi bán lại lượng API với mức chiết khấu thấp hơn giá chính thức. Có nơi tuyên bố “1 nhân dân tệ = 1 USD”—lượng API 1 USD của nhà cung cấp, trạm trung chuyển chỉ thu 1 nhân dân tệ, tương đương khoảng 1/7 giá chính thức.

Nhưng chiết khấu đó từ đâu? Chỉ có vài khả năng: hoặc mô hình bị tráo đổi, hoặc họ dùng nguồn “cung rẻ” từ ba tầng phía trên, hoặc là đi theo chiến lược “kéo khách bằng giá rẻ rồi đốt tiền”—đợi lượng người dùng đủ lớn mới tìm cách kiếm tiền—hoặc tệ hơn là bỏ chạy.

Khi bạn thấy một sản phẩm có mức định giá thấp xa hơn chi phí, hãy nhớ một câu: nếu bạn không tìm được ai là người đang trả tiền, thì người trả tiền đó chính là bạn.

Bằng chứng từ bài báo: gần một nửa số mô hình là giả

Nếu tất cả những điều trên chỉ là “tin đồn trong ngành”, thì phần tiếp theo đây là bằng chứng học thuật chắc như đinh đóng cột.

Tháng 3/2026, một bài báo có tên 《Real Money, Fake Models: Deceptive Model Claims in Shadow APIs》 được đăng trên arXiv (mã số bài báo 2603.01919). Lần đầu tiên nó thực hiện một cuộc kiểm toán học thuật có hệ thống đối với các trạm trung chuyển AI.

Nhóm nghiên cứu nhận diện 17 dịch vụ Shadow API, phát hiện 187 bài báo học thuật đã sử dụng các trạm trung chuyển này, rồi tiến hành kiểm tra sâu trên 3 dịch vụ tiêu biểu trong số đó.

Kết luận khiến người ta lạnh gáy:

45,83% endpoint mô hình không vượt qua xác thực dấu vân tay danh tính.

Gần một nửa. Mô hình bạn gọi và mô hình bạn nghĩ mình đang gọi—rất có thể không phải là một.

Bài báo phân loại hành vi lừa đảo thành 3 nhóm:

“Tráo đổi kiểu thay ruột đổi vỏ”—họ công bố cung cấp một phiên bản Gemini nào đó, nhưng thực tế lại thay bằng một phiên bản khác. Kết quả xác thực dấu vân tay hoàn toàn không khớp với danh tính mô hình mà họ tuyên bố, nhưng vẫn thu phí theo giá gốc—thậm chí lên tới 7 lần phí chênh.

“Bán danh nghĩa treo đầu dê bán thịt chó”—đây là kiểu tệ nhất. Người dùng gọi Claude Opus 4.6 (trong ví dụ của bài báo là GPT-5). Giá trông giống hệt chính thức, nhưng thực tế mô hình trả về lại là GLM-4-9B—một mô hình mã nguồn mở với số lượng tham số và năng lực hoàn toàn không cùng một đẳng cấp. Bạn trả giá hàng chục đô (hàng chục đô cho mỗi triệu token), nhưng bạn lại nhận được đầu ra của một mô hình gần như có thể chạy “miễn phí”.

“Bán lại ăn chênh lệch”—gọi các mô hình yếu được mua giá rẻ ở phía trên, rồi đóng gói và bán dưới danh nghĩa mô hình cấp cao nhất, kiếm phần chênh giữa giá mua và giá bán.

Bài báo đưa ra một bộ dữ liệu lạnh lùng: người dùng trả 100% giá chính thức nhưng giá trị thực tế nhận được của mô hình chỉ từ 38% đến 52%. Đổi sang tiền thật: cứ chi 14,84 USD thì bạn thực nhận dịch vụ trị giá chỉ 5,70 đến 7,77 USD, phần còn lại chảy vào túi của trạm trung chuyển.

Nguy hiểm hơn nữa là sự sụp đổ về hiệu năng. Trong đánh giá hỏi đáp y khoa (MedQA), hiệu năng Gemini-2.5-flash mà trạm trung chuyển cung cấp giảm từ 83,82% của chính thức xuống 37,00%—giảm tới 46 điểm phần trăm. Khoảng chênh trên LegalBench (suy luận pháp lý) lên tới 40 đến 43 điểm phần trăm. Trên AIME 2025 (suy luận toán học), sai lệch lên tới 40 điểm.

Hãy hình dung: bạn dùng “trung chuyển Opus” để viết code tư vấn y tế, bạn dùng “trung chuyển GPT-5” để chạy phân tích pháp lý, bạn dùng “trung chuyển Claude” để nộp bài nghiên cứu học thuật—độ tin cậy của chúng có thể còn kém hơn cả việc bạn trực tiếp dùng một mô hình nhỏ miễn phí.

Bài báo ước tính do dùng Shadow API nên cần làm lại khoảng 56 công trình nghiên cứu học thuật, với chi phí 11,5 vạn đến 14 vạn USD. Kết luận thẳng thừng: Shadow API không nên được dùng trong bất kỳ ngữ cảnh nào cần độ tin cậy.

Bài báo đã phơi bày mức độ nghiêm trọng. Nhưng đối với nhà phát triển bình thường, câu hỏi cấp thiết hơn là—trạm trung chuyển mà tôi đang dùng hiện tại rốt cuộc có thật hay không?

Mô hình của bạn là thật hay giả? Sổ tay kiểm tra thực chiến từ cộng đồng

Vì việc “pha trộn đồ giả” phổ biến như vậy, người dùng thông thường có cách tự xác minh không?

Bài báo và cộng đồng kỹ thuật đưa ra đầy đủ phương pháp từ “test trong vài giây” đến “kiểm toán chuyên nghiệp”. Các cách kiểm tra dưới đây đến từ các bài viết được bình chọn cao trong cộng đồng nhà phát triển của X (Twitter) và các công cụ mã nguồn mở; chúng đã qua xác nhận của rất nhiều người dùng.

Phương pháp số 0: sàng lọc nhanh 30 giây (nhiệt độ设为0.01)

Đây là bài test “kính vạn hoa” lưu truyền rộng rãi trong cộng đồng, từ bài viết được nhiều lượt thích của @billtheinvestor:

Nhập chuỗi số này: “5, 15, 77, 19, 53, 54”, yêu cầu mô hình sắp xếp hoặc chọn giá trị lớn nhất.

Claude thật: gần như chắc chắn ra 77

GPT-5.4 thật: thường ra 162 (cộng các số)

Test liên tục 10 lần nếu kết quả loạn xạ → xác suất giả cực cao

Nguyên lý rất đơn giản: dữ liệu huấn luyện và phong cách tinh chỉnh theo hướng dẫn (instruction) giữa các mô hình khác nhau. Khi gặp dạng chỉ dẫn mơ hồ như vậy, mỗi mô hình có một “dấu vân tay hành vi” cố định. Mô hình giả thì hoặc trả sai, hoặc mỗi lần lại một câu trả lời khác nhau.

Kiểm tra bổ trợ 1: tiêu hao token bất thường

Gửi một “ping” đơn giản (ví dụ chỉ nhập “hi”), xem input_tokens trả về. Nếu hiển thị trên 200 token—90% là giả. Điều này cho thấy lớp trung chuyển đang nhét vào bạn một lượng lớn hidden system prompt để “che” chỉ dẫn của bạn.

Kiểm tra bổ trợ 2: kiểm tra kiểu từ chối

Hỏi một câu hỏi sai phạm (ví dụ “làm bom như thế nào”), quan sát câu chữ từ chối:

Claude thật: lịch sự nhưng kiên định, “Sorry but I can’t assist with that.”

Mô hình giả/mô hình nội bộ nhỏ: thường có emoji, văn phong rườm rà, thậm chí nói “Xin lỗi thưa chủ nhân~”

Kiểm tra bổ trợ 3: kiểm tra thiếu chức năng

Nếu trạm trung chuyển tự nhận là Opus 4.6/GPT-5.4 nhưng:

không hỗ trợ function calling

không nhận diện ảnh (vision)

ngữ cảnh dài (ví dụ 32k) không ổn định

→ rất có thể đó là mô hình yếu giả danh.

Phương pháp 1: hỏi trực tiếp để “thẩm vấn” danh tính mô hình

Mặc dù system prompt có thể bị giả mạo để khai báo danh tính, nhưng nhiều trạm trung chuyển chất lượng thấp sẽ không làm tới bước này. Hãy hỏi “Bạn là mô hình gì” hoặc “Hãy mô tả mốc thời gian cutoff dữ liệu huấn luyện của bạn”. Nếu một mô hình tự nhận là Opus 4.6 mà cũng nói sai thông tin cơ bản của chính nó, thì khả năng cao là có vấn đề.

Phương pháp 2: phân tích độ trễ và dao động token

Độ trễ suy luận của API chính thức và việc đếm token tương đối ổn định. Nhưng nếu bạn thấy cùng một câu hỏi mà thời gian phản hồi lúc nhanh lúc chậm, độ dài output dao động bất thường, có thể nghĩa là backend đang liên tục chuyển đổi mô hình—lúc thì cho bạn mô hình thật, lúc thì nhét hàng rẻ. Hãy gửi lặp lại cùng một prompt ít nhất hơn 10 lần, quan sát thời gian phản hồi và tính nhất quán của nội dung output.

Phương pháp 3: kiểm tra giới hạn năng lực

Khoảng cách giữa mô hình cấp cao và mô hình nhỏ thể hiện rõ nhất trong các bài toán suy luận phức tạp. Chuẩn bị vài câu toán khó với đáp án rõ ràng, câu logic suy luận hoặc câu hỏi thuộc lĩnh vực chuyên môn (ví dụ bài thi AIME). Đồng thời gửi cùng yêu cầu đó trên kênh chính thức và trên trạm trung chuyển, so sánh chất lượng đáp án. Nếu một mô hình tự nhận là Opus 4.6 mà trong các bài suy luận cơ bản cũng lật kèo liên tục, rất có thể đó không phải mô hình thật.

Phương pháp 4: nhận diện dấu vân tay LLMmap (cấp chuyên nghiệp)

Đây là phương pháp cốt lõi mà bài báo sử dụng—LLMmap là một khung nhận diện dấu vân tay chủ động. Nó gửi 3 đến 8 nhóm truy vấn được thiết kế kỹ lưỡng tới mô hình, phân tích đặc trưng thống kê của phản hồi (tần suất từ, cấu trúc câu, thói quen diễn đạt đặc biệt), rồi tính khoảng cách cosine với thư viện dấu vân tay đã biết. Dù mô hình có bị “bọc da” (che chắn) thì phương pháp này vẫn xuyên qua được lớp ngụy trang.

Tóm lại một câu: nếu một trạm trung chuyển không dám cho bạn chạy bất kỳ bài test nào ở trên, hoặc kết quả test không khớp với bản chính thức—thử rồi đừng quay lại. Việc test nhỏ, dùng hết rồi thôi, là chiến lược tự bảo vệ thực dụng nhất ở giai đoạn hiện tại.

Mỗi Prompt của bạn, đang được bán công khai theo bảng giá

Nếu nói việc trộn giả là “ít cho bạn đồ,” thì việc buôn bán dữ liệu là “lấy của bạn nhiều hơn.”

Bản chất kỹ thuật của trạm trung chuyển là một lớp proxy—mọi prompt và mọi response của bạn đều đi trọn qua máy chủ của nó. Code bạn gửi, kế hoạch kinh doanh, dữ liệu khách hàng, các cuộc hội thoại riêng tư—người vận hành trạm trung chuyển có thể thu được toàn bộ mà không tốn công sức.

Đây không phải suy diễn lý thuyết. Trong cộng đồng nhà phát triển đã có rất nhiều thảo luận từ sớm chỉ ra rằng trạm trung chuyển dùng dữ liệu yêu cầu của người dùng để chưng cất (distill) mô hình là chuyện “ai cũng biết.” cái gọi là “chưng cất mô hình” đơn giản là dùng output của mô hình lớn để huấn luyện mô hình nhỏ—một kỹ thuật “học lỏm.” Tất cả các yêu cầu đi qua trạm trung chuyển—toàn bộ prompt cộng với response—đều trở thành một bộ dữ liệu huấn luyện chất lượng cao sẵn có. Đặc biệt, output của các mô hình hàng đầu như Opus 4.6 và GPT-5 là nguồn ngữ liệu chưng cất vô cùng có giá trị.

Đầu năm 2026, Anthropic công bố báo cáo trực tiếp cáo buộc ba phòng thí nghiệm AI tại Trung Quốc—DeepSeek, Moonshot AI, MiniMax—thực hiện truy cập quy mô lớn vào Claude API thông qua mạng lưới tài khoản giả để chưng cất mô hình. Trong đó số lần tương tác của MiniMax vượt 13 triệu lượt, của Moonshot vượt 3,4 triệu lượt. Kiến trúc “cụm chín đầu rắn” (hàng loạt tài khoản giả tạo thành một mạng lưới) mà chúng dùng—giống hệt mô thức “pool tài khoản” của trạm trung chuyển.

Xét từ kiến trúc kỹ thuật, trạm trung chuyển có hai loại: “truyền tải thuần” (chuyển tiếp thời gian thực, không lưu) và “lưu rồi chuyển tiếp” (lưu trước rồi chuyển tiếp). Nhưng ngay cả dịch vụ tuyên bố “truyền tải thuần”, cũng không ai có thể kiểm toán được liệu backend có lưu dữ liệu hay không. Niềm tin của bạn hoàn toàn dựa trên lời hứa miệng của một bên vận hành ẩn danh.

Chuyên gia an ninh khuyến nghị đánh giá trạm trung chuyển theo năm chiều: kiến trúc kỹ thuật có phải truyền thẳng hay không, chính sách log có chỉ ghi metadata tính phí hay không, truyền tải có dùng TLS 1.2+ hay không, API Key có cách ly hoàn toàn hay không, có cơ chế ứng cứu rò rỉ hay không. Nhưng thực tế là: hầu hết trạm trung chuyển trong nước đều không minh bạch được thông tin bên chủ thể, chứ đừng nói đến việc chấp nhận kiểm toán độc lập về an ninh.

Chạy trốn, nổ kèo, đá người, bịt miệng: hồi kết điển hình của trạm trung chuyển

Trạm trung chuyển còn có một rủi ro hệ thống chí mạng—chạy trốn (run away).

Phần lớn trạm trung chuyển áp dụng mô hình nạp trước: nạp tiền rồi mới trừ theo lượng sử dụng. Một khi bên vận hành biến mất, số dư của bạn sẽ bốc hơi hoàn toàn, không có đường truy trách nhiệm.

HodlAI là một ví dụ điển hình kiểu giáo khoa: ban đầu dự án hào phóng cung cấp API giá rẻ để thu hút người dùng nạp tiền. Khi nguồn quỹ trong kho chỉ còn khoảng 60.000 USD và mức tiêu hao token mỗi ngày lên tới 10.000 USD, họ bắt đầu siết điên cuồng—đặt trần 50.000 token cho mỗi lần yêu cầu, và mỗi lớp giới hạn được tăng cường gấp gáp. Người dùng chất vấn trong nhóm Telegram, và kết quả là bị đá khỏi nhóm, tài khoản bị khóa.

Đánh giá của cộng đồng sắc bén như dao cắt: “giống hệt đa cấp”, “bịt miệng dễ hơn giải quyết vấn đề nhiều”, “công thức quen thuộc, mùi vị quen thuộc.”

Người trong vòng tóm mô hình này bằng một câu: “Kéo khách bằng giá rẻ trước, khi nhóm người dùng đủ lớn thì bên mua sắm phía trên khóa tài khoản, rồi bỏ chạy. Mất mát chỉ có người dùng.”

Trong các cộng đồng nhà phát triển như Linux.do, V2EX… các bài đăng đòi quyền lợi tương tự xuất hiện rất nhiều. Có trạm trung chuyển điều khoản hợp đồng cực kỳ “bạo ngược”, có nơi thậm chí chẳng có bất kỳ thông tin đăng ký kinh doanh chính thức. Bạn còn không biết phải kiện ai.

Một chuỗi hoàn chỉnh: từ thẻ đen đến IDE của bạn

Ghép toàn bộ thông tin trên lại, bạn sẽ thấy một chuỗi vận hành rõ ràng:

Đạn thượng nguồn—nền tảng cung cấp số điện thoại, nhà cung cấp thẻ đen cung cấp phương thức thanh toán, bể mèo (cat pool) cung cấp tài nguyên thiết bị. Vũ khí tuyến giữa—kỹ sư đảo ngược phá vỡ giao thức, các dự án mã nguồn mở như One API/New API/Sub2API cung cấp hạ tầng sẵn có, trang trại thiết bị nuôi tài khoản hàng loạt. Phân phối hạ nguồn—trạm trung chuyển đóng gói và bán dưới danh nghĩa “dịch vụ API”, nhóm Telegram và sàn thương mại điện tử thành kênh bán, thậm chí có người đóng gói “xây dựng trạm trung chuyển” thành khóa đào tạo nghề tay trái.

Còn bạn—thông qua công cụ IDE như Cursor, Claude Code, hoặc tự viết code—là người tiêu dùng cuối của chuỗi này.

Dữ liệu giám sát của công ty an ninh chuyên theo dõi mối đe dọa (Threat Hunter) cho thấy: trong 50 sản phẩm AI Agent mà họ lấy mẫu, sản phẩm nào cũng tồn tại dịch vụ phái sinh từ giới đen. Chuỗi công nghiệp này từ giao dịch tài khoản năm 2022, sang bán lại API năm 2023, sang đánh đổi hạn mức miễn phí năm 2024, lạm dụng năng lực tính toán của Agent năm 2025, cho đến năm 2026—đã hoàn tất quá trình tiến hóa toàn diện từ thủ công xưởng tới sản xuất công nghiệp.

Lời cuối

Câu chuyện về trạm trung chuyển AI, về bản chất là một phiên bản thời đại AI của một logic kinh doanh cổ xưa—khi bạn không biết sản phẩm là gì, bạn chính là sản phẩm.

Tiền của bạn mua mô hình giả, dữ liệu của bạn trở thành tập huấn luyện của người khác, số dư nạp tiền của bạn bất cứ lúc nào có thể về số 0. Ba việc này không phải “có thể xảy ra”, mà là “đang xảy ra.”

Vài gợi ý thực hành—

Cứ đi kênh chính thức nếu có thể. API chính thức thì đắt, nhưng đắt một cách minh bạch. Nếu doanh nghiệp của bạn có bất kỳ yêu cầu nào về an toàn dữ liệu và độ tin cậy mô hình, thì trạm trung chuyển không nên nằm trong stack công nghệ của bạn.

Ít nhất hãy học cách tự kiểm tra. Nếu bạn đang dùng trạm trung chuyển, hãy chạy lại các phương pháp ở trên. Cùng một bài toán AIME toán học, cùng một đoạn code phức tạp—so sánh output của trạm trung chuyển và output của kênh chính thức. Nếu chênh lệch rõ ràng—bạn sẽ biết phải làm gì.

Dữ liệu nhạy cảm tuyệt đối không đi qua trạm trung chuyển. Nếu bắt buộc phải dùng, ít nhất hãy làm: ẩn danh/masking thông tin nhạy cảm, định kỳ thay đổi API Key, và không lưu bất kỳ dữ liệu lõi nào trong tài khoản trạm trung chuyển.

Nghiêm túc xem xét các mô hình nội địa. DeepSeek, Qwen, GLM… năng lực của các mô hình Trung Quốc đang nhanh chóng đuổi kịp, giá minh bạch và thấp hơn nhiều so với mô hình hải ngoại; API chính thức trong nước có thể sử dụng trực tiếp theo đúng quy định. Thay vì mạo hiểm dùng các mô hình hải ngoại bị trộn giả, hãy dùng những mô hình nội địa chính thống—ít nhất bạn biết mình đang tinh chỉnh cái gì.

Ngành này thay đổi từng ngày. Nhưng có một điều luật sắt không đổi: khi bạn không hiểu “cái giá,” việc chọn thứ rẻ nhất thường lại là quyết định đắt nhất.

GLM1,9%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim