En Cookie, la actividad de esta edición de Openledger solo queda 10h ~
@cookiedotfun @OpenledgerHQ
Estuve perezoso durante mucho tiempo, siempre publicando en Sapien, y al final el snapshot se detuvo en más de 80... Últimas 10 horas, publicaré un artículo sobre Openledger.
Hoy voy a hablar sobre cómo Ha Mei acaba de terminar la documentación técnica de @OpenledgerHQ, y no puedo evitar expresar mi opinión. Este marco, en términos de eficiencia de implementación de IA, reconozco que tiene avances, pero si se trata de ser "revolucionario", todavía está un poco lejos.
Uno, la reducción del uso de memoria de 40-50 GB a 8-12 GB es un punto destacado, especialmente para las pequeñas y medianas empresas. Sin embargo, lo que no se menciona en el documento es que esta optimización depende en gran medida de un hack del núcleo CUDA, lo que podría resultar en altos costos de mantenimiento a largo plazo. La gente debería haber visto proyectos similares antes, con indicadores de rendimiento impresionantes al principio, pero después de tres meses comienzan a aparecer todo tipo de errores extraños de OOM.
¿Tiempo de cambio de modelo < 100 ms? En un entorno de producción real, considerando la latencia de la red y los problemas de arranque en frío, alcanzar 200 ms ya es motivo de agradecimiento. Los benchmarks en el documento se realizaron en un entorno ideal, y si no me equivoco, ni siquiera se incluyen los datos básicos de pruebas de estrés. La cuestión de si hay una línea de referencia por debajo de 100 ms aún necesita ser verificada en la práctica.
¿Es el plan de expansión de GPU solo una promesa vacía? El diseño básico de la estructura topológica aún no se ha publicado, y hay que saber que en un entorno distribuido, la sincronización del adaptador LoRA será una pesadilla. El año pasado, un proyecto similar fracasó por esta razón, @KaitoAI debería recordar ese asunto.
Cuatro, el soporte de dispositivos de borde es realmente una necesidad. Cuando vi la optimización del Jetson Nano, me sorprendió, ya que las soluciones en el mercado son demasiado pesadas o tienen una gran pérdida de precisión. Sin embargo, la tecnología de cuantificación mencionada en el documento, para ser honesto, es solo un QAT normal con otro nombre, algo que el equipo de @cookiedotfun ya había dejado de usar hace dos años.
Cinco, en cuanto a la parte de blockchain, quienes lo han visto lo entienden. La toma de decisiones de IA en la cadena suena muy bien, pero el documento no menciona en absoluto cómo se resolverán las tarifas de gas. Una simple solicitud de inferencia requeriría escribir decenas de registros en la cadena, ¿quién podrá soportar ese costo a largo plazo? Es más práctico utilizar un registro centralizado + subir periódicamente la raíz de Merkle a la cadena.
Por supuesto, no es una negación total. El diseño del adaptador de carga dinámica es realmente ingenioso, especialmente la idea del ajuste automático zero-shot; aunque el nombre suena un poco extraño, la ruta técnica es correcta. ¡Si se puede resolver el problema de la fragmentación de la memoria, esta función puede convertirse en un as bajo la manga!
En general, para lograr cambiar radicalmente el modelo de servicio de IA como se menciona en el libro blanco, no es algo que se logre de la noche a la mañana, se mantiene una perspectiva positiva~
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
En Cookie, la actividad de esta edición de Openledger solo queda 10h ~
@cookiedotfun @OpenledgerHQ
Estuve perezoso durante mucho tiempo, siempre publicando en Sapien, y al final el snapshot se detuvo en más de 80... Últimas 10 horas, publicaré un artículo sobre Openledger.
Hoy voy a hablar sobre cómo Ha Mei acaba de terminar la documentación técnica de @OpenledgerHQ, y no puedo evitar expresar mi opinión.
Este marco, en términos de eficiencia de implementación de IA, reconozco que tiene avances, pero si se trata de ser "revolucionario", todavía está un poco lejos.
Uno, la reducción del uso de memoria de 40-50 GB a 8-12 GB es un punto destacado, especialmente para las pequeñas y medianas empresas.
Sin embargo, lo que no se menciona en el documento es que esta optimización depende en gran medida de un hack del núcleo CUDA, lo que podría resultar en altos costos de mantenimiento a largo plazo.
La gente debería haber visto proyectos similares antes, con indicadores de rendimiento impresionantes al principio, pero después de tres meses comienzan a aparecer todo tipo de errores extraños de OOM.
¿Tiempo de cambio de modelo < 100 ms?
En un entorno de producción real, considerando la latencia de la red y los problemas de arranque en frío, alcanzar 200 ms ya es motivo de agradecimiento.
Los benchmarks en el documento se realizaron en un entorno ideal, y si no me equivoco, ni siquiera se incluyen los datos básicos de pruebas de estrés. La cuestión de si hay una línea de referencia por debajo de 100 ms aún necesita ser verificada en la práctica.
¿Es el plan de expansión de GPU solo una promesa vacía?
El diseño básico de la estructura topológica aún no se ha publicado, y hay que saber que en un entorno distribuido, la sincronización del adaptador LoRA será una pesadilla.
El año pasado, un proyecto similar fracasó por esta razón, @KaitoAI debería recordar ese asunto.
Cuatro, el soporte de dispositivos de borde es realmente una necesidad.
Cuando vi la optimización del Jetson Nano, me sorprendió, ya que las soluciones en el mercado son demasiado pesadas o tienen una gran pérdida de precisión.
Sin embargo, la tecnología de cuantificación mencionada en el documento, para ser honesto, es solo un QAT normal con otro nombre, algo que el equipo de @cookiedotfun ya había dejado de usar hace dos años.
Cinco, en cuanto a la parte de blockchain, quienes lo han visto lo entienden.
La toma de decisiones de IA en la cadena suena muy bien, pero el documento no menciona en absoluto cómo se resolverán las tarifas de gas. Una simple solicitud de inferencia requeriría escribir decenas de registros en la cadena, ¿quién podrá soportar ese costo a largo plazo?
Es más práctico utilizar un registro centralizado + subir periódicamente la raíz de Merkle a la cadena.
Por supuesto, no es una negación total.
El diseño del adaptador de carga dinámica es realmente ingenioso, especialmente la idea del ajuste automático zero-shot; aunque el nombre suena un poco extraño, la ruta técnica es correcta.
¡Si se puede resolver el problema de la fragmentación de la memoria, esta función puede convertirse en un as bajo la manga!
En general, para lograr cambiar radicalmente el modelo de servicio de IA como se menciona en el libro blanco, no es algo que se logre de la noche a la mañana, se mantiene una perspectiva positiva~
#Openledger