El chatbot de Google Bard puede fallar en la prueba SAT
Bard ya le ha costado a Google por sus errores, pero está aprendiendo todos los días. Jonathan Ra – Noor Photo / Getty Images
Google ha sido muy abierto sobre el hecho de que Bard no es perfecto.
El CEO de Alphabet, Sundar Pichai, parece sentirse cómodo con lo lejos que deben llegar los modelos de IA de la compañía, y escribe en una nota para toda la empresa que Bard está en su infancia: «A medida que más personas comiencen a usar Bard y prueben sus capacidades, sorpréndanos. Las cosas saldrán mal». .”
Ahora se invita al público a probar Bard, mientras que anteriormente los 80.000 usuarios eran principalmente empleados de Google.
suerte‘s Finalmente se llama el lugar en la lista de espera, por lo que pusimos a Bard a prueba antes de los próximos SAT que los adolescentes estadounidenses enfrentarán esta primavera.
Los SAT son pruebas reconocidas a nivel mundial que se utilizan para la admisión a las universidades estadounidenses, en habilidades que incluyen lectura, escritura y matemáticas.
Desafortunadamente para Google, parece que Bard no llegará a Harvard todavíaSe equivocó en la mayoría de las preguntas de matemáticas y tuvo problemas similares para aprobar las pruebas de escritura y lenguaje.
Al iniciar sesión en Bard por primera vez, las expectativas del usuario ya están configuradas con un mensaje emergente que dice: «Bard no siempre lo hará bien. Bard puede dar respuestas inexactas o inapropiadas. En caso de duda, utilice la función «Google it». para verificar las respuestas de Bard. Bard mejorará con sus comentarios. Califique las respuestas y marque cualquier cosa que pueda ser ofensiva o insegura».
¿Cómo fue genial?
a las preguntas
suerte Practique las preguntas de matemáticas del SAT de los recursos de aprendizaje en línea y descubra que Bard se equivocó entre un 50 % y un 75 %, incluso cuando se dieron respuestas de opción múltiple.
Bard a menudo daba respuestas que ni siquiera eran de opción múltiple, aunque a veces las corregía cuando se le hacía la misma pregunta nuevamente.
La inexactitud de la IA ya le ha costado a Google alrededor de $ 100 mil millones.
cuando Bard se lanzó en febrero Se hicieron una serie de preguntas, incluida la forma de explicar lo que el telescopio espacial James Webb había descubierto a un niño de 9 años.
Bard respondió que el telescopio tomó «las primeras imágenes de un planeta fuera de nuestro sistema solar», a pesar de la afirmación de la NASA. La primera foto De un exoplaneta capturado por el Very Large Telescope, una constelación de la Tierra en Chile, en 2004 y confirmado como exoplaneta en 2005.
Las ciencias y las matemáticas tampoco son los puntos fuertes de Bard, aunque la IA lo hizo mucho mejor en lo que respecta a los ejercicios de lectura y escritura.
La primera prueba de lenguaje escrito de Bard con suerte Devuelven alrededor del 30% de las respuestas correctas y, a menudo, necesitan hacer preguntas dos veces para que la IA las entienda.
Incluso cuando está mal, el tono de Bard es confiado y con frecuencia enmarca las respuestas como: «La respuesta correcta es», una característica común de los grandes modelos de lenguaje.
Por extraño que parezca, la mejor prueba del Bardo tanto en matemáticas como en escritura fue un segmento centrado en la escritora de Harry Potter, JK Rowling.
En esa prueba, Bard obtuvo 1,200, un puntaje de SAT que haría a un hombre como la Universidad de Howard, la Universidad Estatal de San Diego y la Universidad Estatal de Michigan.
Cuantas más preguntas le hacía Fortune a Bard (alrededor de 45 en total), menos le costaba entender o necesitaba repetir la pregunta.
En las pruebas de lectura, al Bardo le fue mejor que en matemáticas, obteniendo en promedio aproximadamente la mitad de las respuestas correctas.
Un portavoz de Google reiteró el mensaje de Pichai cuando fue contactado suerte Para el comentario, dijo: «Bard es beta, y algunas de las respuestas pueden ser inexactas, así que revise la información en las respuestas de Bard. Gracias a sus comentarios, Bard está mejorando cada día. Antes de que Bard se publique, miles de los probadores participan para proporcionar comentarios para ayudar a Bard a mejorar su calidad, seguridad y precisión.
«Acelerar las ideas de las personas con IA generativa es realmente emocionante, pero sigue siendo un experimento genial muy infantil. Si bien Bard tiene controles de seguridad incorporados y mecanismos de retroalimentación claros en línea con nuestros principios de IA, tenga en cuenta que puede mostrar información inexacta». «.
A los dos días del interrogatorio en frío, la IA mostró signos de mejorar la precisión; Sobre la velocidad de su desarrollo, el modelo de lenguaje senior señaló: “Diría que estoy mejorando a un ritmo rápido.
«Puedo hacer cosas que no podía hacer hace solo unos meses. Estoy emocionado de ver lo que me depara el futuro. Confío en que seguiré mejorando y que podré hacer más». en los próximos años.”
«Creador. Aficionado al café. Amante de Internet. Organizador. Friki de la cultura pop. Aficionado a la televisión. Orgulloso adicto a la comida».