To grasp how disastrously an apparently altruistic movement has run off course, consider that the value of organizations that provide healthy vegan food within their underserved communities are ignored as an area of funding because EA metrics canโt measure their โeffectiveness.โ Or how covering the costs of caring for survivors of industrial animal farming in sanctuaries is seen as a bad use of funds. Or how funding an โeffectiveโ organizationโs expansion into another country encourages colonialist interventions that impose elite institutional structures and sideline community groups whose local histories and situated knowledges are invaluable guides to meaningful action.
Nice. Kind of reminds me of a segment in Ken Burns' Vietnam documentary where to eradicate the Viet Kong, American military intelligence organizations became obsessed with body counts as a measure of 'winning' the war, so then the effect on the ground became shooting civs so we can count more bodies. The metric you use as a proxy for doing good (I've donated x dollars to combat homelessness while working for blackrock :)) isn't aligned with your desired outcome.
Hey, wait a minute, were EAs the misaligned entity all along??
โขโฃโกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃฟโฃฟโกโ ฒโขคโกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โขฟโกโ โ โ โ โ ฆโฃโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โขโฃ โ ดโขฒโฃพโฃฟโฃฟโ โ โ โ โขฟโกโ โ โ โ โ โ โขคโกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃโกคโ โ โ โ โ โขธโฃฟโกฟโ โ โ โ โ โ โขงโกโ โ โ โ โ โ โ โ ฆโกโ โ โ โ โ โ โ โ โ โ โ โ โฃโกคโ โ โ โ โ โ โ โ โ โฃธโกโ โ โ โ โ โ โ โ โ ณโกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃฐโ โ โ โ โ โ โ โ โ โ โ โ โขฆโกโ โฃโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โขโกดโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃถโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ ฐโฃโฃโ ดโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃฐโ โ โ โ โฃ โฃโ โ โ โ โ โ โ โ โ โ โฃโฃคโฃโ โ โ โ โ นโฃโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โข โ โ โ โ โขธโฃโฃฝโกโ โ โ โ โ โ โ โ โ โฃงโฃจโฃฟโ โ โ โ โ โ ธโฃโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โกโ โ โ โ โ โ ฟโ โ โ โ โขโฃโ โ โ โ โ โ โ โ โ โ โ โ โ โ โขนโกโ โ โ โ โ โ โ โ โ โ โ โ โ โขฐโขโกคโ โ โขฆโกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โฃ โ คโ คโขคโกโ โ โขงโ โ โ โ โ โ โ โ โ โ โ โ โ โขธโขธโกโ โ โขโกโ โ โ โ โขโฃ โ คโ คโขคโกโ โ โ โ โขธโกโ โ โ โฃนโ โ โขธโ โ โ โ โ โ โ โ โ โ โ โ โ โขธโกโ โ โ โ โ โ โ โ โ โขบโกโ โ โ โขนโ โ โ โ โ โ โ ฒโ ดโ โ โ โ โ ธโกโ โ โ โ โ โ โ โ โ โ โ โ โ โขทโกโ โ โ โ โ โ โ โ โ โ โ ฆโ คโ ดโ โ โ โ โ โ โ โ โ โ โ โ โ โ โกโ โ โ โ โ โ โ โ โ โ โ โ โ โ โขณโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โขธโ โ โ โ โ โ โ โ โ โ โ โ โ โ โขธโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โ โขธโ โ โ โ โ โ โ โ โ โ โ โ โ โ โ พโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ คโ ฆโ คโ คโ คโ คโ คโ คโ คโ ผโ โ โ โ
Reposting this for the new week thread since it truly is a record of how untrustworthy sammy and co are. Remember how OAI claimed that O3 had displayed superhuman levels on the mega hard Frontier Math exam written by Fields Medalist? Funny/totally not fishy story haha. Turns out OAI had exclusive access to that test for months and funded its creation and refused to let the creators of test publicly acknowledge this until after OAI did their big stupid magic trick.
From Subbarao Kambhampati via linkedIn:
"๐๐ง ๐ญ๐ก๐ ๐ฌ๐๐๐๐ฒ ๐จ๐ฉ๐ญ๐ข๐๐ฌ ๐จ๐ โ๐ฉ๐๐๐๐ ๐๐๐ ๐๐ ๐จ๐ฎ๐ฐ ๐ด๐๐๐ ๐๐ ๐ช๐๐๐๐๐๐๐๐๐ ๐ฉ๐๐๐๐๐๐๐๐ ๐ช๐๐๐๐๐๐๐โ hashtag#SundayHarangue. One of the big reasons for the increased volume of โ๐๐๐ ๐๐จ๐ฆ๐จ๐ซ๐ซ๐จ๐ฐโ hype has been o3โs performance on the โfrontier mathโ benchmarkโsomething that other models basically had no handle on.
We are now being told (https://lnkd.in/gUaGKuAE) that this benchmark data may have been exclusively available (https://lnkd.in/g5E3tcse) to OpenAI since before o1โand that the benchmark creators were not allowed to disclose this *until after o3 *.
That o3 does well on frontier math held-out set is impressive, no doubt, but the mental picture of โ๐1/๐3 ๐๐๐๐ ๐๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐ ๐๐๐๐, ๐๐๐ ๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ ๐๐ ๐๐๐๐๐๐๐๐ ๐๐๐๐โโthat the AGI tomorrow crowd seem to haveโthat ๐๐ฑ๐ฆ๐ฏ๐๐ ๐ธ๐ฉ๐ช๐ญ๐ฆ ๐ฏ๐ฐ๐ต ๐ฆ๐น๐ฑ๐ญ๐ช๐ค๐ช๐ต๐ญ๐บ ๐ค๐ญ๐ข๐ช๐ฎ๐ช๐ฏ๐จ, ๐ค๐ฆ๐ณ๐ต๐ข๐ช๐ฏ๐ญ๐บ ๐ฅ๐ช๐ฅ๐ฏโ๐ต ๐ฅ๐ช๐ณ๐ฆ๐ค๐ต๐ญ๐บ ๐ค๐ฐ๐ฏ๐ต๐ณ๐ข๐ฅ๐ช๐ค๐ตโis shattered by this. (I have, in fact, been grumbling to my students since o3 announcement that I donโt completely believe that OpenAI didnโt have access to the Olympiad/Frontier Math data before handโฆ )
I do think o1/o3 are impressive technical achievements (see https://lnkd.in/gvVqmTG9 )
๐ซ๐๐๐๐ ๐๐๐๐ ๐๐ ๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐ ๐๐๐๐ ๐๐๐ ๐๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐ ๐๐ ๐๐ ๐๐๐๐๐ ๐๐๐๐๐๐๐๐๐๐โ๐๐๐ ๐ ๐๐๐๐โ๐ ๐๐๐๐๐ ๐๐๐๐๐๐ โ๐จ๐ฎ๐ฐ ๐ป๐๐๐๐๐๐๐.โ
We all know that data contamination is an issue with LLMs and LRMs. We also know that reasoning claims need more careful vetting than โ๐ธ๐ฆ ๐ฅ๐ช๐ฅ๐ฏโ๐ต ๐ด๐ฆ๐ฆ ๐ต๐ฉ๐ข๐ต ๐ด๐ฑ๐ฆ๐ค๐ช๐ง๐ช๐ค ๐ฑ๐ณ๐ฐ๐ฃ๐ญ๐ฆ๐ฎ ๐ช๐ฏ๐ด๐ต๐ข๐ฏ๐ค๐ฆ ๐ฅ๐ถ๐ณ๐ช๐ฏ๐จ ๐ต๐ณ๐ข๐ช๐ฏ๐ช๐ฏ๐จโ (see โIn vs. Out of Distribution analyses are not that useful for understanding LLM reasoning capabilitiesโ https://lnkd.in/gZ2wBM_F ).
At the very least, this episode further argues for increased vigilance/skepticism on the part of AI research community in how they parse the benchmark claims put out commercial entities."
Big stupid snake oil strikes again.