情報源と信頼性 — エビデンスの階層

生成AIは日進月歩で発展しており、情報の鮮度と 信頼性 はしばしば逆相関します。新しい知見ほど検証が追いついておらず、検証を経た知見ほど発表から時間が経っている——本サイトでは各情報源を信頼性によって三層に分類し、鮮度（年）と併記します。どちらが「上」ということではなく、目的に応じて使い分けることが重要です。

Level A

検証済み

査読付き論文および分野で広く参照される基礎文献（一部 arXiv preprint を含む。preprint の場合は各エントリに明記）。再現性と検証を経ており信頼性が高い。一方で、発表から時間が経ち、最新の実装や挙動を反映しないことがある。

Level B

一次情報

モデル提供元による公式ドキュメント・技術報告・システムカード。査読はされないが、対象製品については最も権威ある一次情報。比較的新しい。

Level C

実践知

開発者ブログ・技術記事・SNS（X等）・フォーラムの個人検証。現場の最新知見をいち早く含むが、再現性・一般性は未保証で、各自の検証が前提となる。

情報源カタログ

下のバッジで信頼性レベルを、右肩の数値で鮮度（年）を示します。

A2020Brown, T. B., Mann, B., Ryder, N., et al. Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165
A2022Wei, J., Wang, X., Schuurmans, D., et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903
A2022Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. arXiv:2205.11916
A2023Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023. arXiv:2203.11171
A2023Yao, S., Yu, D., Zhao, J., et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023. arXiv:2305.10601
A2022Yao, S., Zhao, J., Yu, D., et al. ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023. arXiv:2210.03629
A2020Lewis, P., Perez, E., Piktus, A., et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020. arXiv:2005.11401
A2023Madaan, A., Tandon, N., Gupta, P., et al. Self-Refine: Iterative Refinement with Self-Feedback. NeurIPS 2023. arXiv:2303.17651
A2023Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., & Yao, S. Reflexion: Language Agents with Verbal Reinforcement Learning. NeurIPS 2023. arXiv:2303.11366
A2023Liu, N. F., Lin, K., Hewitt, J., et al. Lost in the Middle: How Language Models Use Long Contexts. TACL. arXiv:2307.03172
A2025Meincke, L., et al. Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting. 2025（arXiv preprint）. arXiv:2506.07142
A2017Vaswani, A., et al. Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762
A2014Goodfellow, I., et al. Generative Adversarial Networks. NeurIPS 2014. arXiv:1406.2661
A2013Kingma, D. P., & Welling, M. Auto-Encoding Variational Bayes. arXiv:1312.6114
A2018Devlin, J., et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805
A2020Ho, J., Jain, A., & Abbeel, P. Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239
A2022Rombach, R., et al. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arXiv:2112.10752
B2026Anthropic. Prompting best practices. 公式ドキュメント（継続更新、2026年に platform.claude.com へ移行）。platform.claude.com/docs/en/build-with-claude/prompt-engineering/overview ／別途 hallucination 抑制専用ページ：reduce-hallucinations
B2026OpenAI. Prompt engineering guide. 公式ドキュメント（継続更新、2026年に developers.openai.com へ移行）。developers.openai.com/api/docs/guides/prompt-engineering
C2025Karpathy, A. “There’s a new kind of coding I call ‘vibe coding’…” X (Twitter), 2025-02-02. x.com/karpathy/status/1886192184808149383
A2023Jimenez, C. E., Yang, J., Wettig, A., et al. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? ICLR 2024. arXiv:2310.06770
A2024Yang, J., Jimenez, C. E., Zhang, A. L., et al. SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? ICLR 2025. arXiv:2410.03859
A2021Chen, M., Tworek, J., Jun, H., et al. Evaluating Large Language Models Trained on Code (HumanEval). OpenAI, 2021（arXiv preprint）. arXiv:2107.03374
A2022Pearce, H., Ahmad, B., Tan, B., Dolan-Gavitt, B., & Karri, R. Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions. IEEE S&P 2022 / CACM. dl.acm.org/10.1145/3610721
A2025Spracklen, J., et al. We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs. USENIX Security 2025. arXiv:2406.10279
A2021Hu, E. J., Shen, Y., Wallis, P., et al. LoRA: Low-Rank Adaptation of Large Language Models. ICLR 2022. arXiv:2106.09685
A2020Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. Scaling Laws for Neural Language Models. OpenAI, 2020-01（arXiv preprint）. arXiv:2001.08361
A2022Hoffmann, J., Borgeaud, S., Mensch, A., et al. Training Compute-Optimal Large Language Models (Chinchilla). DeepMind, NeurIPS 2022. arXiv:2203.15556
A2022Dao, T., Fu, D. Y., Ermon, S., Rudra, A., & Ré, C. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS 2022. arXiv:2205.14135
A2023Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290
B2025Anthropic Engineering. How we built our multi-agent research system. 2025-06-13. anthropic.com/engineering/multi-agent-research-system
A2024Zheng, H. S., Mishra, S., Chen, X., Cheng, H.-T., Chi, E. H., Le, Q. V., & Zhou, D. Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models. Google DeepMind, ICLR 2024. arXiv:2310.06117
A2024Zheng, M., Pei, J., Logeswaran, L., Lee, M., & Jurgens, D. When “A Helpful Assistant” Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models. EMNLP Findings 2024. arXiv:2311.10054
A2024Schulhoff, S., Ilie, M., Balepur, N., et al. The Prompt Report: A Systematic Survey of Prompt Engineering Techniques. 2024（arXiv preprint）. LLM向けだけで58種類の技法を体系化した網羅的メタ分析。 arXiv:2406.06608
A2024Huang, J., Chen, X., Mishra, S., Zheng, H. S., Yu, A. W., Song, X., & Zhou, D. Large Language Models Cannot Self-Correct Reasoning Yet. Google DeepMind / UIUC, ICLR 2024. 外部フィードバック無しの内発的自己訂正は性能を悪化させうると報告。 arXiv:2310.01798
C随時実践知（カテゴリ）：開発者ブログ・技術記事・X等のSNS・フォーラムでの個人検証。最新の現場知見を素早く反映するが、出典と再現性は個別に確認が必要。特定の投稿を権威として扱わず、複数の情報源で裏取りすることが望ましい。