<?xml version="1.0" encoding="UTF-8" ?>
  <rss version="2.0">
    <channel>

<title>Perpetuum Vestigium</title>
      <link>http://entelechie.ycool.com/</link>
      <description><![CDATA[]]></description>
      <pubDate>Wed, 04 Feb 2009 21:02:55 GMT</pubDate>
      <lastBuildDate>Wed, 04 Feb 2009 21:02:55 GMT</lastBuildDate>
      <image>
        <url>http://sta.yculblog.com/images/logo/general-88x31.gif</url>
        <title>Perpetuum Vestigium</title>
        <link>http://entelechie.ycool.com/</link>
      </image>
<item>
        <title>三年为期</title>
        <link>http://entelechie.ycool.com/post.3122704.html</link>
        <description><![CDATA[http://entelechie.ycool.com/post.1083162.html<br />
<br />
三年前的2月6日，换到这个blog。<br />
现在是说再见的时候了。<br />
请访问：<br />
<a href="http://www.entelechie.cn "><br />
<font size="5">http://www.entelechie.cn</font></a><font size="5"><br />
<font color="#ff0000"><br />
<br />
</font></font><font color="#ff0000">麻烦各位帅哥美女更新下链接。</font>...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.3122704.html</guid>
        <pubDate>Tue, 03 Feb 2009 13:02:59 GMT</pubDate>

      </item>

      <item>
        <title>去年看到的一句有意思的话</title>
        <link>http://entelechie.ycool.com/post.3118786.html</link>
        <description><![CDATA[相信不少人都和我一样，在sourcesforge上疯狂的找实现#&amp;9q(功能的的library，结果往往是一无所获。<br />
<br />
去年在某木工论坛上看到一句话：<strong>如果发现你想要的工具、材料在市场上找不到，那是因为你的方案不对。<br />
</strong>这就是所谓的&ldquo;日光之下并无新事&rdquo;吧？<br />
<br />
当然啦，cutting-edge的除外。...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.3118786.html</guid>
        <pubDate>Wed, 28 Jan 2009 03:01:05 GMT</pubDate>

      </item>

      <item>
        <title>本命年终于过完了</title>
        <link>http://entelechie.ycool.com/post.3117600.html</link>
        <description><![CDATA[这一年真是背啊，总算过去了。。<br />
<br />
bravo!...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.3117600.html</guid>
        <pubDate>Mon, 26 Jan 2009 01:01:47 GMT</pubDate>

      </item>

      <item>
        <title>09年的目标</title>
        <link>http://entelechie.ycool.com/post.3094787.html</link>
        <description><![CDATA[一篇论文<br />
两个专利<br />
三个项目<br />
<br />
<br />
嗯嗯，争取把个人问题也解决了。...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.3094787.html</guid>
        <pubDate>Fri, 02 Jan 2009 04:01:25 GMT</pubDate>

      </item>

      <item>
        <title>关于Query Classification和Query Intention</title>
        <link>http://entelechie.ycool.com/post.3094720.html</link>
        <description><![CDATA[对于全网引擎，Query Analysis主要是在两个层面的分类<br />
<ul>
 <li>Query意图的分类：Navigational、Informational、Transactional，再具体一点的Download，Local Info之类；</li>
 <li>Query知识类别上的分类：分类目标是新闻、体育、经济、音乐，主要目的是为了做多个垂直引擎的结果融合或者Query Planing；</li>
</ul>
<br />
先说知识类别上的分类吧，这个东西在全网搜索中使用较多，本身难度也不大，比较确定。抽象说的，思路无非都是通过Query搜索结果中的文档进行分类，再balabalabala到Query，因为Query本身实在太短了。<br />
这个方向最新的、比较有意思的论文应该是MSRA的[<a href="http://research.microsoft.com/users/xiaol/papers/sigir2008.pdf">paper1</a>]，用的Spectral Clustering的方法，有兴趣的可以用过引用扩展阅读。<br />
<br />
至于意图的分类，不确定性就比较大了。<br />
<br />
首先意图如何定义？Navigational、Informational、Transcational这三个分类目标是Yahoo的同学提得[<a href="http://www2.sims.berkeley.edu/courses/is141/f05/readings/rose_www04.pdf">paper2</a>]，应该算Query意图分类目标定义的鼻祖了，被引用无数。但是这三个目标对于全网搜索来说也太粗犷了，对于垂直搜索的意图分析更没有可推广性。<br />
<br />
我认为新加坡国立[<a href="http://www2007.org/workshops/paper_44.pdf">paper3</a>]中的思路值得借鉴：将一个Query通过时效性、地域性、权威性、模糊程度四个维度进行刻画，描述的维度是可以根据具体应用进行扩充的，而且传统的Navigational/Informational/Transcational也可以被映射到这个系统中来。这篇paper的另一个贡献在于明确了Query意图分析是N个Binary-Class分类问题的组合，而不是一个N-Class分类问题。就我目前的所看到的数据，将Query意图分类作为一个N-Class的分类问题本身也是不可解的。<br />
<br />
其实Yahoo自己也是通过Binary-Classifier来做Query意图分类的，关于具体的实现在[<a href="http://www.ee.ucla.edu/~luym/LuPengLiAhmed06CIKM.pdf">paper4</a>]中写的比较详细，基本上都是一些工程性的东西：想尽办法找特征，穷凶极恶的特征选择。模型？其实无所谓了，考虑到特征基本都是interdependent的，要不用CRF吧。<br />
<br />
可以拿来做Query意图分类的特征，对于Query本身，可以分 词性、语义、词 三层。这个主要就看各家公司的资源了，没有雄厚的积累基本上提不出什么有用的信息；至于Query之外，命中结果数、用户搜索PV、命中URL中的字符串、用户点击、命中文档内容&hellip;&hellip;一切的一切，其实都能用得上，就看有多少资源available了。<br />
<br />
最后我想说，其实资源到位了，做Query意图分析还是比较靠谱的。<br />
欢迎各位大大和我讨论，entelechie@gmail.com<br />
<br />
本文中提到的论文<br />
<ol>
 <li><a href="http://portal.acm.org/citation.cfm?id=1390334.1390393" onmousedown="new Image().src='/scholar_url?sa=T&amp;url=http://portal.acm.org/citation.cfm%3Fid%3D1390334.1390393';" target="_blank">Learning query intent from regularized click graphs</a></li>
 <li><a href="http://portal.acm.org/citation.cfm?id=988672.988675&amp;coll=portal&amp;dl=ACM&amp;type=series&amp;idx=SERIES968&amp;part=series&amp;WantType=Proceedings&amp;title=WWW" onmousedown="new Image().src='/scholar_url?sa=T&amp;url=http://portal.acm.org/citation.cfm%3Fid%3D988672.988675%26coll%3Dportal%26dl%3DACM%26type%3Dseries%26idx%3DSERIES968%26part%3Dseries%26WantType%3DProceedings%26title%3DWWW';" target="_blank">Understanding user goals in web search</a></li>
 <li><a href="http://www2007.org/workshops/paper_44.pdf" onmousedown="new Image().src='/scholar_url?sa=T&amp;url=http://www2007.org/workshops/paper_44.pdf&amp;oi=ggp';" target="_blank">Functional faceted web query analysis</a></li>
 <li><a href="http://www.ee.ucla.edu/~luym/LuPengLiAhmed06CIKM.pdf">Coupling Feature Selection and Machine Learning Methods for Navigational Query Identiﬁcation</a></li>
</ol>...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.3094720.html</guid>
        <pubDate>Fri, 02 Jan 2009 01:01:20 GMT</pubDate>
<category>搜索</category>

        <category>自然语言处理</category>

        <category>intention</category>

        <category>query意图分析</category>

        <category>query分类</category>

        <category>classification</category>
      </item>

      <item>
        <title>电影周末</title>
        <link>http://entelechie.ycool.com/post.2997966.html</link>
        <description><![CDATA[周末把Hancock和千年女优给看了。<br />
两部爱情悲剧，几乎一模一样主题：世界上最遥远的距离，是明明相爱却不能在一起。<br />
几世的姻缘离散，最终还是只能分开。且续此轮回，永无解脱。<br />
这样的悲剧总是很有力量，迫使我们去追求去珍惜。<br />
<br />
=====分界线======<br />
1.<a href="http://www.photoblog.com/user/entelechie/">entelechie's Photoblog</a>有新的长白山和西藏照片；<br />
2.Contax T2入手，我真败家；但是我确实需要这么一直正经机器；<br />
3.其实Wall&middot;E我也看了，也许是期望太高吧，不如Dark Knight；<br />
4.《<a href="http://fifid.com/search/%E8%AF%BB%E5%BA%93?src=yb_qsal&utm_source=yb_qsal&utm_medium=link&utm_content=rsspost" target="_blank">读库</a>》很靠谱，推荐。...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2997966.html</guid>
        <pubDate>Sun, 09 Nov 2008 14:11:56 GMT</pubDate>

      </item>

      <item>
        <title>周末分享</title>
        <link>http://entelechie.ycool.com/post.2991492.html</link>
        <description><![CDATA[1. &quot;<a href="http://www.worldofgoo.com/">world of goo</a>&quot;，这个游戏，每一个geek都不应该错过。。。。第四幕最后的对话不得不说&hellip;&hellip;很愤青。<br />
2. 周末入手了一个箱子，Line 6的Spider 15。失真很爽，具体一点就是很冲很有颗粒感很爆裂。干琴音色一般。。网上演示<a href="http://www.youtube.com/watch?v=IM6nJ3AnMzA">在此</a>，应该算1k左右比较好的选择了。Roland的Cube效果器功能有点单一。 btw，我现在Don't cry都弹不来了。<br />
3. 下午跑了一趟祥升行，那只万恶的<a href="http://www.photoblog.com/entelechie/2007/03/24/niub.html">mju2</a>回卷有问题，今年N卷<a href="http://www.xitek.com/product/showproduct.php?productid=3390">T-Max</a>都是开来后盖的。之前我都不太想冲了，然后靠谱黑白吊挂是25一卷。嗯嗯，间或要把那只<a href="http://forum.xitek.com/showthread.php?threadid=422512&amp;pagenumber=1">Contax T2</a>给收了？<br />
4. 其实<a href="www.photoblog.com/entelechie/">我的Photoblog</a>最近还是更新了一下；有几张长白山的片子。十一这次长白山，单反+乐摄宝再一次让我伤透了心，还是华丽的胶片旁轴靠谱。<br />
5. 还是今天下午，在三联书店发现<a href="http://www.douban.com/doulist/47191/">一套牛逼读物</a>。。。。算是我朝近年的左派思潮总结了，牛逼到死。...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2991492.html</guid>
        <pubDate>Sun, 02 Nov 2008 15:11:00 GMT</pubDate>

      </item>

      <item>
        <title>百度</title>
        <link>http://entelechie.ycool.com/post.2976704.html</link>
        <description><![CDATA[http://www.baidu.com/s?wd=%D7%EE%B4%F3%CD%F8%C2%E7%C1%F7<br />
<br />
我一直以为百度技术已经大有长进，没想到。。。嗯嗯<br />
做不了你就不要做嘛。。。真是没语言了...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2976704.html</guid>
        <pubDate>Tue, 07 Oct 2008 02:10:28 GMT</pubDate>

      </item>

      <item>
        <title>History</title>
        <link>http://entelechie.ycool.com/post.2975952.html</link>
        <description><![CDATA[http://web.archive.org/web/20020528073651/http://bbs.nsfocus.com/<br />
<br />
我的青春留在这里。。。<br />
不知七年之后又会是怎样。...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2975952.html</guid>
        <pubDate>Sun, 05 Oct 2008 02:10:38 GMT</pubDate>

      </item>

      <item>
        <title>混乱的Python</title>
        <link>http://entelechie.ycool.com/post.2964551.html</link>
        <description><![CDATA[by-value or by-reference?

when I use reduce() to handle a list of dictionary objects(or any other mutable objects), it's really sake to write something like
<pre>
tmp = [{}];
tmp.extend(my_dicts);
x=reduce(lambda x, y: ... , tmp)
</pre>


Jesus, forgive me......
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2964551.html</guid>
        <pubDate>Sun, 14 Sep 2008 09:09:39 GMT</pubDate>

      </item>

      <item>
        <title>Do you remember?</title>
        <link>http://entelechie.ycool.com/post.2949306.html</link>
        <description><![CDATA[<a href="http://www.youtube.com/v/qIs0u8PuyGc&amp;hl=en&amp;fs=1" class="abp-objtab-04770086142670805 visible" title="Click here to block this object with Adblock Plus" style="left: 0px ! important; top: 0px ! important;"></a><object height="344" width="425">
<param value="http://www.youtube.com/v/qIs0u8PuyGc&amp;hl=en&amp;fs=1" name="movie" />
<param value="true" name="allowFullScreen" /><embed height="344" width="425" allowfullscreen="true" type="application/x-shockwave-flash" src="http://www.youtube.com/v/qIs0u8PuyGc&amp;hl=en&amp;fs=1"></embed></object>...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2949306.html</guid>
        <pubDate>Tue, 19 Aug 2008 15:08:54 GMT</pubDate>

      </item>

      <item>
        <title>可悲的人</title>
        <link>http://entelechie.ycool.com/post.2948756.html</link>
        <description><![CDATA[《<a href="javascript:void(0);/*1219111443990*/">伊拉克2008年石油收入将达700亿美元</a>》，这是<strong>纯外汇收入</strong>，人口三千万。<br />
中国2007年<strong>财政</strong>收入50000亿人民币，人口十四亿。<br />
<br />
如果是纯爱心的显现，无话可说；通篇文章写的自己像救世主一样，可到底谁可怜谁？<br />
-《<a href="javascript:void(0);/*1219111749281*/">网友向伊拉克运动员赠送运动鞋等礼物</a>》...
]]></description>
        <guid isPermaLink="true">http://entelechie.ycool.com/post.2948756.html</guid>
        <pubDate>Tue, 19 Aug 2008 02:08:12 GMT</pubDate>

      </item>
    </channel>
  </rss>
