
<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Kommentarer till Frisim språk och spam</title>
	<atom:link href="http://www.frisim.com/blog/2008/07/08/frisim-sprak-och-spam/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.frisim.com/blog/2008/07/08/frisim-sprak-och-spam/</link>
	<description>Utvecklingsblogg för Frisim nyhetssök</description>
	<lastBuildDate>Wed, 22 Jun 2011 10:27:52 +0200</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.3</generator>
	<item>
		<title>Av: Clas</title>
		<link>http://www.frisim.com/blog/2008/07/08/frisim-sprak-och-spam/#comment-66349</link>
		<dc:creator>Clas</dc:creator>
		<pubDate>Wed, 09 Jul 2008 14:30:41 +0000</pubDate>
		<guid isPermaLink="false">http://www.frisim.com/blog/?p=450#comment-66349</guid>
		<description>Ah, tack, okej. Jag kör identifieringen på varje nytt blogginlägg just nu, men naturligtvis skulle jag kunna göra det en gång på varje feed (eller en gång på varje feed varje vecka, typ) istället. En (annan) fördel med att göra det på en &quot;hel&quot; feed, stället för på bara ett inlägg i taget, är ju att man får mer text att basera sin klassificering på. 

Att bestämma ursprungsland (eller kanske till och med hemstad) på bloggaren är också intressant, men det har jag inte gjort några sådana försök. Kanske är det möjligt att titta på vad det skrivs om (i bloggen) för att försöka gissa land/stad.</description>
		<content:encoded><![CDATA[<p>Ah, tack, okej. Jag kör identifieringen på varje nytt blogginlägg just nu, men naturligtvis skulle jag kunna göra det en gång på varje feed (eller en gång på varje feed varje vecka, typ) istället. En (annan) fördel med att göra det på en &#8221;hel&#8221; feed, stället för på bara ett inlägg i taget, är ju att man får mer text att basera sin klassificering på. </p>
<p>Att bestämma ursprungsland (eller kanske till och med hemstad) på bloggaren är också intressant, men det har jag inte gjort några sådana försök. Kanske är det möjligt att titta på vad det skrivs om (i bloggen) för att försöka gissa land/stad.</p>
]]></content:encoded>
	</item>
	<item>
		<title>Av: Martin Källström</title>
		<link>http://www.frisim.com/blog/2008/07/08/frisim-sprak-och-spam/#comment-66317</link>
		<dc:creator>Martin Källström</dc:creator>
		<pubDate>Wed, 09 Jul 2008 09:33:27 +0000</pubDate>
		<guid isPermaLink="false">http://www.frisim.com/blog/?p=450#comment-66317</guid>
		<description>Hej Clas,

vad vi gör för att öka kvalitén är att detektera språk individuellt för varje inlägg i bloggens RSS-feed och sedan sätta det mest representerade språket som språk för alla inläggen. Då offrar man tvåspråkiga bloggar, men hittills är det ingen som klagat över det. Bättre att något fåtal bloggar bara får ett enda språk på sina inlägg än att alla bloggar får 5% av sina inlägg felklassificerade. Om någon blogg byter språk helt kommer klassificeringen snappa upp detta.

Ett annat intressant problem är landsklassificering. Hur avgör man t ex att ett blogginlägg är brittiskt snarare än amerikanskt, eller från Tyskland snarare än Österrike?

Mvh Martin</description>
		<content:encoded><![CDATA[<p>Hej Clas,</p>
<p>vad vi gör för att öka kvalitén är att detektera språk individuellt för varje inlägg i bloggens RSS-feed och sedan sätta det mest representerade språket som språk för alla inläggen. Då offrar man tvåspråkiga bloggar, men hittills är det ingen som klagat över det. Bättre att något fåtal bloggar bara får ett enda språk på sina inlägg än att alla bloggar får 5% av sina inlägg felklassificerade. Om någon blogg byter språk helt kommer klassificeringen snappa upp detta.</p>
<p>Ett annat intressant problem är landsklassificering. Hur avgör man t ex att ett blogginlägg är brittiskt snarare än amerikanskt, eller från Tyskland snarare än Österrike?</p>
<p>Mvh Martin</p>
]]></content:encoded>
	</item>
</channel>
</rss>

